DATE:
2022-02-10
UNIVERSAL IDENTIFIER: http://hdl.handle.net/11093/3046
DOCUMENT TYPE: doctoralThesis
ABSTRACT
El término spam hace referencia a mensajes no solicitados, no deseados o con remitente desconocido. Estos mensajes suelen ser enviados en grandes cantidades y con fines exclusivamente publicitarios.
Aunque la vía más utilizada para hacer spam es el correo electrónico, puede hacerse a través de diversos servicios de Internet. Hasta el momento, la detección y filtrado de spam se ha centrado principalmente en la detección de anuncios sobre productos ilegales o fraudulentos, pero no en los intereses reales de usuario. Sin embargo, hay mensajes cuyos contenidos son irrelevantes para el usuario de la misma forma que los anuncios descritos anteriormente.
Los mecanismos empleados actualmente para la detección y el filtrado de spam se basan en combinaciones de técnicas efectuadas con productos como SpamAssassin o frameworks similares. A partir de estos mecanismos, la obtención de mejoras en el filtrado sería posible mejorando el resultado de alguna de las técnicas independientes combinadas.
El presente trabajo de investigación pretende obtener mejoras en el ámbito de las técnicas basadas en contenido. La motivación para esta decisión es que, en la actualidad, a pesar de la gran cantidad de aproximaciones existentes, el uso de aproximaciones basadas en contenido con mecanismos de aprendizaje automático se ha convertido en objeto de estudio por la efectividad que éstas podrían alcanzar gracias a la generalización e integración de conocimiento existente.
Hasta el momento, las aproximaciones basadas en contenido se basaban en el empleo de técnicas de clasificación aplicadas sobre información de la presencia (o no) de tokens en el contenido. Sin embargo esta información de entrada para los clasificadores presenta inconvenientes importantes que impiden la obtención de unos resultados realmente precisos, como por ejemplo, la dependencia entre las características. De hecho, este modelo de clasificación, basado en tokens, se ha probado y optimizado en los últimos años hasta llegar a un punto en que, en la actualidad, es imposible obtener mejoras sustanciales y tender hacia la erradicación de los errores de clasificación.
La presente investigación se centra en la incorporación de información semántica proveniente de un diccionario ontológico (Wordnet o Babelnet, por ejemplo). Así, en lugar de emplear información sobre tokens sería posible el empleo de synsets (conceptos). De esta forma, se podría obtener una mejora sustancial en la eficacia de los clasificadores, así como la identificación de los intereses del usuario (construcción de su perfil) para que los clasificadores eliminen la publicidad engañosa y los mensajes irrelevantes para el usuario.
La hipótesis de partida para este trabajo es la siguiente: “Es posible preprocesar eficientemente contenidos intercambiados mediante los distintos protocolos y servicios de Internet para su representación en forma de synsets y obtener, mediante estos datos, mejoras significativas en la eficacia del filtrado de contenido spam”. Por tanto, este trabajo incluye dos objetivos generales que son (i) la elaboración de un mecanismo de preprocesamiento eficiente y (ii) la mejora del filtrado con los datos obtenidos del preprocesamiento de los contenidos. Dada la hipótesis formulada, se plantea la necesidad de alcanzar una serie de subobjetivos como (i) la construcción de un framework genérico para ejecutar un pipeline de preprocesamiento del texto que concluirá con la obtención del dataset procesado, (ii) la implementación de cada una de las tareas de preprocesamiento y (iii) pruebas de clasificación de textos representados en función de tokens y de synsets. O termo spam fai referencia a mensaxes non solicitadas, non desexados ou con remitente descoñecido. Estas mensaxes adoitan ser enviadas en grandes cantidades e con fins exclusivamente publicitarios.
Aínda que a vía máis utilizada para facer spam é o correo electrónico, pode facerse a través de diversos servizos da Internet. Ata o momento, a detección e filtrado de spam centrouse principalmente na detección de anuncios sobre produtos ilegais ou fraudulentos, pero non nos intereses reais de usuario. Con todo, hai mensaxes cuxos contidos son irrelevantes para o usuario da mesma forma que os anuncios descritos anteriormente.
Os mecanismos empregados actualmente para a detección e o filtrado de spam baséanse en combinacións de técnicas efectuadas con produtos como SpamAssassin ou frameworks similares. A partir destes mecanismos, a obtención de melloras no filtrado sería posible mellorando o resultado dalgunha das técnicas independentes combinadas.
O presente traballo de investigación pretende obter melloras no ámbito das técnicas baseadas en contido. A motivación para esta decisión é que, na actualidade, a pesar da gran cantidade de aproximacións existentes, o uso de aproximacións baseadas en contido con mecanismos de aprendizaxe automática converteuse en obxecto de estudo pola efectividade que estas poderían alcanzar grazas á xeneralización e integración de coñecemento existente.
Ata o momento, as aproximacións baseadas en contido baseábanse no emprego de técnicas de clasificación aplicadas sobre información da presenza (ou non) de tokens no contido. Con todo esta información de entrada para os clasificadores presenta inconvenientes importantes que impiden a obtención duns resultados realmente precisos, por exemplo, a dependencia entre as características. De feito, este modelo de clasificación, baseado en tokens, probouse e optimizouse nos últimos anos ata chegar a un punto en que, na actualidade, é imposible obter melloras substanciais e tender cara á erradicación dos erros de clasificación.
A presente investigación céntrase na incorporación de información semántica proveniente dun dicionario ontolóxico (Wordnet ou Babelnet, por exemplo). Así, en lugar de empregar información sobre tokens sería posible o emprego de synsets (conceptos). Desta forma, poderíase obter unha mellora substancial na eficacia dos clasificadores, así como a identificación dos intereses do usuario (construción do seu perfil) para que os clasificadores eliminen a publicidade enganosa e as mensaxes irrelevantes para o usuario.
A hipótese de partida para este traballo é a seguinte: “É posible preprocesar eficientemente contidos intercambiados mediante os distintos protocolos e servizos da internet para a súa representación en forma de synsets e obter, mediante estes datos, melloras significativas na eficacia do filtrado de contido spam”. Por tanto, este traballo inclúe dous obxectivos xerais que son (i) a elaboración dun mecanismo de preprocesamiento eficiente e (ii) a mellora do filtrado cos datos obtidos do preprocesamiento dos contidos. Dada a hipótese formulada, exponse a necesidade de alcanzar unha serie de subobjetivos como (i) a construción dun framework xenérico para executar un pipeline de preprocesamiento do texto que concluirá coa obtención do dataset procesado, (ii) a implementación de cada unha das tarefas de preprocesamiento e (iii) probas de clasificación de textos representados en función de tokens e de synsets. Spamming is the use of messaging systems to send unsolicited messages (spam), especially advertising, as well as sending messages repeatedly on the same site.
While the most widely recognized form of spam is email spam, the term is applied to similar abuses in other media. So far, spam detection and filtering has focused primarily on detecting advertisment, on illegal or fraudulent products, but not on real user interests. However, there are messages whose contents are irrelevant to the user in the same way as the advertisement described above.
The currently used mechanisms for spam detection and filtering are based on combinations of techniques made with products such as SpamAssassin or similar frameworks. From these mechanisms, it would be possible to improve filtering by improving the result of some of the independent techniques combined.
This research aims to obtain improvements in the scope of content-based techniques. The motivation for this decision is that, at present, despite the large number of existing approaches, the use of content-based approaches with machine learning mechanisms has become an object of study because of the effectiveness that this techniques could achieve through the generalization and integration of existing knowledge.
So far, content-based approaches were based on the use of classification techniques applied to information on the presence (or not) of tokens in content. However, this input information for classifiers presents important drawbacks, such as the dependency between the characteristics, that prevent from obtaining really precise results. In fact, this classification approach, based on tokens, has been tested and optimized in recent years until reaching a point where, at present, it is impossible to obtain substantial improvements and tend towards the eradication of classification errors.
The present research focuses on the incorporation of semantic information from an ontological dictionary (Wordnet or Babelnet, for example). This way, instead of using token information it would be possible to use synsets (concepts). Thus, a substantial improvement in the efficiency of the classifiers could be obtained, as well as the identification of user interests (construction of his profile), so that the classifiers could eliminate the misleading publicity and the irrelevant messages for that user.
The initial hypothesis for this work is the following: "It is possible to efficiently preprocess contents exchanged through the different protocols and Internet services for its representation in the form of synsets and to obtain, through these data, substantial improvement in the effectiveness of spam content filtering". Therefore, this work includes two general objectives that are (i) the elaboration of an efficient preprocessing mechanism and (ii) the improvement of the filtering with the data obtained from the content preprocessing. Given the hypothesis formulated, there is a need to achieve a series of sub-objectives such as (i) the construction of a generic framework to execute a text preprocessing pipeline that will conclude with obtaining the processed dataset, (ii) the implementation of each of the preprocessing tasks and (iii) testing text classification, where texts are represented with tokens and synsets.