Clasificación multilingüe de documentos utilizando machine learning y la Wikipedia
DATE:
2018-01-31
UNIVERSAL IDENTIFIER: http://hdl.handle.net/11093/928
DOCUMENT TYPE: doctoralThesis
ABSTRACT
Hoy en día hay una gran cantidad de información disponible en Internet, que se está generando continuamente a través de diferentes fuentes y en diferentes idiomas. Esto requiere que la información esté organizada, clasificada o agrupada de una cierta manera que facilita a los usuarios el acceso a aquella información o documentos que son de su interés de una manera eficaz, eficiente, simple y rápida. Tres de las principales técnicas utilizadas para la gestión de información de forma automática son la clasificación y clustering de los documentos así como la búsqueda o recuperación de información.
La clasificación, clustering y recuperación de información requieren una representación común de los documentos para que los algoritmo empleados puedan entenderlos y / o relacionarlos. La representación de los documentos utilizada en las tres técnicas anteriores se basa en la aplicación de técnicas de procesado del lenguaje natural (NLP) las cuales hacen uso de las características del lenguaje natural contenidas en los documentos, como la frecuencia de ocurrencia de las palabras o la estructura del lenguaje utilizada. A pesar de la existencia de una gran cantidad de representaciones, el más utilizado es el modelo de espacio vectorial---Vector Space Model (VSM)---en Inglés. Cuando se seleccionan las palabras como las características del lenguaje natural para representar los documentos, la representación se conoce como bolsa de palabras---Bag-of-Words (BoW) en Inglés---es decir, cada documento se representa como el conjunto de las palabras que aparecen en el documento, repetidas tantas veces como ocurrencias haya en el texto.
A pesar de ser una de las representaciones utilizadas tradicionalmente en las tareas de clasificación, clustering y recuperación de información, el modelo BoW no es óptimo, ya que sólo se tiene en cuenta la frecuencia de ocurrencia de las palabras en los documentos, ignorando así importantes relaciones semánticas entre ellas . Entre las principales limitaciones del modelo BoW se encuentran los problemas ofrecidos por la redundancia, la ambigüedad, ortogonalidad, hiponimia y hiperonimia.
La representación de los documentos juega un papel fundamental en el rendimiento de cualquiera de las tareas de gestión de información presentadas anteriormente. Los paradigmas más relevantes del estado del arte para la representación de los documentos cuentan con una serie de inconvenientes que hacen que estas representaciones no sean óptimas. Con el objetivo de tratar de mejorar la representación de los documentos, se propone la utilización de un anotador semántico que hace uso del conocimiento enciclopédico contenido en la Wikipedia---en particular, hacemos uso del algoritmo Wikipedia Miner---para representar los documentos. Estas representaciones se utilizarán en diferentes tareas de gestión de información como la clasificación y el clustering de textos y la recuperación de información para verificar su aplicabilidad y beneficios aportados al rendimiento de las tres tareas anteriormente mencionadas.
El objetivo final de la propuesta es la validación de la aplicabilidad y beneficios aportados por el uso de una representación de los documentos basada en conceptos que hace uso de conocimiento enciclopédico---en particular de la Wikipedia---a diferentes tareas de gestión de información digital multiidioma como la clasificación y clustering de los documentos y la recuperación de información. Today there is a lot of information available on the Internet, which is continuously generated through different sources and in different languages. This requires that the information is organized, classified or grouped in a certain way that provides users to access to such information or documents that are of interest in an effective, efficient, simple and fast way. Three of the main techniques used for automatically managing information are document classification and clustering and information retrieval.
Classification, clustering and information retrieval require a common representation of documents so that the algorithms used can understand or relate them. The representation of the documents used in the three previous techniques is based on the application of techniques of natural language processing (NLP) which make use of the features of natural language contained in documents such as the frequency of occurrence of words or the structure of language used. Despite the existence of a large number of representations, the most used is the Vector Space Model (VSM). When words are used as features, the representation is known as bag of words (BoW), i.e. each document is represented as a set the words that appear in the document, repeated as many times as occurrences in the text.
Despite being one of the traditionally used representation in classification tasks, clustering and information retrieval, the Bow model is not optimal, because it only takes into account the frequency of occurrence of words in documents, thus ignoring important semantic relationships between them. Among the main limitations of the BoW model are the problems offered by redundancy, ambiguity, orthogonality, hyponymy and hiperonimy.
The representation of documents plays a critical role in the performance of any of the information management tasks presented above. The most relevant state of the art paradigms for representing documents have a number of drawbacks that make these representations are not optimal. With the aim of trying to improve the representation of documents, we propose the use of a semantic annotator that makes use of the encyclopedic knowledge contained in Wikipedia---in particular, we use the Wikipedia Miner algorithm---to represent documents . These representations are used in different information management tasks such as text classification and clustering and information retrieval in order to verify its applicability and performance improvement offered to the above three tasks.
The main goal of the proposal is to validate the applicability and benefits offered by the use of a representation of documents based on concepts that makes use of encyclopedic knowledg---in particular Wikipedia---to different multilanguage digital information management tasks such as document classification and clustering and information retrieval. Hoxe en día existe unha grande cantidade de información dispoñible na Internet, a cal está sendo xerada de forma continua a través diferentes fontes e en diferentes linguaxes. Isto require que a información estea organizada, ordenada ou agrupada dunha certa forma que facilite ós usuarios o acceso a aquela información ou documentos que son do seu interese dunha forma efectiva, eficiente, sinxela e rápida. Tres das principais técnicas empregadas para a xestión de información de forma automática son a clasificación e clustering de documentos, así como a busca ou recuperación de información.
A clasificación, clustering e recuperación de información requiren dunha representación común dos documentos de forma que os algoritmos empregados poidan entendelos e/ou relacionalos. A representación dos documentos utilizada nas tres anteriores técnicas baséase na aplicación de técnicas de Procesado da Linguaxe Natural (PLN), que fan uso das características da linguaxe natural contidas nos documentos, como a frecuencia de ocorrencia das palabras ou a estrutura da linguaxe utilizada. A pesar da existencia dunha grande cantidade de representacións diferentes, a máis empregada é o modelo de espazo vectorial---Vector Space Model (VSM) en inglés. Cando se seleccionan as palabras como características da linguaxe natural para representar os documentos, a representación coñécese como bolsa-de-palabras---Bag-of-Words (BoW) en inglés---é dicir, cada documento represéntase coma o conxunto das palabras que aparecen nos documentos, repetidas tantas veces como ocorrencias haxa no texto.
A pesar de ser unha das representacións tradicionalmente utilizadas en tarefas de clasificación, clustering e recuperación de información , o modelo BoW non é óptimo, debido a que unicamente ten en conta a frecuencia de aparición das palabras nos documentos, ignorando así importantes relacións semánticas entre elas. Entre as principais limitacións do modelo BoW atópase os problemas ofrecidos pola redundancia , a ambigüidade , a ortogonalidade, a hiponimia e a hiperonima.
A representación dos documentos xoga un papel fundamental no rendemento de calquera das tarefas de xestión de información presentadas anteriormente. Os paradigmas máis relevantes do estado da arte para a representación dos documentos contan cunha serie de inconvenientes que provocan que ditas representacións non sexan óptimas. Ca fin de intentar mellorar a representación dos documentos, propoñemos a utilización dun anotador semántico que fai uso do coñecemento enciclopédico contido na Wikipedia---en particular facemos uso do algoritmo Wikipedia Miner---para representar os documentos. Ditas representacións serán empregadas en distintas tarefas de xestión da información coma a clasificación e clústering de textos e recuperación de información para verificar a súa aplicabilidade e os beneficios aportados ó rendemento das tres tarefas antes citadas.
O obxectivo final da proposta e á validación da aplicabilidade e beneficios aportados pola utilización dunha representación dos documentos baseada en conceptos que fai uso de coñecemento enciclopédico---en particular da Wikipedia---a distintas tarefas de xestión de información dixital multilingüe tales como a clasificación e clustering de documentos e a recuperación de información.