RT Dissertation/Thesis T1 Clasificación multilingüe de documentos utilizando machine learning y la Wikipedia T2 Multilingual document classification using machine learning and Wikipedia A1 Mouriño García, Marcos Antonio K1 1203.04 Inteligencia Artificial K1 1203.17 Informática AB Hoy en día hay una gran cantidad de información disponible en Internet, que se está generando continuamente a través de diferentes fuentes y en diferentes idiomas. Esto requiere que la información esté organizada, clasificada o agrupada de una cierta manera que facilita a los usuarios el acceso a aquella información o documentos que son de su interés de una manera eficaz, eficiente, simple y rápida. Tres de las principales técnicas utilizadas para la gestión de información de forma automática son la clasificación y clustering de los documentos así como la búsqueda o recuperación de información.La clasificación, clustering y recuperación de información requieren una representación común de los documentos para que los algoritmo empleados puedan entenderlos y / o relacionarlos. La representación de los documentos utilizada en las tres técnicas anteriores se basa en la aplicación de técnicas de procesado del lenguaje natural (NLP) las cuales hacen uso de las características del lenguaje natural contenidas en los documentos, como la frecuencia de ocurrencia de las palabras o la estructura del lenguaje utilizada. A pesar de la existencia de una gran cantidad de representaciones, el más utilizado es el modelo de espacio vectorial---Vector Space Model (VSM)---en Inglés. Cuando se seleccionan las palabras como las características del lenguaje natural para representar los documentos, la representación se conoce como bolsa de palabras---Bag-of-Words (BoW) en Inglés---es decir, cada documento se representa como el conjunto de las palabras que aparecen en el documento, repetidas tantas veces como ocurrencias haya en el texto.A pesar de ser una de las representaciones utilizadas tradicionalmente en las tareas de clasificación, clustering y recuperación de información, el modelo BoW no es óptimo, ya que sólo se tiene en cuenta la frecuencia de ocurrencia de las palabras en los documentos, ignorando así importantes relaciones semánticas entre ellas . Entre las principales limitaciones del modelo BoW se encuentran los problemas ofrecidos por la redundancia, la ambigüedad, ortogonalidad, hiponimia y hiperonimia.La representación de los documentos juega un papel fundamental en el rendimiento de cualquiera de las tareas de gestión de información presentadas anteriormente. Los paradigmas más relevantes del estado del arte para la representación de los documentos cuentan con una serie de inconvenientes que hacen que estas representaciones no sean óptimas. Con el objetivo de tratar de mejorar la representación de los documentos, se propone la utilización de un anotador semántico que hace uso del conocimiento enciclopédico contenido en la Wikipedia---en particular, hacemos uso del algoritmo Wikipedia Miner---para representar los documentos. Estas representaciones se utilizarán en diferentes tareas de gestión de información como la clasificación y el clustering de textos y la recuperación de información para verificar su aplicabilidad y beneficios aportados al rendimiento de las tres tareas anteriormente mencionadas.El objetivo final de la propuesta es la validación de la aplicabilidad y beneficios aportados por el uso de una representación de los documentos basada en conceptos que hace uso de conocimiento enciclopédico---en particular de la Wikipedia---a diferentes tareas de gestión de información digital multiidioma como la clasificación y clustering de los documentos y la recuperación de información. YR 2018 FD 2018-01-31 LK http://hdl.handle.net/11093/928 UL http://hdl.handle.net/11093/928 LA spa DS Investigo RD 25-ene-2025