DATE:
2021-02-19
UNIVERSAL IDENTIFIER: http://hdl.handle.net/11093/1775
DOCUMENT TYPE: doctoralThesis
ABSTRACT
In this thesis, we present our research aligned with the field of Natural Language Generation (NLG). Our work represents an effort to bring NLG capabilities to the
research community for Spanish language. In this line, several contributions will be presented with the aim of extending the state of the art in this research area. Accordingly,
we present a detailed description of the resources created and the architectures designed for NLG taking into consideration the main stages in the traditional pipeline:
content determination, text structuring, lexicalisation, and finally, realisation. For this purpose, we created several linguistic resources paying special attention
to coverage and accuracy. They contain a wide range of linguistic data, that is, morphological, syntactic and semantic information: aLexiS (a Lexicon for Spanish), eLSA
(Augmentative and Alternative Spanish Lexicon) and aLexiE (a Lexicon for English). This work is motivated by the lack of complete linguistic resources useful for real NLG
applications, specially in the case of Spanish language. In this line, both aLexiS and aLexiE will be useful in many use cases such as report generation. On the other hand,
the eLSA lexicon aims at improving NLG systems to help people diagnosed with communication disorders. In terms of libraries developed for NLG, we present several contributions. Firstly,
we introduce the adaptation of the popular SimpleNLG library to Spanish and an enhanced version of it with automatic performance which expands text from keywords.
Both solutions can provide applications, such as web apps, with valuable NLG capabilities. Moreover, we present a modular and hybrid architecture for NLG. It combines
linguistic knowledge and statistical information (a language model to infer prepositions) to address the NLG task automatically. At the end, our system is able to generate
complete, coherent and grammatically/orthographically correct sentences in Spanish from the keywords provided by the users (such as adjectives, nouns and verbs). The
main strength of the architecture is its modular feature. This means its constituents (lexicon, grammar and realiser) could be reused or substituted to address other generation
challenges or to improve the performance of the system. Moreover, our NLG architecture was designed to be efficient in terms of time required
to generate the output but also to be easily extended to other languages, even if they are not linguistically similar like Spanish and English. We prove this valuable
feature extending our NLG system to English language. Besides, both NLG systems presented, for Spanish and English, have been evaluated using popular metrics in the
state of the art and manual annotations. Finally, the research results obtained are promising and they encourage me to continue my research on the field of automatic
NLG systems. El área de investigación en el que se enmarca esta tesis doctoral es la generación de lenguaje natural (del inglés Natural Language Generation). Este campo ha pasado
de ser una idea utópica en la literatura de fantasía (por ejemplo, el cuento titulado La Biblioteca de Babel de Jorge Luis Borges) a convertirse en un tema central de investigación
para la comunidad científica.
Concretamente, nuestro trabajo se centra en la generación automática de oraciones en lenguaje natural siguiendo un enfoque híbrido. Para ello combinamos conocimiento
lingüístico y estadístico. El primero hace referencia a léxicos y gramáticas que hemos creado durante nuestra investigación. El segundo hace referencia a modelos de lenguaje
que han sido diseñados con el objetivo de inferir preposiciones. Todo ello prestando especial atención a la información semántica.
Nos gustaría recalcar que en el momento de escribir esta tesis no existía ningún sistema automático de generación de lenguaje natural que fuese fácilmente adaptable
a otros idiomas. Dicho sistema será útil en múltiples escenarios, desde los más tradicionales para mejorar la comunicación hombre-máquina y la generación automática
de informes, hasta los más sociales como por ejemplo ayudar a las personas con discapacidad comunicativa. Por ello, esta tesis doctoral pretende contribuir al estado del
arte de la generación de lenguaje natural con un marco efectivo y flexible para crear sistemas de expansión de texto en diferentes idiomas.
A continuación, enumeramos los objetivos marcados al inicio de la tesis tras realizar un profundo análisis del estado del arte en este campo:
• Creación de un léxico para castellano que incluya una gran cantidad de información no solo a nivel de número de entradas sino también en cuanto a la variedad
de datos lingüísticos (morfología, sintaxis y semántica) y que además tenga una alta precisión.
• Diseño e implementación de un sistema automático de generación de lenguaje natural para castellano a partir de la adaptación de la librería SimpleNLG.
• Diseño e implementación de una arquitectura modular e híbrida que combine conocimiento lingüístico y estadístico para crear sistemas automáticos de expansión
de texto en diferentes idiomas.
• Creación de un sistema de generación de lenguaje natural para castellano a través de la arquitectura anterior.
• Creación de un sistema de generación de lenguaje natural en inglés para probar la flexibilidad de la arquitectura propuesta. Esto implica la creación de un léxico
en inglés con información morfológica, sintáctica y semántica.
• Prueba del funcionamiento de ambas versiones en castellano e inglés en un comunicador real.
En resumen, la principal contribución de esta tesis doctoral es el diseño e implementación de una arquitectura modular para crear sistemas de generación de lenguaje
natural en diferentes idiomas. Sin embargo, los léxicos que hemos creado durante nuestra investigación, concretamente aLexiS, eLSA y aLexiE (los dos primeros para
castellano y el último para inglés), constituyen contribuciones valiosas por sí mismas. Además del conocimiento lingüístico que incluyen, simplifican la interfaz de entrada de
los sistemas expansión de texto evitando así esquemas de datos de entrada complejos
Files in this item
- Name:
- GarciaMendez_Silvia_TD_2020_AA.pdf
- Size:
- 3.900Mb
- Format:
- Description:
- Copia do orixinal