Detección de anomalías en texto a partir de modelos de lenguaje natural

La rápida evolución de los modelos de lenguaje natural y la posibilidad de utilizarlos como predictores de palabras y oraciones dentro de su contexto los convierten en herramientas útiles para detectar la presencia de anomalías en términos dentro de un documento. Este estudio propone utilizar BERT c...

Full description

Autores:
Tipo de recurso:
masterThesis
Fecha de publicación:
2021
Institución:
Pontificia Universidad Javeriana
Repositorio:
Repositorio Universidad Javeriana
Idioma:
spa
OAI Identifier:
oai:repository.javeriana.edu.co:10554/55302
Acceso en línea:
http://hdl.handle.net/10554/55302
https://doi.org/10.11144/Javeriana.10554.55302
Palabra clave:
Modelos de lenguaje natural
Detección de anomalías
BERT
Learner annotated corpus
Natural language models
Anomaly detection
BERT
Learner annotated corpus
Maestría en analítica para la inteligencia de negocios - Tesis y disertaciones académicas
Lenguaje natural (Informática)
Modelado
Desarrollo de software de aplicación
Rights
openAccess
License
Atribución-NoComercial-SinDerivadas 4.0 Internacional
Description
Summary:La rápida evolución de los modelos de lenguaje natural y la posibilidad de utilizarlos como predictores de palabras y oraciones dentro de su contexto los convierten en herramientas útiles para detectar la presencia de anomalías en términos dentro de un documento. Este estudio propone utilizar BERT como modelo generativo para tareas de detección de anomalías, analizando los tipos de anomalías identificadas tanto en un corpus con lenguaje “estándar” como en uno con errores gramaticales para encontrar las capacidades y limitaciones de la metodología propuesta, así como caracterizar los tipos de anomalías encontradas. La evaluación de 5 modelos no supervisados mostró las particularidades de BERT en el manejo de puntuación, nombres propios y fragmentos de palabras resultando estas en scores particularmente altos, y la complejidad de detectar errores a partir de anomalías dada la estructura secuencial y parafraseada del lenguaje. Finalmente, los resultados de la evaluación en el corpus de aprendizaje REALEC abren la posibilidad de utilizar técnicas de detección de anomalías en conjunto con variables adicionales como base para tareas de corrección de errores gramaticales.