Detección de anomalías en texto a partir de modelos de lenguaje natural

La rápida evolución de los modelos de lenguaje natural y la posibilidad de utilizarlos como predictores de palabras y oraciones dentro de su contexto los convierten en herramientas útiles para detectar la presencia de anomalías en términos dentro de un documento. Este estudio propone utilizar BERT c...

Full description

Autores:
Tipo de recurso:
masterThesis
Fecha de publicación:
2021
Institución:
Pontificia Universidad Javeriana
Repositorio:
Repositorio Universidad Javeriana
Idioma:
spa
OAI Identifier:
oai:repository.javeriana.edu.co:10554/55302
Acceso en línea:
http://hdl.handle.net/10554/55302
https://doi.org/10.11144/Javeriana.10554.55302
Palabra clave:
Modelos de lenguaje natural
Detección de anomalías
BERT
Learner annotated corpus
Natural language models
Anomaly detection
BERT
Learner annotated corpus
Maestría en analítica para la inteligencia de negocios - Tesis y disertaciones académicas
Lenguaje natural (Informática)
Modelado
Desarrollo de software de aplicación
Rights
openAccess
License
Atribución-NoComercial-SinDerivadas 4.0 Internacional
id JAVERIANA_ea8b81485d51c0245c6197b896930100
oai_identifier_str oai:repository.javeriana.edu.co:10554/55302
network_acronym_str JAVERIANA
network_name_str Repositorio Universidad Javeriana
repository_id_str
dc.title.none.fl_str_mv Detección de anomalías en texto a partir de modelos de lenguaje natural
Text anomaly detection based on Natural Language Models
title Detección de anomalías en texto a partir de modelos de lenguaje natural
spellingShingle Detección de anomalías en texto a partir de modelos de lenguaje natural
Herrera Cancelado, Catalina
Modelos de lenguaje natural
Detección de anomalías
BERT
Learner annotated corpus
Natural language models
Anomaly detection
BERT
Learner annotated corpus
Maestría en analítica para la inteligencia de negocios - Tesis y disertaciones académicas
Lenguaje natural (Informática)
Modelado
Desarrollo de software de aplicación
title_short Detección de anomalías en texto a partir de modelos de lenguaje natural
title_full Detección de anomalías en texto a partir de modelos de lenguaje natural
title_fullStr Detección de anomalías en texto a partir de modelos de lenguaje natural
title_full_unstemmed Detección de anomalías en texto a partir de modelos de lenguaje natural
title_sort Detección de anomalías en texto a partir de modelos de lenguaje natural
dc.creator.none.fl_str_mv Herrera Cancelado, Catalina
author Herrera Cancelado, Catalina
author_facet Herrera Cancelado, Catalina
author_role author
dc.contributor.none.fl_str_mv Alvarado Valencia, Jorge Andrés
Beltrán Cortés, Ana María
García Díaz, Juan Carlos
dc.subject.none.fl_str_mv Modelos de lenguaje natural
Detección de anomalías
BERT
Learner annotated corpus
Natural language models
Anomaly detection
BERT
Learner annotated corpus
Maestría en analítica para la inteligencia de negocios - Tesis y disertaciones académicas
Lenguaje natural (Informática)
Modelado
Desarrollo de software de aplicación
topic Modelos de lenguaje natural
Detección de anomalías
BERT
Learner annotated corpus
Natural language models
Anomaly detection
BERT
Learner annotated corpus
Maestría en analítica para la inteligencia de negocios - Tesis y disertaciones académicas
Lenguaje natural (Informática)
Modelado
Desarrollo de software de aplicación
description La rápida evolución de los modelos de lenguaje natural y la posibilidad de utilizarlos como predictores de palabras y oraciones dentro de su contexto los convierten en herramientas útiles para detectar la presencia de anomalías en términos dentro de un documento. Este estudio propone utilizar BERT como modelo generativo para tareas de detección de anomalías, analizando los tipos de anomalías identificadas tanto en un corpus con lenguaje “estándar” como en uno con errores gramaticales para encontrar las capacidades y limitaciones de la metodología propuesta, así como caracterizar los tipos de anomalías encontradas. La evaluación de 5 modelos no supervisados mostró las particularidades de BERT en el manejo de puntuación, nombres propios y fragmentos de palabras resultando estas en scores particularmente altos, y la complejidad de detectar errores a partir de anomalías dada la estructura secuencial y parafraseada del lenguaje. Finalmente, los resultados de la evaluación en el corpus de aprendizaje REALEC abren la posibilidad de utilizar técnicas de detección de anomalías en conjunto con variables adicionales como base para tareas de corrección de errores gramaticales.
publishDate 2021
dc.date.none.fl_str_mv 2021-07-23T17:14:34Z
2021-07-23T17:14:34Z
dc.type.none.fl_str_mv http://purl.org/coar/version/c_ab4af688f83e57aa
Tesis/Trabajo de grado - Monografía - Maestría
http://purl.org/coar/resource_type/c_bdcc
info:eu-repo/semantics/masterThesis
info:eu-repo/semantics/publishedVersion
format masterThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/10554/55302
https://doi.org/10.11144/Javeriana.10554.55302
instname:Pontificia Universidad Javeriana
reponame:Repositorio Institucional - Pontificia Universidad Javeriana
repourl:https://repository.javeriana.edu.co
url http://hdl.handle.net/10554/55302
https://doi.org/10.11144/Javeriana.10554.55302
identifier_str_mv instname:Pontificia Universidad Javeriana
reponame:Repositorio Institucional - Pontificia Universidad Javeriana
repourl:https://repository.javeriana.edu.co
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv Atribución-NoComercial-SinDerivadas 4.0 Internacional
http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial-SinDerivadas 4.0 Internacional
http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv PDF
application/pdf
application/pdf
application/zip
dc.publisher.none.fl_str_mv Pontificia Universidad Javeriana
Maestría en Analítica para la Inteligencia de Negocios
Facultad de Ingeniería
Facultad de Ciencias Económicas y Administrativas
publisher.none.fl_str_mv Pontificia Universidad Javeriana
Maestría en Analítica para la Inteligencia de Negocios
Facultad de Ingeniería
Facultad de Ciencias Económicas y Administrativas
dc.source.none.fl_str_mv reponame:Repositorio Universidad Javeriana
instname:Pontificia Universidad Javeriana
instacron:Pontificia Universidad Javeriana
instname_str Pontificia Universidad Javeriana
instacron_str Pontificia Universidad Javeriana
institution Pontificia Universidad Javeriana
reponame_str Repositorio Universidad Javeriana
collection Repositorio Universidad Javeriana
_version_ 1803712850332483584
spelling Detección de anomalías en texto a partir de modelos de lenguaje naturalText anomaly detection based on Natural Language ModelsHerrera Cancelado, CatalinaModelos de lenguaje naturalDetección de anomalíasBERTLearner annotated corpusNatural language modelsAnomaly detectionBERTLearner annotated corpusMaestría en analítica para la inteligencia de negocios - Tesis y disertaciones académicasLenguaje natural (Informática)ModeladoDesarrollo de software de aplicaciónLa rápida evolución de los modelos de lenguaje natural y la posibilidad de utilizarlos como predictores de palabras y oraciones dentro de su contexto los convierten en herramientas útiles para detectar la presencia de anomalías en términos dentro de un documento. Este estudio propone utilizar BERT como modelo generativo para tareas de detección de anomalías, analizando los tipos de anomalías identificadas tanto en un corpus con lenguaje “estándar” como en uno con errores gramaticales para encontrar las capacidades y limitaciones de la metodología propuesta, así como caracterizar los tipos de anomalías encontradas. La evaluación de 5 modelos no supervisados mostró las particularidades de BERT en el manejo de puntuación, nombres propios y fragmentos de palabras resultando estas en scores particularmente altos, y la complejidad de detectar errores a partir de anomalías dada la estructura secuencial y parafraseada del lenguaje. Finalmente, los resultados de la evaluación en el corpus de aprendizaje REALEC abren la posibilidad de utilizar técnicas de detección de anomalías en conjunto con variables adicionales como base para tareas de corrección de errores gramaticales.The rapid evolution of natural language models and the possibility of using them as predictors of words and sentences within their context make them useful tools to detect the presence of anomalous terms within a document. This study proposes using BERT as a generative model for anomaly detection tasks, analyzing the types of anomalies identified both in a corpus with “standard” language and in one with grammatical errors to find the capabilities and limitations of the proposed methodology, as well as the characterization of the anomalous terms. The evaluation of 5 unsupervised models showed the particularities of BERT handling punctuation, proper nouns, and fragments of words which tend to have particularly high scores, and the complexity of detecting anomaly-based errors given the sequential and paraphrasing structure of language. Finally, the evaluation results of these models in the REALEC learning corpus open the possibility of using anomaly detection techniques along with additional features as a basis for grammatical error correction tasks.Magíster en Analítica para la Inteligencia de NegociosMaestríaPontificia Universidad JaverianaMaestría en Analítica para la Inteligencia de NegociosFacultad de IngenieríaFacultad de Ciencias Económicas y AdministrativasAlvarado Valencia, Jorge AndrésBeltrán Cortés, Ana MaríaGarcía Díaz, Juan Carlos2021-07-23T17:14:34Z2021-07-23T17:14:34Zhttp://purl.org/coar/version/c_ab4af688f83e57aaTesis/Trabajo de grado - Monografía - Maestríahttp://purl.org/coar/resource_type/c_bdccinfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionPDFapplication/pdfapplication/pdfapplication/ziphttp://hdl.handle.net/10554/55302https://doi.org/10.11144/Javeriana.10554.55302instname:Pontificia Universidad Javerianareponame:Repositorio Institucional - Pontificia Universidad Javerianarepourl:https://repository.javeriana.edu.cospaAtribución-NoComercial-SinDerivadas 4.0 Internacionalhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessDe acuerdo con la naturaleza del uso concedido, la presente licencia parcial se otorga a título gratuito por el máximo tiempo legal colombiano, con el propósito de que en dicho lapso mi (nuestra) obra sea explotada en las condiciones aquí estipuladas y para los fines indicados, respetando siempre la titularidad de los derechos patrimoniales y morales correspondientes, de acuerdo con los usos honrados, de manera proporcional y justificada a la finalidad perseguida, sin ánimo de lucro ni de comercialización. De manera complementaria, garantizo (garantizamos) en mi (nuestra) calidad de estudiante (s) y por ende autor (es) exclusivo (s), que la Tesis o Trabajo de Grado en cuestión, es producto de mi (nuestra) plena autoría, de mi (nuestro) esfuerzo personal intelectual, como consecuencia de mi (nuestra) creación original particular y, por tanto, soy (somos) el (los) único (s) titular (es) de la misma. Además, aseguro (aseguramos) que no contiene citas, ni transcripciones de otras obras protegidas, por fuera de los límites autorizados por la ley, según los usos honrados, y en proporción a los fines previstos; ni tampoco contempla declaraciones difamatorias contra terceros; respetando el derecho a la imagen, intimidad, buen nombre y demás derechos constitucionales. Adicionalmente, manifiesto (manifestamos) que no se incluyeron expresiones contrarias al orden público ni a las buenas costumbres. En consecuencia, la responsabilidad directa en la elaboración, presentación, investigación y, en general, contenidos de la Tesis o Trabajo de Grado es de mí (nuestro) competencia exclusiva, eximiendo de toda responsabilidad a la Pontifica Universidad Javeriana por tales aspectos. Sin perjuicio de los usos y atribuciones otorgadas en virtud de este documento, continuaré (continuaremos) conservando los correspondientes derechos patrimoniales sin modificación o restricción alguna, puesto que, de acuerdo con la legislación colombiana aplicable, el presente es un acuerdo jurídico que en ningún caso conlleva la enajenación de los derechos patrimoniales derivados del régimen del Derecho de Autor. De conformidad con lo establecido en el artículo 30 de la Ley 23 de 1982 y el artículo 11 de la Decisión Andina 351 de 1993, "Los derechos morales sobre el trabajo son propiedad de los autores", los cuales son irrenunciables, imprescriptibles, inembargables e inalienables. En consecuencia, la Pontificia Universidad Javeriana está en la obligación de RESPETARLOS Y HACERLOS RESPETAR, para lo cual tomará las medidas correspondientes para garantizar su observancia.reponame:Repositorio Universidad Javerianainstname:Pontificia Universidad Javerianainstacron:Pontificia Universidad Javeriana2022-04-29T16:50:54Z