Detección de anomalías en texto a partir de modelos de lenguaje natural
La rápida evolución de los modelos de lenguaje natural y la posibilidad de utilizarlos como predictores de palabras y oraciones dentro de su contexto los convierten en herramientas útiles para detectar la presencia de anomalías en términos dentro de un documento. Este estudio propone utilizar BERT c...
- Autores:
- Tipo de recurso:
- masterThesis
- Fecha de publicación:
- 2021
- Institución:
- Pontificia Universidad Javeriana
- Repositorio:
- Repositorio Universidad Javeriana
- Idioma:
- spa
- OAI Identifier:
- oai:repository.javeriana.edu.co:10554/55302
- Palabra clave:
- Modelos de lenguaje natural
Detección de anomalías
BERT
Learner annotated corpus
Natural language models
Anomaly detection
BERT
Learner annotated corpus
Maestría en analítica para la inteligencia de negocios - Tesis y disertaciones académicas
Lenguaje natural (Informática)
Modelado
Desarrollo de software de aplicación
- Rights
- openAccess
- License
- Atribución-NoComercial-SinDerivadas 4.0 Internacional
id |
JAVERIANA_ea8b81485d51c0245c6197b896930100 |
---|---|
oai_identifier_str |
oai:repository.javeriana.edu.co:10554/55302 |
network_acronym_str |
JAVERIANA |
network_name_str |
Repositorio Universidad Javeriana |
repository_id_str |
|
dc.title.none.fl_str_mv |
Detección de anomalías en texto a partir de modelos de lenguaje natural Text anomaly detection based on Natural Language Models |
title |
Detección de anomalías en texto a partir de modelos de lenguaje natural |
spellingShingle |
Detección de anomalías en texto a partir de modelos de lenguaje natural Herrera Cancelado, Catalina Modelos de lenguaje natural Detección de anomalías BERT Learner annotated corpus Natural language models Anomaly detection BERT Learner annotated corpus Maestría en analítica para la inteligencia de negocios - Tesis y disertaciones académicas Lenguaje natural (Informática) Modelado Desarrollo de software de aplicación |
title_short |
Detección de anomalías en texto a partir de modelos de lenguaje natural |
title_full |
Detección de anomalías en texto a partir de modelos de lenguaje natural |
title_fullStr |
Detección de anomalías en texto a partir de modelos de lenguaje natural |
title_full_unstemmed |
Detección de anomalías en texto a partir de modelos de lenguaje natural |
title_sort |
Detección de anomalías en texto a partir de modelos de lenguaje natural |
dc.creator.none.fl_str_mv |
Herrera Cancelado, Catalina |
author |
Herrera Cancelado, Catalina |
author_facet |
Herrera Cancelado, Catalina |
author_role |
author |
dc.contributor.none.fl_str_mv |
Alvarado Valencia, Jorge Andrés Beltrán Cortés, Ana María García Díaz, Juan Carlos |
dc.subject.none.fl_str_mv |
Modelos de lenguaje natural Detección de anomalías BERT Learner annotated corpus Natural language models Anomaly detection BERT Learner annotated corpus Maestría en analítica para la inteligencia de negocios - Tesis y disertaciones académicas Lenguaje natural (Informática) Modelado Desarrollo de software de aplicación |
topic |
Modelos de lenguaje natural Detección de anomalías BERT Learner annotated corpus Natural language models Anomaly detection BERT Learner annotated corpus Maestría en analítica para la inteligencia de negocios - Tesis y disertaciones académicas Lenguaje natural (Informática) Modelado Desarrollo de software de aplicación |
description |
La rápida evolución de los modelos de lenguaje natural y la posibilidad de utilizarlos como predictores de palabras y oraciones dentro de su contexto los convierten en herramientas útiles para detectar la presencia de anomalías en términos dentro de un documento. Este estudio propone utilizar BERT como modelo generativo para tareas de detección de anomalías, analizando los tipos de anomalías identificadas tanto en un corpus con lenguaje “estándar” como en uno con errores gramaticales para encontrar las capacidades y limitaciones de la metodología propuesta, así como caracterizar los tipos de anomalías encontradas. La evaluación de 5 modelos no supervisados mostró las particularidades de BERT en el manejo de puntuación, nombres propios y fragmentos de palabras resultando estas en scores particularmente altos, y la complejidad de detectar errores a partir de anomalías dada la estructura secuencial y parafraseada del lenguaje. Finalmente, los resultados de la evaluación en el corpus de aprendizaje REALEC abren la posibilidad de utilizar técnicas de detección de anomalías en conjunto con variables adicionales como base para tareas de corrección de errores gramaticales. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-07-23T17:14:34Z 2021-07-23T17:14:34Z |
dc.type.none.fl_str_mv |
http://purl.org/coar/version/c_ab4af688f83e57aa Tesis/Trabajo de grado - Monografía - Maestría http://purl.org/coar/resource_type/c_bdcc info:eu-repo/semantics/masterThesis info:eu-repo/semantics/publishedVersion |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
http://hdl.handle.net/10554/55302 https://doi.org/10.11144/Javeriana.10554.55302 instname:Pontificia Universidad Javeriana reponame:Repositorio Institucional - Pontificia Universidad Javeriana repourl:https://repository.javeriana.edu.co |
url |
http://hdl.handle.net/10554/55302 https://doi.org/10.11144/Javeriana.10554.55302 |
identifier_str_mv |
instname:Pontificia Universidad Javeriana reponame:Repositorio Institucional - Pontificia Universidad Javeriana repourl:https://repository.javeriana.edu.co |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.rights.none.fl_str_mv |
Atribución-NoComercial-SinDerivadas 4.0 Internacional http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Atribución-NoComercial-SinDerivadas 4.0 Internacional http://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
PDF application/pdf application/pdf application/zip |
dc.publisher.none.fl_str_mv |
Pontificia Universidad Javeriana Maestría en Analítica para la Inteligencia de Negocios Facultad de Ingeniería Facultad de Ciencias Económicas y Administrativas |
publisher.none.fl_str_mv |
Pontificia Universidad Javeriana Maestría en Analítica para la Inteligencia de Negocios Facultad de Ingeniería Facultad de Ciencias Económicas y Administrativas |
dc.source.none.fl_str_mv |
reponame:Repositorio Universidad Javeriana instname:Pontificia Universidad Javeriana instacron:Pontificia Universidad Javeriana |
instname_str |
Pontificia Universidad Javeriana |
instacron_str |
Pontificia Universidad Javeriana |
institution |
Pontificia Universidad Javeriana |
reponame_str |
Repositorio Universidad Javeriana |
collection |
Repositorio Universidad Javeriana |
_version_ |
1803712850332483584 |
spelling |
Detección de anomalías en texto a partir de modelos de lenguaje naturalText anomaly detection based on Natural Language ModelsHerrera Cancelado, CatalinaModelos de lenguaje naturalDetección de anomalíasBERTLearner annotated corpusNatural language modelsAnomaly detectionBERTLearner annotated corpusMaestría en analítica para la inteligencia de negocios - Tesis y disertaciones académicasLenguaje natural (Informática)ModeladoDesarrollo de software de aplicaciónLa rápida evolución de los modelos de lenguaje natural y la posibilidad de utilizarlos como predictores de palabras y oraciones dentro de su contexto los convierten en herramientas útiles para detectar la presencia de anomalías en términos dentro de un documento. Este estudio propone utilizar BERT como modelo generativo para tareas de detección de anomalías, analizando los tipos de anomalías identificadas tanto en un corpus con lenguaje “estándar” como en uno con errores gramaticales para encontrar las capacidades y limitaciones de la metodología propuesta, así como caracterizar los tipos de anomalías encontradas. La evaluación de 5 modelos no supervisados mostró las particularidades de BERT en el manejo de puntuación, nombres propios y fragmentos de palabras resultando estas en scores particularmente altos, y la complejidad de detectar errores a partir de anomalías dada la estructura secuencial y parafraseada del lenguaje. Finalmente, los resultados de la evaluación en el corpus de aprendizaje REALEC abren la posibilidad de utilizar técnicas de detección de anomalías en conjunto con variables adicionales como base para tareas de corrección de errores gramaticales.The rapid evolution of natural language models and the possibility of using them as predictors of words and sentences within their context make them useful tools to detect the presence of anomalous terms within a document. This study proposes using BERT as a generative model for anomaly detection tasks, analyzing the types of anomalies identified both in a corpus with “standard” language and in one with grammatical errors to find the capabilities and limitations of the proposed methodology, as well as the characterization of the anomalous terms. The evaluation of 5 unsupervised models showed the particularities of BERT handling punctuation, proper nouns, and fragments of words which tend to have particularly high scores, and the complexity of detecting anomaly-based errors given the sequential and paraphrasing structure of language. Finally, the evaluation results of these models in the REALEC learning corpus open the possibility of using anomaly detection techniques along with additional features as a basis for grammatical error correction tasks.Magíster en Analítica para la Inteligencia de NegociosMaestríaPontificia Universidad JaverianaMaestría en Analítica para la Inteligencia de NegociosFacultad de IngenieríaFacultad de Ciencias Económicas y AdministrativasAlvarado Valencia, Jorge AndrésBeltrán Cortés, Ana MaríaGarcía Díaz, Juan Carlos2021-07-23T17:14:34Z2021-07-23T17:14:34Zhttp://purl.org/coar/version/c_ab4af688f83e57aaTesis/Trabajo de grado - Monografía - Maestríahttp://purl.org/coar/resource_type/c_bdccinfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionPDFapplication/pdfapplication/pdfapplication/ziphttp://hdl.handle.net/10554/55302https://doi.org/10.11144/Javeriana.10554.55302instname:Pontificia Universidad Javerianareponame:Repositorio Institucional - Pontificia Universidad Javerianarepourl:https://repository.javeriana.edu.cospaAtribución-NoComercial-SinDerivadas 4.0 Internacionalhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessDe acuerdo con la naturaleza del uso concedido, la presente licencia parcial se otorga a título gratuito por el máximo tiempo legal colombiano, con el propósito de que en dicho lapso mi (nuestra) obra sea explotada en las condiciones aquí estipuladas y para los fines indicados, respetando siempre la titularidad de los derechos patrimoniales y morales correspondientes, de acuerdo con los usos honrados, de manera proporcional y justificada a la finalidad perseguida, sin ánimo de lucro ni de comercialización. De manera complementaria, garantizo (garantizamos) en mi (nuestra) calidad de estudiante (s) y por ende autor (es) exclusivo (s), que la Tesis o Trabajo de Grado en cuestión, es producto de mi (nuestra) plena autoría, de mi (nuestro) esfuerzo personal intelectual, como consecuencia de mi (nuestra) creación original particular y, por tanto, soy (somos) el (los) único (s) titular (es) de la misma. Además, aseguro (aseguramos) que no contiene citas, ni transcripciones de otras obras protegidas, por fuera de los límites autorizados por la ley, según los usos honrados, y en proporción a los fines previstos; ni tampoco contempla declaraciones difamatorias contra terceros; respetando el derecho a la imagen, intimidad, buen nombre y demás derechos constitucionales. Adicionalmente, manifiesto (manifestamos) que no se incluyeron expresiones contrarias al orden público ni a las buenas costumbres. En consecuencia, la responsabilidad directa en la elaboración, presentación, investigación y, en general, contenidos de la Tesis o Trabajo de Grado es de mí (nuestro) competencia exclusiva, eximiendo de toda responsabilidad a la Pontifica Universidad Javeriana por tales aspectos. Sin perjuicio de los usos y atribuciones otorgadas en virtud de este documento, continuaré (continuaremos) conservando los correspondientes derechos patrimoniales sin modificación o restricción alguna, puesto que, de acuerdo con la legislación colombiana aplicable, el presente es un acuerdo jurídico que en ningún caso conlleva la enajenación de los derechos patrimoniales derivados del régimen del Derecho de Autor. De conformidad con lo establecido en el artículo 30 de la Ley 23 de 1982 y el artículo 11 de la Decisión Andina 351 de 1993, "Los derechos morales sobre el trabajo son propiedad de los autores", los cuales son irrenunciables, imprescriptibles, inembargables e inalienables. En consecuencia, la Pontificia Universidad Javeriana está en la obligación de RESPETARLOS Y HACERLOS RESPETAR, para lo cual tomará las medidas correspondientes para garantizar su observancia.reponame:Repositorio Universidad Javerianainstname:Pontificia Universidad Javerianainstacron:Pontificia Universidad Javeriana2022-04-29T16:50:54Z |