Definición de un lenguaje controlado para el análisis de sentimientos en Twitter para mensajes en inglés

El análisis de sentimientos, también conocido como minería de opinión, surge con el fin de determinar la polaridad de un texto dado. Es el campo de estudio que permite analizar la respuesta emocional de los usuarios en redes sociales, con el fin de ayudar en la toma de decisiones en ámbitos sociales...

Full description

Autores:
Espinosa Zuluaga, Karen Yessenia
Tipo de recurso:
Fecha de publicación:
2019
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/76956
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/76956
http://bdigital.unal.edu.co/74021/
Palabra clave:
Twitter
Análisis de sentimientos
Lingüística computacional
Lenguaje natural
Lenguaje controlado
Tuits en inglés
Sentiment analysis
Controlled language
Natural language
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
Description
Summary:El análisis de sentimientos, también conocido como minería de opinión, surge con el fin de determinar la polaridad de un texto dado. Es el campo de estudio que permite analizar la respuesta emocional de los usuarios en redes sociales, con el fin de ayudar en la toma de decisiones en ámbitos sociales, económicos, políticos, laborales y financieros. Una de las redes sociales que está ganando más popularidad en el análisis de sentimientos es Twitter, ya que es una herramienta de microblogging social que permite a los usuarios expresar opiniones e ideas en textos cortos (280 caracteres) y concisos, lo cual es ideal para extraer estadísticas de temas específicos. Sin embargo, el vocabulario que se utiliza en redes sociales posee problemas inherentes al lenguaje natural. Tradicionalmente, en lingüística computacional se solucionan estos problemas utilizando lenguajes controlados. Un lenguaje controlado es un subconjunto del lenguaje natural que posee restricciones en la terminología, lo cual permite reducir la ambigüedad y aporta precisión para posteriores análisis. Para entender el significado que tienen las palabras en un vocabulario, es necesario recurrir a los términos de connotación y denotación. La connotación de una palabra incluye elementos de carácter subjetivo e implica interpretación. Por su parte, la denotación, es la expresión formal y objetiva, es decir, el significado universal que se le da a una palabra. En lo relativo a la función que realizan las palabras dentro de una oración, el análisis sintáctico suministra apoyo en cuanto a describir cómo las palabras de la oración se relacionan y la categoría gramatical que tiene cada una de estas. Para realizar el análisis sintáctico se puede utilizar un árbol de constituyentes. Comúnmente, en la minería de opinión se utiliza el preprocesamiento de datos para eliminar ruidos y/o inconsistencias, con el fin de preparar los datos para un posterior análisis. Esta intervención y transformación se realiza mediante los siguientes pasos: tokenización, eliminación de datos ruidosos, eliminación de palabras de jerga, revisión ortográfica y, por último, stemming. En las aproximaciones encontradas en la literatura para el análisis de sentimientos se encuentran métodos basados en léxico, los cuales contienen enfoques basados en diccionarios. En esas aproximaciones se aprecian análisis de ciertos elementos de los corpus de diferentes redes sociales, pero, debido a la falta de un lenguaje controlado, requieren una mayor intervención y transformación del mensaje antes de definir su polaridad. Esto se debe a que el lenguaje natural utilizado en las redes sociales posee características como la polisemia y sinonimia que plantean desafíos en el análisis computacional y, además, tiene datos ruidosos como emoticones, hashtags, caracteres especiales, hipervínculos o etiquetas HTML. Debido a lo anterior, se pierde parte de la información que puede ser relevante a la hora de definir la polaridad de un mensaje. Adicionalmente, los enfoques basados en diccionarios fallan a la hora de relacionar términos y analizar el contexto en que las palabras se escriben. Por ello, en esta Tesis de Maestría se propone la definición de un lenguaje controlado para el análisis de sentimientos en Twitter para mensajes en inglés, el cual tiene como finalidad transformar las opiniones de los usuarios en una estructura que facilite su clasificación en polaridades negativas o positivas mediante reglas sintácticas, representando el lenguaje natural en textos controlados que se podrían utilizar para mejorar los métodos existentes en la literatura para el análisis de sentimientos. Una vez se implementa el lenguaje controlado, las palabras adquieren valor sintáctico, se estandariza la terminología y el formato de la información, por lo cual los mensajes son más precisos e inequívocos y, por consiguiente, son útiles como punto de partida para la automatización del razonamiento.