Definición de un lenguaje controlado para el análisis de sentimientos en Twitter para mensajes en inglés

El análisis de sentimientos, también conocido como minería de opinión, surge con el fin de determinar la polaridad de un texto dado. Es el campo de estudio que permite analizar la respuesta emocional de los usuarios en redes sociales, con el fin de ayudar en la toma de decisiones en ámbitos sociales...

Full description

Autores:
Espinosa Zuluaga, Karen Yessenia
Tipo de recurso:
Fecha de publicación:
2019
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/76956
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/76956
http://bdigital.unal.edu.co/74021/
Palabra clave:
Twitter
Análisis de sentimientos
Lingüística computacional
Lenguaje natural
Lenguaje controlado
Tuits en inglés
Sentiment analysis
Controlled language
Natural language
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_47219a4470e73b20fc19dd66b3d6953d
oai_identifier_str oai:repositorio.unal.edu.co:unal/76956
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
dc.title.spa.fl_str_mv Definición de un lenguaje controlado para el análisis de sentimientos en Twitter para mensajes en inglés
title Definición de un lenguaje controlado para el análisis de sentimientos en Twitter para mensajes en inglés
spellingShingle Definición de un lenguaje controlado para el análisis de sentimientos en Twitter para mensajes en inglés
Twitter
Análisis de sentimientos
Lingüística computacional
Lenguaje natural
Lenguaje controlado
Tuits en inglés
Sentiment analysis
Controlled language
Natural language
title_short Definición de un lenguaje controlado para el análisis de sentimientos en Twitter para mensajes en inglés
title_full Definición de un lenguaje controlado para el análisis de sentimientos en Twitter para mensajes en inglés
title_fullStr Definición de un lenguaje controlado para el análisis de sentimientos en Twitter para mensajes en inglés
title_full_unstemmed Definición de un lenguaje controlado para el análisis de sentimientos en Twitter para mensajes en inglés
title_sort Definición de un lenguaje controlado para el análisis de sentimientos en Twitter para mensajes en inglés
dc.creator.fl_str_mv Espinosa Zuluaga, Karen Yessenia
dc.contributor.author.spa.fl_str_mv Espinosa Zuluaga, Karen Yessenia
dc.contributor.spa.fl_str_mv Zapata Jaramillo, Carlos Mario
dc.subject.proposal.spa.fl_str_mv Twitter
Análisis de sentimientos
Lingüística computacional
Lenguaje natural
Lenguaje controlado
Tuits en inglés
Sentiment analysis
Controlled language
Natural language
topic Twitter
Análisis de sentimientos
Lingüística computacional
Lenguaje natural
Lenguaje controlado
Tuits en inglés
Sentiment analysis
Controlled language
Natural language
description El análisis de sentimientos, también conocido como minería de opinión, surge con el fin de determinar la polaridad de un texto dado. Es el campo de estudio que permite analizar la respuesta emocional de los usuarios en redes sociales, con el fin de ayudar en la toma de decisiones en ámbitos sociales, económicos, políticos, laborales y financieros. Una de las redes sociales que está ganando más popularidad en el análisis de sentimientos es Twitter, ya que es una herramienta de microblogging social que permite a los usuarios expresar opiniones e ideas en textos cortos (280 caracteres) y concisos, lo cual es ideal para extraer estadísticas de temas específicos. Sin embargo, el vocabulario que se utiliza en redes sociales posee problemas inherentes al lenguaje natural. Tradicionalmente, en lingüística computacional se solucionan estos problemas utilizando lenguajes controlados. Un lenguaje controlado es un subconjunto del lenguaje natural que posee restricciones en la terminología, lo cual permite reducir la ambigüedad y aporta precisión para posteriores análisis. Para entender el significado que tienen las palabras en un vocabulario, es necesario recurrir a los términos de connotación y denotación. La connotación de una palabra incluye elementos de carácter subjetivo e implica interpretación. Por su parte, la denotación, es la expresión formal y objetiva, es decir, el significado universal que se le da a una palabra. En lo relativo a la función que realizan las palabras dentro de una oración, el análisis sintáctico suministra apoyo en cuanto a describir cómo las palabras de la oración se relacionan y la categoría gramatical que tiene cada una de estas. Para realizar el análisis sintáctico se puede utilizar un árbol de constituyentes. Comúnmente, en la minería de opinión se utiliza el preprocesamiento de datos para eliminar ruidos y/o inconsistencias, con el fin de preparar los datos para un posterior análisis. Esta intervención y transformación se realiza mediante los siguientes pasos: tokenización, eliminación de datos ruidosos, eliminación de palabras de jerga, revisión ortográfica y, por último, stemming. En las aproximaciones encontradas en la literatura para el análisis de sentimientos se encuentran métodos basados en léxico, los cuales contienen enfoques basados en diccionarios. En esas aproximaciones se aprecian análisis de ciertos elementos de los corpus de diferentes redes sociales, pero, debido a la falta de un lenguaje controlado, requieren una mayor intervención y transformación del mensaje antes de definir su polaridad. Esto se debe a que el lenguaje natural utilizado en las redes sociales posee características como la polisemia y sinonimia que plantean desafíos en el análisis computacional y, además, tiene datos ruidosos como emoticones, hashtags, caracteres especiales, hipervínculos o etiquetas HTML. Debido a lo anterior, se pierde parte de la información que puede ser relevante a la hora de definir la polaridad de un mensaje. Adicionalmente, los enfoques basados en diccionarios fallan a la hora de relacionar términos y analizar el contexto en que las palabras se escriben. Por ello, en esta Tesis de Maestría se propone la definición de un lenguaje controlado para el análisis de sentimientos en Twitter para mensajes en inglés, el cual tiene como finalidad transformar las opiniones de los usuarios en una estructura que facilite su clasificación en polaridades negativas o positivas mediante reglas sintácticas, representando el lenguaje natural en textos controlados que se podrían utilizar para mejorar los métodos existentes en la literatura para el análisis de sentimientos. Una vez se implementa el lenguaje controlado, las palabras adquieren valor sintáctico, se estandariza la terminología y el formato de la información, por lo cual los mensajes son más precisos e inequívocos y, por consiguiente, son útiles como punto de partida para la automatización del razonamiento.
publishDate 2019
dc.date.issued.spa.fl_str_mv 2019-09
dc.date.accessioned.spa.fl_str_mv 2020-03-30T06:33:58Z
dc.date.available.spa.fl_str_mv 2020-03-30T06:33:58Z
dc.type.spa.fl_str_mv Trabajo de grado - Maestría
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/76956
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/74021/
url https://repositorio.unal.edu.co/handle/unal/76956
http://bdigital.unal.edu.co/74021/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Sede Medellín Facultad de Minas Instituto de Sistemas y Ciencias de la Decisión
Instituto de Sistemas y Ciencias de la Decisión
dc.relation.haspart.spa.fl_str_mv 0 Generalidades / Computer science, information and general works
dc.relation.references.spa.fl_str_mv Espinosa Zuluaga, Karen Yessenia (2019) Definición de un lenguaje controlado para el análisis de sentimientos en Twitter para mensajes en inglés. Maestría thesis, Universidad Nacional de Colombia - Sede Medellín.
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/76956/1/1017223005.2019.pdf
https://repositorio.unal.edu.co/bitstream/unal/76956/2/1017223005.2019.pdf.jpg
bitstream.checksum.fl_str_mv 8025c6796caf34aa09469d78d77e1322
4f9914a124080c7f155cc7fba20ef075
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1814089869014597632
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Zapata Jaramillo, Carlos MarioEspinosa Zuluaga, Karen Yessenia00bea729-1998-45a3-9406-67791aa91abd3002020-03-30T06:33:58Z2020-03-30T06:33:58Z2019-09https://repositorio.unal.edu.co/handle/unal/76956http://bdigital.unal.edu.co/74021/El análisis de sentimientos, también conocido como minería de opinión, surge con el fin de determinar la polaridad de un texto dado. Es el campo de estudio que permite analizar la respuesta emocional de los usuarios en redes sociales, con el fin de ayudar en la toma de decisiones en ámbitos sociales, económicos, políticos, laborales y financieros. Una de las redes sociales que está ganando más popularidad en el análisis de sentimientos es Twitter, ya que es una herramienta de microblogging social que permite a los usuarios expresar opiniones e ideas en textos cortos (280 caracteres) y concisos, lo cual es ideal para extraer estadísticas de temas específicos. Sin embargo, el vocabulario que se utiliza en redes sociales posee problemas inherentes al lenguaje natural. Tradicionalmente, en lingüística computacional se solucionan estos problemas utilizando lenguajes controlados. Un lenguaje controlado es un subconjunto del lenguaje natural que posee restricciones en la terminología, lo cual permite reducir la ambigüedad y aporta precisión para posteriores análisis. Para entender el significado que tienen las palabras en un vocabulario, es necesario recurrir a los términos de connotación y denotación. La connotación de una palabra incluye elementos de carácter subjetivo e implica interpretación. Por su parte, la denotación, es la expresión formal y objetiva, es decir, el significado universal que se le da a una palabra. En lo relativo a la función que realizan las palabras dentro de una oración, el análisis sintáctico suministra apoyo en cuanto a describir cómo las palabras de la oración se relacionan y la categoría gramatical que tiene cada una de estas. Para realizar el análisis sintáctico se puede utilizar un árbol de constituyentes. Comúnmente, en la minería de opinión se utiliza el preprocesamiento de datos para eliminar ruidos y/o inconsistencias, con el fin de preparar los datos para un posterior análisis. Esta intervención y transformación se realiza mediante los siguientes pasos: tokenización, eliminación de datos ruidosos, eliminación de palabras de jerga, revisión ortográfica y, por último, stemming. En las aproximaciones encontradas en la literatura para el análisis de sentimientos se encuentran métodos basados en léxico, los cuales contienen enfoques basados en diccionarios. En esas aproximaciones se aprecian análisis de ciertos elementos de los corpus de diferentes redes sociales, pero, debido a la falta de un lenguaje controlado, requieren una mayor intervención y transformación del mensaje antes de definir su polaridad. Esto se debe a que el lenguaje natural utilizado en las redes sociales posee características como la polisemia y sinonimia que plantean desafíos en el análisis computacional y, además, tiene datos ruidosos como emoticones, hashtags, caracteres especiales, hipervínculos o etiquetas HTML. Debido a lo anterior, se pierde parte de la información que puede ser relevante a la hora de definir la polaridad de un mensaje. Adicionalmente, los enfoques basados en diccionarios fallan a la hora de relacionar términos y analizar el contexto en que las palabras se escriben. Por ello, en esta Tesis de Maestría se propone la definición de un lenguaje controlado para el análisis de sentimientos en Twitter para mensajes en inglés, el cual tiene como finalidad transformar las opiniones de los usuarios en una estructura que facilite su clasificación en polaridades negativas o positivas mediante reglas sintácticas, representando el lenguaje natural en textos controlados que se podrían utilizar para mejorar los métodos existentes en la literatura para el análisis de sentimientos. Una vez se implementa el lenguaje controlado, las palabras adquieren valor sintáctico, se estandariza la terminología y el formato de la información, por lo cual los mensajes son más precisos e inequívocos y, por consiguiente, son útiles como punto de partida para la automatización del razonamiento.Abstract: Sentiment analysis—SA, also known as opinion mining—is intended to determine the polarity of a given text. SA is the field of study for analyzing the emotional response of social network users in order to help decision making in social, economic, political, labor, and financial fields. One of the social networks gaining more popularity in sentiment analysis is Twitter, since it is a social microblogging tool which allows users for expressing their opinions and ideas in concise and short (280 characters) texts ideal to draw statistics from specific topics. The vocabulary used in social networks has inherent problems regarding natural language. Commonly, such problems are solved in computational linguistics by using controlled languages. A controlled language is a subset of natural language with restrictions in terminology for reducing ambiguity and providing accuracy to future analyses. Concepts of connotation and denotation are needed to understand the meaning words have in certain vocabulary. Connotation of a word includes subjective elements and it implies interpretation. On the other hand, denotation is defined as a formal and objective expression, i.e., the universal meaning a word. Related to the function of words within a text, the syntax analysis supports the way the words in a sentence are interrelated and the grammatical category of each word. Syntax trees can be used for carrying out a syntax analysis. In opinion mining, data pre-processing is commonly used for removing noise/inconsistencies in order to prepare data for a future analysis. Pre-processing has some steps: tokenization, deletion of noisy data, deletion of jargon words, spell checking, and finally stemming. Previous work about sentiment analysis includes lexicon-based methods with dictionary-based methods. In such methods, analysis of different corpus elements is estimated in some social networks, but it requires a greater intervention and transformation of the message before defining its polarity due to the lack of a controlled language. Also, natural language used in social networks has challenges in its computational analysis, because it presents polysemy and synonymy, and noisy data—e.g., emojis, hashtags, special characters, hyperlinks, and HTML tags. As a result, part of. the information relevant at the time of defining the polarity of a message is lost. In addition, dictionary-based methods fail in relating concepts and analyzing the context in which the words are written. For this reason, in this M.Sc. thesis we propose the definition of a controlled language for sentiment analysis in Twitter English messages. We intend to transform the user opinion into a structure for easing their classification into negative/positive polarities by using syntax rules. We represent natural language in controlled texts to be used for improving the existing sentiment analysis methods of the state of the art. Once controlled language is implemented, the words acquire syntactic value, the terminology and the format of the information are standardized, and consequently the messages are more precise and unambiguous. So, they are useful for the reasoning automation.Maestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Medellín Facultad de Minas Instituto de Sistemas y Ciencias de la DecisiónInstituto de Sistemas y Ciencias de la Decisión0 Generalidades / Computer science, information and general worksEspinosa Zuluaga, Karen Yessenia (2019) Definición de un lenguaje controlado para el análisis de sentimientos en Twitter para mensajes en inglés. Maestría thesis, Universidad Nacional de Colombia - Sede Medellín.Definición de un lenguaje controlado para el análisis de sentimientos en Twitter para mensajes en inglésTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMTwitterAnálisis de sentimientosLingüística computacionalLenguaje naturalLenguaje controladoTuits en inglésSentiment analysisControlled languageNatural languageORIGINAL1017223005.2019.pdfapplication/pdf1265808https://repositorio.unal.edu.co/bitstream/unal/76956/1/1017223005.2019.pdf8025c6796caf34aa09469d78d77e1322MD51THUMBNAIL1017223005.2019.pdf.jpg1017223005.2019.pdf.jpgGenerated Thumbnailimage/jpeg4739https://repositorio.unal.edu.co/bitstream/unal/76956/2/1017223005.2019.pdf.jpg4f9914a124080c7f155cc7fba20ef075MD52unal/76956oai:repositorio.unal.edu.co:unal/769562024-07-15 23:09:36.613Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co