Análisis de la contribución de los fonemas a la predicción de la valencia emocional en tweets en español e inglés

Aunque tradicionalmente se ha asumido que el sonido de las palabras y su significado se relacionan de forma arbitraria, distintos hallazgos empíricos respaldan la hipótesis de que las unidades fonológicas básicas del lenguaje guardan una relación sistemática con aspectos semánticos, incluyendo la co...

Full description

Autores:
Tipo de recurso:
masterThesis
Fecha de publicación:
2020
Institución:
Pontificia Universidad Javeriana
Repositorio:
Repositorio Universidad Javeriana
Idioma:
spa
OAI Identifier:
oai:repository.javeriana.edu.co:10554/51095
Acceso en línea:
http://hdl.handle.net/10554/51095
https://doi.org/10.11144/Javeriana.10554.51095
Palabra clave:
Arbitrariedad del signo lingüístico
Simbolismo de los sonidos
Fonemas
Procesamiento del lenguaje natural
Análisis de sentimiento
Arbitrariness of linguistic sign
Sound symbolism
Phonemes
Natural language processing
Sentiment analysis
Maestría en analítica para la inteligencia de negocios - Tesis y disertaciones académicas
Lenguaje natural (Informática)
Simbolismo
Rights
openAccess
License
Atribución-NoComercial-SinDerivadas 4.0 Internacional
Description
Summary:Aunque tradicionalmente se ha asumido que el sonido de las palabras y su significado se relacionan de forma arbitraria, distintos hallazgos empíricos respaldan la hipótesis de que las unidades fonológicas básicas del lenguaje guardan una relación sistemática con aspectos semánticos, incluyendo la connotación afectiva y actitudinal de las palabras (Adelman, Estes, & Cossu, 2018; Aryani, Conrad, Schmidtke, & Jacobs, 2018; Dingemanse, Blasi, Lupyan, Christiansen, & Monaghan, 2015; Monaghan, Shillcock, Christiansen, & Kirby, 2014; Schmidtke, Conrad, & Jacobs, 2014). A partir de estas premisas, se buscó identificar si las unidades fonológicas del español y el inglés contribuyen a la predicción de la valencia emocional en un corpus de tweets. Para esto, se entrenó un conjunto de modelos de regresión lineal múltiple, cuyo desempeño fue evaluado a partir de la correlación y los indicadores de error calculados partir de las valencias predichas y las observadas en los datasets de prueba proporcionados por el concurso SemEval-2018 (Mohammad, Bravo-Márquez, Salameh, & Kiritchenko, 2018). Se encontró que la adición de los recursos fonológicos a un conjunto de predictores léxicos (Bag of Words de los Tweets, normalizada con el método TF-IDF) tiene un efecto reducido pero consistente sobre las métricas globales de ajuste, y en ambos idiomas permite discriminar con mayor precisión las valencias observadas cercanas a los valores medios, así como las valencias inferiores asociadas a contenidos afectivos negativos.