Sentiment Analysis of News Articles in Spanish Using Predicate Features

RESUMEN: La predicción automática del modo de proceder de los agentes involucrados en las tendencias sociales o económicas es un desafío preponderante en la actualidad. Sin embargo, es una tarea difícil debido al hecho de que la postura u opinión a menudo se extiende a través de documentos extensos...

Full description

Autores:
Tamayo Herrera, Antonio Jesús
Arias Londoño, Julián David
Quiróz Herrera, Gabriel Ángel
Burgos Herrera, Diego Alberto
Tipo de recurso:
Article of investigation
Fecha de publicación:
2019
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
eng
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/14178
Acceso en línea:
http://hdl.handle.net/10495/14178
Palabra clave:
Supervised learning (Machine learning)
Dimension reduction (Statistics)
Investigación lingüística
Linguistic research
Sintaxis
Syntax
Semántica
Semantics
Lingüística informática
Computational linguistics
Análisis semántico
Semantic analysis
Aprendizaje automático (inteligencia artificial)
http://id.loc.gov/authorities/subjects/sh94008290
http://id.loc.gov/authorities/subjects/sh2010000188
http://vocabularies.unesco.org/thesaurus/concept12899
http://vocabularies.unesco.org/thesaurus/concept11611
http://vocabularies.unesco.org/thesaurus/concept13409
http://vocabularies.unesco.org/thesaurus/concept3411
Rights
openAccess
License
Atribución-NoComercial-SinDerivadas 2.5 Colombia (CC BY-NC-ND 2.5 CO)
Description
Summary:RESUMEN: La predicción automática del modo de proceder de los agentes involucrados en las tendencias sociales o económicas es un desafío preponderante en la actualidad. Sin embargo, es una tarea difícil debido al hecho de que la postura u opinión a menudo se extiende a través de documentos extensos y complejos, como los artículos de noticias. El presente trabajo evalúa los predicados de oraciones como características para determinar automáticamente la postura del escritor en los artículos de noticias. Capturamos la semántica y la postura del texto codificando características como el atributo de oraciones copulativas, el predicado de oraciones transitivas, sintagmas adjetivales y la sección del artículo. Bajo el supuesto de que estas características son lo suficientemente informativas para modelar la semántica del texto, cada secuencia de palabras se desambigua y se le asigna un valor de sentimiento con reglas de ponderación. Se realizaron diferentes experimentos empleando SentiWordNet y ML-Senticon para determinar la opinión de las palabras. Los vectores de características se construyen automáticamente para completar una base de datos que se prueba mediante el uso de dos algoritmos de aprendizaje automático. Se logró una eficiencia del 69 % utilizando una SVM con kernel gaussiano junto con una estrategia de selección de características. Esta puntuación superó la línea de base de la técnica de "bag of words" en un 12 %. Estos resultados son prometedores si tenemos en cuenta que el análisis de sentimientos se hace en documentos muy complejos en español.