Sentiment Analysis of News Articles in Spanish Using Predicate Features
RESUMEN: La predicción automática del modo de proceder de los agentes involucrados en las tendencias sociales o económicas es un desafío preponderante en la actualidad. Sin embargo, es una tarea difícil debido al hecho de que la postura u opinión a menudo se extiende a través de documentos extensos...
- Autores:
-
Tamayo Herrera, Antonio Jesús
Arias Londoño, Julián David
Quiróz Herrera, Gabriel Ángel
Burgos Herrera, Diego Alberto
- Tipo de recurso:
- Article of investigation
- Fecha de publicación:
- 2019
- Institución:
- Universidad de Antioquia
- Repositorio:
- Repositorio UdeA
- Idioma:
- eng
- OAI Identifier:
- oai:bibliotecadigital.udea.edu.co:10495/14178
- Acceso en línea:
- http://hdl.handle.net/10495/14178
- Palabra clave:
- Supervised learning (Machine learning)
Dimension reduction (Statistics)
Investigación lingüística
Linguistic research
Sintaxis
Syntax
Semántica
Semantics
Lingüística informática
Computational linguistics
Análisis semántico
Semantic analysis
Aprendizaje automático (inteligencia artificial)
http://id.loc.gov/authorities/subjects/sh94008290
http://id.loc.gov/authorities/subjects/sh2010000188
http://vocabularies.unesco.org/thesaurus/concept12899
http://vocabularies.unesco.org/thesaurus/concept11611
http://vocabularies.unesco.org/thesaurus/concept13409
http://vocabularies.unesco.org/thesaurus/concept3411
- Rights
- openAccess
- License
- Atribución-NoComercial-SinDerivadas 2.5 Colombia (CC BY-NC-ND 2.5 CO)
id |
UDEA2_7b35b2fc96d3608c9d3e99849347e6e6 |
---|---|
oai_identifier_str |
oai:bibliotecadigital.udea.edu.co:10495/14178 |
network_acronym_str |
UDEA2 |
network_name_str |
Repositorio UdeA |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Sentiment Analysis of News Articles in Spanish Using Predicate Features |
dc.title.alternative.spa.fl_str_mv |
Análisis de sentimientos en artículos de prensa en español usando predicados como características Analyse de sentiments dans des articles de presse en espagnol en utilisant des prédicats en tant que caractéristiques |
title |
Sentiment Analysis of News Articles in Spanish Using Predicate Features |
spellingShingle |
Sentiment Analysis of News Articles in Spanish Using Predicate Features Supervised learning (Machine learning) Dimension reduction (Statistics) Investigación lingüística Linguistic research Sintaxis Syntax Semántica Semantics Lingüística informática Computational linguistics Análisis semántico Semantic analysis Aprendizaje automático (inteligencia artificial) http://id.loc.gov/authorities/subjects/sh94008290 http://id.loc.gov/authorities/subjects/sh2010000188 http://vocabularies.unesco.org/thesaurus/concept12899 http://vocabularies.unesco.org/thesaurus/concept11611 http://vocabularies.unesco.org/thesaurus/concept13409 http://vocabularies.unesco.org/thesaurus/concept3411 |
title_short |
Sentiment Analysis of News Articles in Spanish Using Predicate Features |
title_full |
Sentiment Analysis of News Articles in Spanish Using Predicate Features |
title_fullStr |
Sentiment Analysis of News Articles in Spanish Using Predicate Features |
title_full_unstemmed |
Sentiment Analysis of News Articles in Spanish Using Predicate Features |
title_sort |
Sentiment Analysis of News Articles in Spanish Using Predicate Features |
dc.creator.fl_str_mv |
Tamayo Herrera, Antonio Jesús Arias Londoño, Julián David Quiróz Herrera, Gabriel Ángel Burgos Herrera, Diego Alberto |
dc.contributor.author.none.fl_str_mv |
Tamayo Herrera, Antonio Jesús Arias Londoño, Julián David Quiróz Herrera, Gabriel Ángel Burgos Herrera, Diego Alberto |
dc.subject.lcsh.none.fl_str_mv |
Supervised learning (Machine learning) Dimension reduction (Statistics) |
topic |
Supervised learning (Machine learning) Dimension reduction (Statistics) Investigación lingüística Linguistic research Sintaxis Syntax Semántica Semantics Lingüística informática Computational linguistics Análisis semántico Semantic analysis Aprendizaje automático (inteligencia artificial) http://id.loc.gov/authorities/subjects/sh94008290 http://id.loc.gov/authorities/subjects/sh2010000188 http://vocabularies.unesco.org/thesaurus/concept12899 http://vocabularies.unesco.org/thesaurus/concept11611 http://vocabularies.unesco.org/thesaurus/concept13409 http://vocabularies.unesco.org/thesaurus/concept3411 |
dc.subject.unesco.none.fl_str_mv |
Investigación lingüística Linguistic research Sintaxis Syntax Semántica Semantics Lingüística informática Computational linguistics |
dc.subject.lemb.none.fl_str_mv |
Análisis semántico Semantic analysis Aprendizaje automático (inteligencia artificial) |
dc.subject.lcshuri.none.fl_str_mv |
http://id.loc.gov/authorities/subjects/sh94008290 http://id.loc.gov/authorities/subjects/sh2010000188 |
dc.subject.unescouri.none.fl_str_mv |
http://vocabularies.unesco.org/thesaurus/concept12899 http://vocabularies.unesco.org/thesaurus/concept11611 http://vocabularies.unesco.org/thesaurus/concept13409 http://vocabularies.unesco.org/thesaurus/concept3411 |
description |
RESUMEN: La predicción automática del modo de proceder de los agentes involucrados en las tendencias sociales o económicas es un desafío preponderante en la actualidad. Sin embargo, es una tarea difícil debido al hecho de que la postura u opinión a menudo se extiende a través de documentos extensos y complejos, como los artículos de noticias. El presente trabajo evalúa los predicados de oraciones como características para determinar automáticamente la postura del escritor en los artículos de noticias. Capturamos la semántica y la postura del texto codificando características como el atributo de oraciones copulativas, el predicado de oraciones transitivas, sintagmas adjetivales y la sección del artículo. Bajo el supuesto de que estas características son lo suficientemente informativas para modelar la semántica del texto, cada secuencia de palabras se desambigua y se le asigna un valor de sentimiento con reglas de ponderación. Se realizaron diferentes experimentos empleando SentiWordNet y ML-Senticon para determinar la opinión de las palabras. Los vectores de características se construyen automáticamente para completar una base de datos que se prueba mediante el uso de dos algoritmos de aprendizaje automático. Se logró una eficiencia del 69 % utilizando una SVM con kernel gaussiano junto con una estrategia de selección de características. Esta puntuación superó la línea de base de la técnica de "bag of words" en un 12 %. Estos resultados son prometedores si tenemos en cuenta que el análisis de sentimientos se hace en documentos muy complejos en español. |
publishDate |
2019 |
dc.date.issued.none.fl_str_mv |
2019 |
dc.date.accessioned.none.fl_str_mv |
2020-05-05T22:51:49Z |
dc.date.available.none.fl_str_mv |
2020-05-05T22:51:49Z |
dc.type.spa.fl_str_mv |
info:eu-repo/semantics/article |
dc.type.coarversion.fl_str_mv |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
dc.type.coar.spa.fl_str_mv |
http://purl.org/coar/resource_type/c_2df8fbb1 |
dc.type.redcol.spa.fl_str_mv |
https://purl.org/redcol/resource_type/ART |
dc.type.local.spa.fl_str_mv |
Artículo de investigación |
format |
http://purl.org/coar/resource_type/c_2df8fbb1 |
dc.identifier.issn.none.fl_str_mv |
0120-3479 |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/10495/14178 |
dc.identifier.eissn.none.fl_str_mv |
2539-3804 |
identifier_str_mv |
0120-3479 2539-3804 |
url |
http://hdl.handle.net/10495/14178 |
dc.language.iso.spa.fl_str_mv |
eng |
language |
eng |
dc.relation.ispartofjournalabbrev.spa.fl_str_mv |
Lenguaje |
dc.rights.*.fl_str_mv |
Atribución-NoComercial-SinDerivadas 2.5 Colombia (CC BY-NC-ND 2.5 CO) |
dc.rights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/co/ |
dc.rights.accessrights.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.creativecommons.spa.fl_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ |
rights_invalid_str_mv |
Atribución-NoComercial-SinDerivadas 2.5 Colombia (CC BY-NC-ND 2.5 CO) http://creativecommons.org/licenses/by-nc-nd/2.5/co/ http://purl.org/coar/access_right/c_abf2 https://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
dc.format.extent.spa.fl_str_mv |
32 |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
dc.publisher.spa.fl_str_mv |
Universidad del Valle, Escuela de Ciencias del Lenguaje |
dc.publisher.place.spa.fl_str_mv |
Cali, Colombia |
institution |
Universidad de Antioquia |
bitstream.url.fl_str_mv |
http://bibliotecadigital.udea.edu.co/bitstream/10495/14178/2/license_rdf http://bibliotecadigital.udea.edu.co/bitstream/10495/14178/4/TamayoAntonio_2019_SentimentAnalysisFeatures.pdf http://bibliotecadigital.udea.edu.co/bitstream/10495/14178/5/license.txt |
bitstream.checksum.fl_str_mv |
b88b088d9957e670ce3b3fbe2eedbc13 ec7ecd390a2800a688c3e74916d4eb14 8a4605be74aa9ea9d79846c1fba20a33 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad de Antioquia |
repository.mail.fl_str_mv |
andres.perez@udea.edu.co |
_version_ |
1812173200910450688 |
spelling |
Tamayo Herrera, Antonio JesúsArias Londoño, Julián DavidQuiróz Herrera, Gabriel ÁngelBurgos Herrera, Diego Alberto2020-05-05T22:51:49Z2020-05-05T22:51:49Z20190120-3479http://hdl.handle.net/10495/141782539-3804RESUMEN: La predicción automática del modo de proceder de los agentes involucrados en las tendencias sociales o económicas es un desafío preponderante en la actualidad. Sin embargo, es una tarea difícil debido al hecho de que la postura u opinión a menudo se extiende a través de documentos extensos y complejos, como los artículos de noticias. El presente trabajo evalúa los predicados de oraciones como características para determinar automáticamente la postura del escritor en los artículos de noticias. Capturamos la semántica y la postura del texto codificando características como el atributo de oraciones copulativas, el predicado de oraciones transitivas, sintagmas adjetivales y la sección del artículo. Bajo el supuesto de que estas características son lo suficientemente informativas para modelar la semántica del texto, cada secuencia de palabras se desambigua y se le asigna un valor de sentimiento con reglas de ponderación. Se realizaron diferentes experimentos empleando SentiWordNet y ML-Senticon para determinar la opinión de las palabras. Los vectores de características se construyen automáticamente para completar una base de datos que se prueba mediante el uso de dos algoritmos de aprendizaje automático. Se logró una eficiencia del 69 % utilizando una SVM con kernel gaussiano junto con una estrategia de selección de características. Esta puntuación superó la línea de base de la técnica de "bag of words" en un 12 %. Estos resultados son prometedores si tenemos en cuenta que el análisis de sentimientos se hace en documentos muy complejos en español.ABSTRACT: The automatic prediction of the course of action of agents involved in social or economic trends is an imperative challenge nowadays. However, it is a difficult task because stance or opinion is often spread throughout long, complex texts, such as news articles. The current study tests sentence predicates as features to automatically determine the writer’s stance in news articles. We capture the semantics and stance of the text by encoding features such as the attribute of copulative sentences, the predicate of transitive sentences, adjectival phrases, and the section of the article. Under the assumption that these features are informative enough to model the semantics of the text, each word sequence is disambiguated and assigned a sentiment value using weighting rules. Different experiments were run using either SentiWordNet and ML-Senticon to determine words’ sentiment. Feature vectors are automatically built to populate a database that is tested using two machine learning algorithms. An efficiency of 69% was achieved using a SVM with Gaussian kernel along with a feature selection strategy. This score outperformed the bag-of-words baseline in 12%. These results are promising considering that the sentiment analysis is performed on very complex texts written in Spanish.RESUMEN: La predicción automática del modo de proceder de los agentes involucrados en las tendencias sociales o económicas es un desafío preponderante en la actualidad. Sin embargo, es una tarea difícil debido al hecho de que la postura u opinión a menudo se extiende a través de documentos extensos y complejos, como los artículos de noticias. El presente trabajo evalúa los predicados de oraciones como características para determinar automáticamente la postura del escritor en los características como el atributo de oraciones copulativas, el predicado de oraciones transitivas, sintagmas adjetivales y la sección del artículo. Bajo el supuesto de que estas características son lo suficientemente informativas para modelar la semántica del texto, cada secuencia de palabras se desambigua y se le asigna un valor de sentimiento con reglas de ponderación. Se realizaron diferentes experimentos empleando SentiWordNet y ML-Senticon para determinar la opinión de las palabras. Los vectores de características se construyen automáticamente para completar una base de datos que se prueba mediante el uso de dos algoritmos de aprendizaje automático. Se logró una eficiencia del 69 % utilizando una SVM con kernel gaussiano junto con una estrategia de selección de características. Esta puntuación superó la línea de base de la técnica de "bag of words" en un 12 %. Estos resultados son prometedores si tenemos en cuenta que el análisis de sentimientos se hace en documentos muy complejos en español.RÉSUMÉ: La prédiction automatique des façons d’agir des agents impliqués dans les tendances sociales ou économiques est un défi impératif de nos jours. Cependant, cette tâche s´avère difficile étant donné que les avis s’entendent dans des documents longs et complexes, tels que des articles de presse. Le présent travail évalue les prédicats de phrases en tant que caractéristiques pour déterminer systématiquement le point de vue de l’écrivain dans les articles de presse. Il s’agit de capturer la sémantique et la posture du texte en décodant des caractéristiques telles que l'attribut de phrases copulatives, le prédicat de phrases transitives, de syntagmes adjectivaux et la section de l'article. En supposant que ces fonctionnalités soient suffisamment informatives pour modéliser la sémantique du texte, chaque séquence de mots est désambiguïsée et une valeur de sentiment est attribuée à l'aide de règles de pondération. Différentes expériences ont été réalisées à l'aide de SentiWordNet et de ML-Senticon afin de déterminer l’avis des mots. Les vecteurs de fonctionnalités sont construits de façon automatique pour alimenter une base de données testée à l'aide de deux algorithmes d'apprentissage automatique. Une efficacité de 69% a été obtenue avec un SVM à noyau gaussien et une stratégie de sélection des fonctionnalités. Ce score a dépassé la base de référence de la technique «bag of words» dans 12%. Ces résultats sont prometteurs compte tenu du fait que l'analyse des sentiments est effectuée sur des documents très complexes en espagnol.32application/pdfengUniversidad del Valle, Escuela de Ciencias del LenguajeCali, Colombiainfo:eu-repo/semantics/articlehttp://purl.org/coar/resource_type/c_2df8fbb1https://purl.org/redcol/resource_type/ARTArtículo de investigaciónhttp://purl.org/coar/version/c_970fb48d4fbd8a85Atribución-NoComercial-SinDerivadas 2.5 Colombia (CC BY-NC-ND 2.5 CO)info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/co/http://purl.org/coar/access_right/c_abf2https://creativecommons.org/licenses/by-nc-nd/4.0/Supervised learning (Machine learning)Dimension reduction (Statistics)Investigación lingüísticaLinguistic researchSintaxisSyntaxSemánticaSemanticsLingüística informáticaComputational linguisticsAnálisis semánticoSemantic analysisAprendizaje automático (inteligencia artificial)http://id.loc.gov/authorities/subjects/sh94008290http://id.loc.gov/authorities/subjects/sh2010000188http://vocabularies.unesco.org/thesaurus/concept12899http://vocabularies.unesco.org/thesaurus/concept11611http://vocabularies.unesco.org/thesaurus/concept13409http://vocabularies.unesco.org/thesaurus/concept3411Sentiment Analysis of News Articles in Spanish Using Predicate FeaturesAnálisis de sentimientos en artículos de prensa en español usando predicados como característicasAnalyse de sentiments dans des articles de presse en espagnol en utilisant des prédicats en tant que caractéristiquesLenguajeLenguaje235267472CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8823http://bibliotecadigital.udea.edu.co/bitstream/10495/14178/2/license_rdfb88b088d9957e670ce3b3fbe2eedbc13MD52ORIGINALTamayoAntonio_2019_SentimentAnalysisFeatures.pdfTamayoAntonio_2019_SentimentAnalysisFeatures.pdfArtículo de investigaciónapplication/pdf1343959http://bibliotecadigital.udea.edu.co/bitstream/10495/14178/4/TamayoAntonio_2019_SentimentAnalysisFeatures.pdfec7ecd390a2800a688c3e74916d4eb14MD54LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://bibliotecadigital.udea.edu.co/bitstream/10495/14178/5/license.txt8a4605be74aa9ea9d79846c1fba20a33MD5510495/14178oai:bibliotecadigital.udea.edu.co:10495/141782021-05-23 14:04:06.94Repositorio Institucional Universidad de Antioquiaandres.perez@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |