Sobre la entropía del español escrito

Se presenta una discusión sobre la entropía de la lengua española por medio de un método práctico para el cálculo de la entropía de un texto mediante procesamiento informático directo. Como un ejemplo de aplicación, se analizan treinta muestras de texto español, sumando un total de 22,8 millones de...

Full description

Autores:
Guerrero, Fabio G.
Tipo de recurso:
Article of journal
Fecha de publicación:
2012
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/71828
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/71828
http://bdigital.unal.edu.co/36300/
Palabra clave:
Law of large numbers
Shannon entropy
Stochastic process
Zipf’s law
entropía de Shannon
ley de grandes números
ley de Zipf
procesos estocásticos
Rights
closedAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_06180040bd541ae053d3728693df121a
oai_identifier_str oai:repositorio.unal.edu.co:unal/71828
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/closedAccesshttp://purl.org/coar/access_right/c_14cbGuerrero, Fabio G.858006b5-bf79-45fe-9030-2ad64314c2423002019-07-03T14:40:11Z2019-07-03T14:40:11Z2012https://repositorio.unal.edu.co/handle/unal/71828http://bdigital.unal.edu.co/36300/Se presenta una discusión sobre la entropía de la lengua española por medio de un método práctico para el cálculo de la entropía de un texto mediante procesamiento informático directo. Como un ejemplo de aplicación, se analizan treinta muestras de texto español, sumando un total de 22,8 millones de caracteres. Longitudes de símbolos desde n = 1 hasta 500 fueron consideradas tanto para palabras como caracteres. Para el cálculo de la distribución de probabilidad de los símbolos se emplearon procesamiento directo por computador y la ley de probabilidad de los grandes números. Se presenta una relación empírica de la entropía con la longitud del texto (en caracteres) y el número de palabras diferentes en el texto. Se analizan también propiedades estadísticas de la lengua española cuando se considera como producida por una fuente estocástica, tales como la invarianza al desplazamiento del origen, ergodicidad y la propiedad de equipartición asintótica.A discussion on the entropy of the Spanish language by means of a practical method for calculating the entropy of a text by direct computer processing is presented. As an example of application, thirty samples of Spanish text are analyzed, totaling 22.8 million characters. Symbol lengths from n = 1 to 500 were considered for both words and characters. Both direct computer processing and the probability law of large numbers were employed for calculating the probability distribution of the symbols. An empirical relation on entropy involving the length of the text (in characters) and the number of different words in the text is presented. Statistical properties of the Spanish language when viewed as produced by a stochastic source, (such as origin shift invariance, ergodicity and asymptotic equipartition property) are also analyzed.spaUniversidad Nacional de Colombiahttp://revistas.unal.edu.co/index.php/estad/article/view/36878Universidad Nacional de Colombia Revistas electrónicas UN Revista Colombiana de EstadísticaRevista Colombiana de EstadísticaRevista Colombiana de Estadística; Vol. 35, núm. 3 (2012); 423-440 Revista Colombiana de Estadística; Vol. 35, núm. 3 (2012); 423-440 0120-1751Guerrero, Fabio G. (2012) Sobre la entropía del español escrito. Revista Colombiana de Estadística; Vol. 35, núm. 3 (2012); 423-440 Revista Colombiana de Estadística; Vol. 35, núm. 3 (2012); 423-440 0120-1751 .Sobre la entropía del español escritoArtículo de revistainfo:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501http://purl.org/coar/resource_type/c_2df8fbb1http://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/ARTLaw of large numbersShannon entropyStochastic processZipf’s lawentropía de Shannonley de grandes númerosley de Zipfprocesos estocásticosunal/71828oai:repositorio.unal.edu.co:unal/718282021-04-23 12:09:12.613Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co
dc.title.spa.fl_str_mv Sobre la entropía del español escrito
title Sobre la entropía del español escrito
spellingShingle Sobre la entropía del español escrito
Law of large numbers
Shannon entropy
Stochastic process
Zipf’s law
entropía de Shannon
ley de grandes números
ley de Zipf
procesos estocásticos
title_short Sobre la entropía del español escrito
title_full Sobre la entropía del español escrito
title_fullStr Sobre la entropía del español escrito
title_full_unstemmed Sobre la entropía del español escrito
title_sort Sobre la entropía del español escrito
dc.creator.fl_str_mv Guerrero, Fabio G.
dc.contributor.author.spa.fl_str_mv Guerrero, Fabio G.
dc.subject.proposal.spa.fl_str_mv Law of large numbers
Shannon entropy
Stochastic process
Zipf’s law
entropía de Shannon
ley de grandes números
ley de Zipf
procesos estocásticos
topic Law of large numbers
Shannon entropy
Stochastic process
Zipf’s law
entropía de Shannon
ley de grandes números
ley de Zipf
procesos estocásticos
description Se presenta una discusión sobre la entropía de la lengua española por medio de un método práctico para el cálculo de la entropía de un texto mediante procesamiento informático directo. Como un ejemplo de aplicación, se analizan treinta muestras de texto español, sumando un total de 22,8 millones de caracteres. Longitudes de símbolos desde n = 1 hasta 500 fueron consideradas tanto para palabras como caracteres. Para el cálculo de la distribución de probabilidad de los símbolos se emplearon procesamiento directo por computador y la ley de probabilidad de los grandes números. Se presenta una relación empírica de la entropía con la longitud del texto (en caracteres) y el número de palabras diferentes en el texto. Se analizan también propiedades estadísticas de la lengua española cuando se considera como producida por una fuente estocástica, tales como la invarianza al desplazamiento del origen, ergodicidad y la propiedad de equipartición asintótica.
publishDate 2012
dc.date.issued.spa.fl_str_mv 2012
dc.date.accessioned.spa.fl_str_mv 2019-07-03T14:40:11Z
dc.date.available.spa.fl_str_mv 2019-07-03T14:40:11Z
dc.type.spa.fl_str_mv Artículo de revista
dc.type.coar.fl_str_mv http://purl.org/coar/resource_type/c_2df8fbb1
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/article
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_6501
dc.type.coarversion.spa.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/ART
format http://purl.org/coar/resource_type/c_6501
status_str publishedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/71828
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/36300/
url https://repositorio.unal.edu.co/handle/unal/71828
http://bdigital.unal.edu.co/36300/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.spa.fl_str_mv http://revistas.unal.edu.co/index.php/estad/article/view/36878
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Revistas electrónicas UN Revista Colombiana de Estadística
Revista Colombiana de Estadística
dc.relation.ispartofseries.none.fl_str_mv Revista Colombiana de Estadística; Vol. 35, núm. 3 (2012); 423-440 Revista Colombiana de Estadística; Vol. 35, núm. 3 (2012); 423-440 0120-1751
dc.relation.references.spa.fl_str_mv Guerrero, Fabio G. (2012) Sobre la entropía del español escrito. Revista Colombiana de Estadística; Vol. 35, núm. 3 (2012); 423-440 Revista Colombiana de Estadística; Vol. 35, núm. 3 (2012); 423-440 0120-1751 .
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_14cb
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/closedAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_14cb
eu_rights_str_mv closedAccess
dc.publisher.spa.fl_str_mv Universidad Nacional de Colombia
institution Universidad Nacional de Colombia
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1814090050296610816