Sobre la entropía del español escrito
Se presenta una discusión sobre la entropía de la lengua española por medio de un método práctico para el cálculo de la entropía de un texto mediante procesamiento informático directo. Como un ejemplo de aplicación, se analizan treinta muestras de texto español, sumando un total de 22,8 millones de...
- Autores:
-
Guerrero, Fabio G.
- Tipo de recurso:
- Article of journal
- Fecha de publicación:
- 2012
- Institución:
- Universidad Nacional de Colombia
- Repositorio:
- Universidad Nacional de Colombia
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unal.edu.co:unal/71828
- Acceso en línea:
- https://repositorio.unal.edu.co/handle/unal/71828
http://bdigital.unal.edu.co/36300/
- Palabra clave:
- Law of large numbers
Shannon entropy
Stochastic process
Zipf’s law
entropía de Shannon
ley de grandes números
ley de Zipf
procesos estocásticos
- Rights
- closedAccess
- License
- Atribución-NoComercial 4.0 Internacional
id |
UNACIONAL2_06180040bd541ae053d3728693df121a |
---|---|
oai_identifier_str |
oai:repositorio.unal.edu.co:unal/71828 |
network_acronym_str |
UNACIONAL2 |
network_name_str |
Universidad Nacional de Colombia |
repository_id_str |
|
spelling |
Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/closedAccesshttp://purl.org/coar/access_right/c_14cbGuerrero, Fabio G.858006b5-bf79-45fe-9030-2ad64314c2423002019-07-03T14:40:11Z2019-07-03T14:40:11Z2012https://repositorio.unal.edu.co/handle/unal/71828http://bdigital.unal.edu.co/36300/Se presenta una discusión sobre la entropía de la lengua española por medio de un método práctico para el cálculo de la entropía de un texto mediante procesamiento informático directo. Como un ejemplo de aplicación, se analizan treinta muestras de texto español, sumando un total de 22,8 millones de caracteres. Longitudes de símbolos desde n = 1 hasta 500 fueron consideradas tanto para palabras como caracteres. Para el cálculo de la distribución de probabilidad de los símbolos se emplearon procesamiento directo por computador y la ley de probabilidad de los grandes números. Se presenta una relación empírica de la entropía con la longitud del texto (en caracteres) y el número de palabras diferentes en el texto. Se analizan también propiedades estadísticas de la lengua española cuando se considera como producida por una fuente estocástica, tales como la invarianza al desplazamiento del origen, ergodicidad y la propiedad de equipartición asintótica.A discussion on the entropy of the Spanish language by means of a practical method for calculating the entropy of a text by direct computer processing is presented. As an example of application, thirty samples of Spanish text are analyzed, totaling 22.8 million characters. Symbol lengths from n = 1 to 500 were considered for both words and characters. Both direct computer processing and the probability law of large numbers were employed for calculating the probability distribution of the symbols. An empirical relation on entropy involving the length of the text (in characters) and the number of different words in the text is presented. Statistical properties of the Spanish language when viewed as produced by a stochastic source, (such as origin shift invariance, ergodicity and asymptotic equipartition property) are also analyzed.spaUniversidad Nacional de Colombiahttp://revistas.unal.edu.co/index.php/estad/article/view/36878Universidad Nacional de Colombia Revistas electrónicas UN Revista Colombiana de EstadísticaRevista Colombiana de EstadísticaRevista Colombiana de Estadística; Vol. 35, núm. 3 (2012); 423-440 Revista Colombiana de Estadística; Vol. 35, núm. 3 (2012); 423-440 0120-1751Guerrero, Fabio G. (2012) Sobre la entropía del español escrito. Revista Colombiana de Estadística; Vol. 35, núm. 3 (2012); 423-440 Revista Colombiana de Estadística; Vol. 35, núm. 3 (2012); 423-440 0120-1751 .Sobre la entropía del español escritoArtículo de revistainfo:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501http://purl.org/coar/resource_type/c_2df8fbb1http://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/ARTLaw of large numbersShannon entropyStochastic processZipf’s lawentropía de Shannonley de grandes númerosley de Zipfprocesos estocásticosunal/71828oai:repositorio.unal.edu.co:unal/718282021-04-23 12:09:12.613Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co |
dc.title.spa.fl_str_mv |
Sobre la entropía del español escrito |
title |
Sobre la entropía del español escrito |
spellingShingle |
Sobre la entropía del español escrito Law of large numbers Shannon entropy Stochastic process Zipf’s law entropía de Shannon ley de grandes números ley de Zipf procesos estocásticos |
title_short |
Sobre la entropía del español escrito |
title_full |
Sobre la entropía del español escrito |
title_fullStr |
Sobre la entropía del español escrito |
title_full_unstemmed |
Sobre la entropía del español escrito |
title_sort |
Sobre la entropía del español escrito |
dc.creator.fl_str_mv |
Guerrero, Fabio G. |
dc.contributor.author.spa.fl_str_mv |
Guerrero, Fabio G. |
dc.subject.proposal.spa.fl_str_mv |
Law of large numbers Shannon entropy Stochastic process Zipf’s law entropía de Shannon ley de grandes números ley de Zipf procesos estocásticos |
topic |
Law of large numbers Shannon entropy Stochastic process Zipf’s law entropía de Shannon ley de grandes números ley de Zipf procesos estocásticos |
description |
Se presenta una discusión sobre la entropía de la lengua española por medio de un método práctico para el cálculo de la entropía de un texto mediante procesamiento informático directo. Como un ejemplo de aplicación, se analizan treinta muestras de texto español, sumando un total de 22,8 millones de caracteres. Longitudes de símbolos desde n = 1 hasta 500 fueron consideradas tanto para palabras como caracteres. Para el cálculo de la distribución de probabilidad de los símbolos se emplearon procesamiento directo por computador y la ley de probabilidad de los grandes números. Se presenta una relación empírica de la entropía con la longitud del texto (en caracteres) y el número de palabras diferentes en el texto. Se analizan también propiedades estadísticas de la lengua española cuando se considera como producida por una fuente estocástica, tales como la invarianza al desplazamiento del origen, ergodicidad y la propiedad de equipartición asintótica. |
publishDate |
2012 |
dc.date.issued.spa.fl_str_mv |
2012 |
dc.date.accessioned.spa.fl_str_mv |
2019-07-03T14:40:11Z |
dc.date.available.spa.fl_str_mv |
2019-07-03T14:40:11Z |
dc.type.spa.fl_str_mv |
Artículo de revista |
dc.type.coar.fl_str_mv |
http://purl.org/coar/resource_type/c_2df8fbb1 |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/article |
dc.type.version.spa.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.coar.spa.fl_str_mv |
http://purl.org/coar/resource_type/c_6501 |
dc.type.coarversion.spa.fl_str_mv |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/ART |
format |
http://purl.org/coar/resource_type/c_6501 |
status_str |
publishedVersion |
dc.identifier.uri.none.fl_str_mv |
https://repositorio.unal.edu.co/handle/unal/71828 |
dc.identifier.eprints.spa.fl_str_mv |
http://bdigital.unal.edu.co/36300/ |
url |
https://repositorio.unal.edu.co/handle/unal/71828 http://bdigital.unal.edu.co/36300/ |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.relation.spa.fl_str_mv |
http://revistas.unal.edu.co/index.php/estad/article/view/36878 |
dc.relation.ispartof.spa.fl_str_mv |
Universidad Nacional de Colombia Revistas electrónicas UN Revista Colombiana de Estadística Revista Colombiana de Estadística |
dc.relation.ispartofseries.none.fl_str_mv |
Revista Colombiana de Estadística; Vol. 35, núm. 3 (2012); 423-440 Revista Colombiana de Estadística; Vol. 35, núm. 3 (2012); 423-440 0120-1751 |
dc.relation.references.spa.fl_str_mv |
Guerrero, Fabio G. (2012) Sobre la entropía del español escrito. Revista Colombiana de Estadística; Vol. 35, núm. 3 (2012); 423-440 Revista Colombiana de Estadística; Vol. 35, núm. 3 (2012); 423-440 0120-1751 . |
dc.rights.spa.fl_str_mv |
Derechos reservados - Universidad Nacional de Colombia |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_14cb |
dc.rights.license.spa.fl_str_mv |
Atribución-NoComercial 4.0 Internacional |
dc.rights.uri.spa.fl_str_mv |
http://creativecommons.org/licenses/by-nc/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/closedAccess |
rights_invalid_str_mv |
Atribución-NoComercial 4.0 Internacional Derechos reservados - Universidad Nacional de Colombia http://creativecommons.org/licenses/by-nc/4.0/ http://purl.org/coar/access_right/c_14cb |
eu_rights_str_mv |
closedAccess |
dc.publisher.spa.fl_str_mv |
Universidad Nacional de Colombia |
institution |
Universidad Nacional de Colombia |
repository.name.fl_str_mv |
Repositorio Institucional Universidad Nacional de Colombia |
repository.mail.fl_str_mv |
repositorio_nal@unal.edu.co |
_version_ |
1814090050296610816 |