Bayesian Analysis of the Heterogeneity of Literary Style

We proposed statistical analysis of the heterogeneity of literary style in a set of texts that simultaneously use different stylometric characteristics, like word length and the frequency of function words. The data set consists of several tables with the same number of rows, with the i-th row of al...

Full description

Autores:
Puig, Xavier
Font, Marti
Ginebra, Josep
Tipo de recurso:
Article of journal
Fecha de publicación:
2016
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/66510
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/66510
http://bdigital.unal.edu.co/67538/
Palabra clave:
51 Matemáticas / Mathematics
31 Colecciones de estadística general / Statistics
Authorship
Cluster analysis
Multinomial distribution
Análisi de conglomerados
Atribución
Distribución multinomial.
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_352ac165fc3afbadf2776867f3a0ee13
oai_identifier_str oai:repositorio.unal.edu.co:unal/66510
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
dc.title.spa.fl_str_mv Bayesian Analysis of the Heterogeneity of Literary Style
title Bayesian Analysis of the Heterogeneity of Literary Style
spellingShingle Bayesian Analysis of the Heterogeneity of Literary Style
51 Matemáticas / Mathematics
31 Colecciones de estadística general / Statistics
Authorship
Cluster analysis
Multinomial distribution
Análisi de conglomerados
Atribución
Distribución multinomial.
title_short Bayesian Analysis of the Heterogeneity of Literary Style
title_full Bayesian Analysis of the Heterogeneity of Literary Style
title_fullStr Bayesian Analysis of the Heterogeneity of Literary Style
title_full_unstemmed Bayesian Analysis of the Heterogeneity of Literary Style
title_sort Bayesian Analysis of the Heterogeneity of Literary Style
dc.creator.fl_str_mv Puig, Xavier
Font, Marti
Ginebra, Josep
dc.contributor.author.spa.fl_str_mv Puig, Xavier
Font, Marti
Ginebra, Josep
dc.subject.ddc.spa.fl_str_mv 51 Matemáticas / Mathematics
31 Colecciones de estadística general / Statistics
topic 51 Matemáticas / Mathematics
31 Colecciones de estadística general / Statistics
Authorship
Cluster analysis
Multinomial distribution
Análisi de conglomerados
Atribución
Distribución multinomial.
dc.subject.proposal.spa.fl_str_mv Authorship
Cluster analysis
Multinomial distribution
Análisi de conglomerados
Atribución
Distribución multinomial.
description We proposed statistical analysis of the heterogeneity of literary style in a set of texts that simultaneously use different stylometric characteristics, like word length and the frequency of function words. The data set consists of several tables with the same number of rows, with the i-th row of all tables corresponding to the i-th text. The analysis proposed clusters the rows of all these tables simultaneously into groups with homogeneous style, based on a finite mixture of sets of multinomial models, one set for each table.  Different from the usual heuristic cluster analysis approaches, our method naturally incorporates the text size, the discrete nature of the data, and the dependence between categories in the analysis. The model is checked and chosen with the help of posterior predictive checks, together with the use of closed form expressions for the posterior probabilities that each of the models considered to be appropriate. This is illustrated through an analysis of the heterogeneity in Shakespeare’s plays, and by revisiting the authorshipattributionproblem of Tirant lo Blanc.
publishDate 2016
dc.date.issued.spa.fl_str_mv 2016-07-01
dc.date.accessioned.spa.fl_str_mv 2019-07-03T02:16:17Z
dc.date.available.spa.fl_str_mv 2019-07-03T02:16:17Z
dc.type.spa.fl_str_mv Artículo de revista
dc.type.coar.fl_str_mv http://purl.org/coar/resource_type/c_2df8fbb1
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/article
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_6501
dc.type.coarversion.spa.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/ART
format http://purl.org/coar/resource_type/c_6501
status_str publishedVersion
dc.identifier.issn.spa.fl_str_mv ISSN: 2389-8976
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/66510
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/67538/
identifier_str_mv ISSN: 2389-8976
url https://repositorio.unal.edu.co/handle/unal/66510
http://bdigital.unal.edu.co/67538/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.spa.fl_str_mv https://revistas.unal.edu.co/index.php/estad/article/view/50151
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Revistas electrónicas UN Revista Colombiana de Estadística
Revista Colombiana de Estadística
dc.relation.references.spa.fl_str_mv Puig, Xavier and Font, Marti and Ginebra, Josep (2016) Bayesian Analysis of the Heterogeneity of Literary Style. Revista Colombiana de Estadística, 39 (2). pp. 205-227. ISSN 2389-8976
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.spa.fl_str_mv Universidad Nacional de Colombia - Sede Bogotá - Facultad de Ciencias - Departamento de Estadística
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/66510/1/50151-300494-2-PB.pdf
https://repositorio.unal.edu.co/bitstream/unal/66510/2/50151-300494-2-PB.pdf.jpg
bitstream.checksum.fl_str_mv 3389cb635c95b00b21a2bdd6ee0f959d
c13c23d86db503de5e5df9af237c2b5d
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1806886444770263040
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Puig, Xavier4d02a4f2-231a-4b1f-bc63-f9717003ea90300Font, Marti3f566c27-9de0-45ec-9926-b28b4f4a63d0300Ginebra, Josep59cb9c7a-77d6-4a6f-8c09-f22ad8c9f98a3002019-07-03T02:16:17Z2019-07-03T02:16:17Z2016-07-01ISSN: 2389-8976https://repositorio.unal.edu.co/handle/unal/66510http://bdigital.unal.edu.co/67538/We proposed statistical analysis of the heterogeneity of literary style in a set of texts that simultaneously use different stylometric characteristics, like word length and the frequency of function words. The data set consists of several tables with the same number of rows, with the i-th row of all tables corresponding to the i-th text. The analysis proposed clusters the rows of all these tables simultaneously into groups with homogeneous style, based on a finite mixture of sets of multinomial models, one set for each table.  Different from the usual heuristic cluster analysis approaches, our method naturally incorporates the text size, the discrete nature of the data, and the dependence between categories in the analysis. The model is checked and chosen with the help of posterior predictive checks, together with the use of closed form expressions for the posterior probabilities that each of the models considered to be appropriate. This is illustrated through an analysis of the heterogeneity in Shakespeare’s plays, and by revisiting the authorshipattributionproblem of Tirant lo Blanc.Se propone un análisis estadístico para modelar la heterogeneidad delestilo literario en un conjunto de textos, para ello se utilizan simultáneamente diferentes características estilométricas, como longitud de palabra y la frecuencia de palabras función. Los datos consisten en varias tablas con el mismo número de filas, donde la fila i-ésima corresponde al texto i-ésimo. El análisis propuesto agrupa las filas de todas estas tablas simultáneamente en grupos de estilo homogéneo, en base a una mezcla finita de modelos multinomiales. El modelo propuesto tiene la ventaja sobre los análisis de conglomerados heurísticos habituales, de incorporar de forma natural el tamaño del texto, la naturaleza discreta de los datos y la dependencia entre las categorías. El modelo se selecciona y válida con la ayuda de simulaciones de la distribución predictiva a posteriori, junto con el uso de las expresiones en forma cerrada para la probabilidad a posteriori de cada uno de los modelos de mezcla considerados. Todo ello se ilustra a través de un análisis de la heterogeneidad en las obras de Shakespeare, y revisitando el problema de atribución de autoría del texto Tirant lo Blanc.application/pdfspaUniversidad Nacional de Colombia - Sede Bogotá - Facultad de Ciencias - Departamento de Estadísticahttps://revistas.unal.edu.co/index.php/estad/article/view/50151Universidad Nacional de Colombia Revistas electrónicas UN Revista Colombiana de EstadísticaRevista Colombiana de EstadísticaPuig, Xavier and Font, Marti and Ginebra, Josep (2016) Bayesian Analysis of the Heterogeneity of Literary Style. Revista Colombiana de Estadística, 39 (2). pp. 205-227. ISSN 2389-897651 Matemáticas / Mathematics31 Colecciones de estadística general / StatisticsAuthorshipCluster analysisMultinomial distributionAnálisi de conglomeradosAtribuciónDistribución multinomial.Bayesian Analysis of the Heterogeneity of Literary StyleArtículo de revistainfo:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501http://purl.org/coar/resource_type/c_2df8fbb1http://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/ARTORIGINAL50151-300494-2-PB.pdfapplication/pdf778854https://repositorio.unal.edu.co/bitstream/unal/66510/1/50151-300494-2-PB.pdf3389cb635c95b00b21a2bdd6ee0f959dMD51THUMBNAIL50151-300494-2-PB.pdf.jpg50151-300494-2-PB.pdf.jpgGenerated Thumbnailimage/jpeg5355https://repositorio.unal.edu.co/bitstream/unal/66510/2/50151-300494-2-PB.pdf.jpgc13c23d86db503de5e5df9af237c2b5dMD52unal/66510oai:repositorio.unal.edu.co:unal/665102024-05-16 23:09:35.934Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co