Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia

La Lingüística de Corpus es una metodología empírica ya que, a partir de grandes colecciones de textos -corpus o corpora- intenta describir las regularidades de las lenguas por medio de la implementación de programas computacionales, y así, simular los usos reales de ellas. Este trabajo aplica la Li...

Full description

Autores:
Tipo de recurso:
Fecha de publicación:
2013
Institución:
Universidad Pedagógica y Tecnológica de Colombia
Repositorio:
RiUPTC: Repositorio Institucional UPTC
Idioma:
spa
OAI Identifier:
oai:repositorio.uptc.edu.co:001/10823
Acceso en línea:
https://revistas.uptc.edu.co/index.php/linguistica_hispanica/article/view/462
https://repositorio.uptc.edu.co/handle/001/10823
Palabra clave:
Lingüística de corpus
AntConc
TreeTagger
Ley de Zipf
Rights
openAccess
License
http://purl.org/coar/access_right/c_abf2
id REPOUPTC2_791b43e68b419039bec49d3d0441468f
oai_identifier_str oai:repositorio.uptc.edu.co:001/10823
network_acronym_str REPOUPTC2
network_name_str RiUPTC: Repositorio Institucional UPTC
repository_id_str
spelling 2013-03-122024-07-05T18:18:07Z2024-07-05T18:18:07Zhttps://revistas.uptc.edu.co/index.php/linguistica_hispanica/article/view/462https://repositorio.uptc.edu.co/handle/001/10823La Lingüística de Corpus es una metodología empírica ya que, a partir de grandes colecciones de textos -corpus o corpora- intenta describir las regularidades de las lenguas por medio de la implementación de programas computacionales, y así, simular los usos reales de ellas. Este trabajo aplica la Lingüística de Corpus a un conjunto de historias médicas electrónicas escritas en español nunca analizado lingüísticamente. De estas historias se desconoce la forma en que están escritas por parte de los médicos y las clases de palabras que utilizan cuando describen un suceso en una subdisciplina médica. El conjunto de datos está formado por 19 subdisciplinas médicas, las cuales contienen sus propias historias. Cada historia fue anotada en tres formas diferentes, lematización, tokenización y categoría gramatical (part-of-speech) por medio de TreeTagger. Posteriormente, las frecuencias de las anotaciones se describieron mediante AntConc. Los resultados encontrados para cada subdisciplina muestran las palabras con mayor frecuencia. Las palabras de clase cerrada son las más comunes y utilizadas. Algunas partes de las historias médicas fueron anotadas erróneamente. Por otra parte, se muestran ejemplos que dan a conocer la variabilidad de uso entre expresiones y abreviaturas por parte del personal médico. Además, la escritura médica de la Universidad Nacional de Colombia corrobora la Ley de Zipf.application/pdfspaspaUniversidad Pedagógica y Tecnológica de Colombiahttps://revistas.uptc.edu.co/index.php/linguistica_hispanica/article/view/462/462Cuadernos de Lingüística Hispánica; No. 20: (julio-diciembre de 2012); 83-98Cuadernos de Lingüística Hispánica; Núm. 20: (julio-diciembre de 2012); 83-982346-18290121-053XLingüística de corpusAntConcTreeTaggerLey de ZipfAnotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombiainfo:eu-repo/semantics/articlehttp://purl.org/coar/version/c_970fb48d4fbd8a85http://purl.org/coar/resource_type/c_2df8fbb1info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Dueñas Luna, George EnriqueGonzález, Fabio A.001/10823oai:repositorio.uptc.edu.co:001/108232025-07-18 11:05:19.616metadata.onlyhttps://repositorio.uptc.edu.coRepositorio Institucional UPTCrepositorio.uptc@uptc.edu.co
dc.title.es-ES.fl_str_mv Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia
title Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia
spellingShingle Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia
Lingüística de corpus
AntConc
TreeTagger
Ley de Zipf
title_short Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia
title_full Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia
title_fullStr Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia
title_full_unstemmed Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia
title_sort Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia
dc.subject.es-ES.fl_str_mv Lingüística de corpus
AntConc
TreeTagger
Ley de Zipf
topic Lingüística de corpus
AntConc
TreeTagger
Ley de Zipf
description La Lingüística de Corpus es una metodología empírica ya que, a partir de grandes colecciones de textos -corpus o corpora- intenta describir las regularidades de las lenguas por medio de la implementación de programas computacionales, y así, simular los usos reales de ellas. Este trabajo aplica la Lingüística de Corpus a un conjunto de historias médicas electrónicas escritas en español nunca analizado lingüísticamente. De estas historias se desconoce la forma en que están escritas por parte de los médicos y las clases de palabras que utilizan cuando describen un suceso en una subdisciplina médica. El conjunto de datos está formado por 19 subdisciplinas médicas, las cuales contienen sus propias historias. Cada historia fue anotada en tres formas diferentes, lematización, tokenización y categoría gramatical (part-of-speech) por medio de TreeTagger. Posteriormente, las frecuencias de las anotaciones se describieron mediante AntConc. Los resultados encontrados para cada subdisciplina muestran las palabras con mayor frecuencia. Las palabras de clase cerrada son las más comunes y utilizadas. Algunas partes de las historias médicas fueron anotadas erróneamente. Por otra parte, se muestran ejemplos que dan a conocer la variabilidad de uso entre expresiones y abreviaturas por parte del personal médico. Además, la escritura médica de la Universidad Nacional de Colombia corrobora la Ley de Zipf.
publishDate 2013
dc.date.accessioned.none.fl_str_mv 2024-07-05T18:18:07Z
dc.date.available.none.fl_str_mv 2024-07-05T18:18:07Z
dc.date.none.fl_str_mv 2013-03-12
dc.type.none.fl_str_mv info:eu-repo/semantics/article
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.coar.fl_str_mv http://purl.org/coar/resource_type/c_2df8fbb1
dc.identifier.none.fl_str_mv https://revistas.uptc.edu.co/index.php/linguistica_hispanica/article/view/462
dc.identifier.uri.none.fl_str_mv https://repositorio.uptc.edu.co/handle/001/10823
url https://revistas.uptc.edu.co/index.php/linguistica_hispanica/article/view/462
https://repositorio.uptc.edu.co/handle/001/10823
dc.language.none.fl_str_mv spa
dc.language.iso.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv https://revistas.uptc.edu.co/index.php/linguistica_hispanica/article/view/462/462
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
rights_invalid_str_mv http://purl.org/coar/access_right/c_abf2
dc.format.none.fl_str_mv application/pdf
dc.publisher.en-US.fl_str_mv Universidad Pedagógica y Tecnológica de Colombia
dc.source.en-US.fl_str_mv Cuadernos de Lingüística Hispánica; No. 20: (julio-diciembre de 2012); 83-98
dc.source.es-ES.fl_str_mv Cuadernos de Lingüística Hispánica; Núm. 20: (julio-diciembre de 2012); 83-98
dc.source.none.fl_str_mv 2346-1829
0121-053X
institution Universidad Pedagógica y Tecnológica de Colombia
repository.name.fl_str_mv Repositorio Institucional UPTC
repository.mail.fl_str_mv repositorio.uptc@uptc.edu.co
_version_ 1839633815297851392