Traducción automática y continua de lengua de señas utilizando representaciones intermedias basadas en glosas

La ausencia de una comunicación efectiva con la población sorda representa la principal brecha social en esta comunidad. Además, la lengua de señas, que constituye la principal herramienta de comunicación de los sordos, es ágrafa, es decir, no existe una representación escrita. En consecuencia, uno...

Full description

Autores:
Mendoza López, Fredy Alejandro
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2022
Institución:
Universidad Industrial de Santander
Repositorio:
Repositorio UIS
Idioma:
spa
OAI Identifier:
oai:noesis.uis.edu.co:20.500.14071/11324
Acceso en línea:
https://noesis.uis.edu.co/handle/20.500.14071/11324
https://noesis.uis.edu.co
Palabra clave:
Traducción continua de lengua de señas
Representación cinemática
Glosas
Análisis de video
Transformer
Representaciones de aprendizaje profundo
Continuous sign language translation
Kinematic representation
Glosses
Video analysis
Transformer
Deep learning representations
Rights
openAccess
License
Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
id UISANTADR2_26b5d49e3b248740da29876677cd7d8d
oai_identifier_str oai:noesis.uis.edu.co:20.500.14071/11324
network_acronym_str UISANTADR2
network_name_str Repositorio UIS
repository_id_str
dc.title.none.fl_str_mv Traducción automática y continua de lengua de señas utilizando representaciones intermedias basadas en glosas
dc.title.english.none.fl_str_mv Automatic and continuous sign language translation using an intermediate representation based on glosses
title Traducción automática y continua de lengua de señas utilizando representaciones intermedias basadas en glosas
spellingShingle Traducción automática y continua de lengua de señas utilizando representaciones intermedias basadas en glosas
Traducción continua de lengua de señas
Representación cinemática
Glosas
Análisis de video
Transformer
Representaciones de aprendizaje profundo
Continuous sign language translation
Kinematic representation
Glosses
Video analysis
Transformer
Deep learning representations
title_short Traducción automática y continua de lengua de señas utilizando representaciones intermedias basadas en glosas
title_full Traducción automática y continua de lengua de señas utilizando representaciones intermedias basadas en glosas
title_fullStr Traducción automática y continua de lengua de señas utilizando representaciones intermedias basadas en glosas
title_full_unstemmed Traducción automática y continua de lengua de señas utilizando representaciones intermedias basadas en glosas
title_sort Traducción automática y continua de lengua de señas utilizando representaciones intermedias basadas en glosas
dc.creator.fl_str_mv Mendoza López, Fredy Alejandro
dc.contributor.advisor.none.fl_str_mv Martínez Carrillo, Fabio
dc.contributor.author.none.fl_str_mv Mendoza López, Fredy Alejandro
dc.contributor.evaluator.none.fl_str_mv Camacho Velasco, Ariolfo
Guayacan Chaparro, Luis Carlos
dc.subject.none.fl_str_mv Traducción continua de lengua de señas
Representación cinemática
Glosas
Análisis de video
Transformer
Representaciones de aprendizaje profundo
topic Traducción continua de lengua de señas
Representación cinemática
Glosas
Análisis de video
Transformer
Representaciones de aprendizaje profundo
Continuous sign language translation
Kinematic representation
Glosses
Video analysis
Transformer
Deep learning representations
dc.subject.keyword.none.fl_str_mv Continuous sign language translation
Kinematic representation
Glosses
Video analysis
Transformer
Deep learning representations
description La ausencia de una comunicación efectiva con la población sorda representa la principal brecha social en esta comunidad. Además, la lengua de señas, que constituye la principal herramienta de comunicación de los sordos, es ágrafa, es decir, no existe una representación escrita. En consecuencia, uno de los principales retos actuales es la traducción automática entre la representación espaciotemporal de los signos y el lenguaje de texto natural. En el estado de arte, enfoques recientes se basan en arquitecturas codificador-decodificador, donde las estrategias más relevantes integran módulos de atención para mejorar las correspondencias no lineales, sin embargo, siguen estando limitadas por la información redundante de las secuencias de video. Además, muchas de estas aproximaciones requieren complejos esquemas de entrenamiento y arquitectura para lograr predicciones razonables, debido a la ausencia de proyecciones de texto intermedias. Las glosas son proyecciones escritas nativas de un símbolo semántico, expresado a partir de un conjunto de señas, que pueden ser clave como representación intermedia para lograr traducciones coherentes. Este trabajo introduce una arquitectura transformer multitarea que incluye una representación de aprendizaje de glosas para lograr una traducción más adecuada. El enfoque propuesto incluye una representación de movimiento densa que exalta los gestos e incluye información cinemática, un componente clave en la lengua de señas. A partir de esta representación es posible evitar información de fondo y explotar la geometría de las señas, además, incluye representaciones espaciotemporales que facilitan el alineamiento entre los gestos y las glosas como representación textual intermedia. El enfoque propuesto supera las estrategias evaluadas en el estado del arte en el conjunto de datos CoL-SLTD, logrando un BLEU-4 de 72,64% en la división 1 y un BLEU-4 de 14,64% en la división 2. Además, la estrategia fue validada en el conjunto de datos RWTH-PHOENIX-Weather 2014 T, logrando un notable BLEU-4 de 11,58%.
publishDate 2022
dc.date.accessioned.none.fl_str_mv 2022-09-11T13:57:41Z
dc.date.available.none.fl_str_mv 2022-09-11T13:57:41Z
dc.date.created.none.fl_str_mv 2022-09-07
dc.date.issued.none.fl_str_mv 2022-09-07
dc.type.local.none.fl_str_mv Tesis/Trabajo de grado - Monografía - Pregrado
dc.type.hasversion.none.fl_str_mv http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
format http://purl.org/coar/resource_type/c_7a1f
dc.identifier.uri.none.fl_str_mv https://noesis.uis.edu.co/handle/20.500.14071/11324
dc.identifier.instname.none.fl_str_mv Universidad Industrial de Santander
dc.identifier.reponame.none.fl_str_mv Universidad Industrial de Santander
dc.identifier.repourl.none.fl_str_mv https://noesis.uis.edu.co
url https://noesis.uis.edu.co/handle/20.500.14071/11324
https://noesis.uis.edu.co
identifier_str_mv Universidad Industrial de Santander
dc.language.iso.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.license.none.fl_str_mv Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
dc.rights.uri.none.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.coar.none.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.accessrights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.creativecommons.none.fl_str_mv Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
rights_invalid_str_mv Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
http://creativecommons.org/licenses/by-nc-nd/4.0/
http://purl.org/coar/access_right/c_abf2
Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
eu_rights_str_mv openAccess
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad Industrial de Santander
dc.publisher.faculty.none.fl_str_mv Facultad de Ingeníerias Fisicomecánicas
dc.publisher.program.none.fl_str_mv Ingeniería de Sistemas
dc.publisher.school.none.fl_str_mv Escuela de Ingeniería de Sistemas e Informática
publisher.none.fl_str_mv Universidad Industrial de Santander
institution Universidad Industrial de Santander
bitstream.url.fl_str_mv https://noesis.uis.edu.co/bitstreams/0f6ed9dc-3b37-4eb0-8f3b-15d434131315/download
https://noesis.uis.edu.co/bitstreams/aa87807e-59df-4407-99e7-23305c52affb/download
https://noesis.uis.edu.co/bitstreams/7cde1d45-a685-43d5-9c55-008a08b25ca3/download
https://noesis.uis.edu.co/bitstreams/74db5ba2-4059-46b5-98c1-ce9f2ddbe178/download
https://noesis.uis.edu.co/bitstreams/2a119358-8c3f-4f99-8fb1-960abf37cc93/download
https://noesis.uis.edu.co/bitstreams/bda072d5-be41-4b89-ad25-1b6d88a555d7/download
https://noesis.uis.edu.co/bitstreams/4c6b2206-7074-443a-b019-ee060bf60f14/download
https://noesis.uis.edu.co/bitstreams/43716c11-7dcc-4480-82c1-f4a0b9fa6c2c/download
https://noesis.uis.edu.co/bitstreams/f3f4c1ed-e0ed-4cc6-9535-c21cd23f6626/download
https://noesis.uis.edu.co/bitstreams/0a89bd6a-2b21-4126-90bd-0402d18bbc7a/download
bitstream.checksum.fl_str_mv 916b1d5ac9702a14d705fc439cbec980
6b2b6246e23fbc8d8e34f1df4f12d381
cf429394acba9fadaec1e122d61df7fc
d6298274a8378d319ac744759540b71b
9132c3f29f984ba8e265cb31b68c5e57
19100130ad0a2a20c836cd9fdbcdb13b
9fa9d8e63ec018f43221c76e37cdba41
8803adf57fb41eef9f70a43163ac0ac3
daf5d662ac832004e2779e559422dcda
7394dd391f7d698e665f3343188a7c9f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv DSpace at UIS
repository.mail.fl_str_mv noesis@uis.edu.co
_version_ 1814095178831495168
spelling Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/4.0/http://purl.org/coar/access_right/c_abf2info:eu-repo/semantics/openAccessAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)Martínez Carrillo, FabioMendoza López, Fredy AlejandroCamacho Velasco, AriolfoGuayacan Chaparro, Luis Carlos2022-09-11T13:57:41Z2022-09-11T13:57:41Z2022-09-072022-09-07https://noesis.uis.edu.co/handle/20.500.14071/11324Universidad Industrial de SantanderUniversidad Industrial de Santanderhttps://noesis.uis.edu.coLa ausencia de una comunicación efectiva con la población sorda representa la principal brecha social en esta comunidad. Además, la lengua de señas, que constituye la principal herramienta de comunicación de los sordos, es ágrafa, es decir, no existe una representación escrita. En consecuencia, uno de los principales retos actuales es la traducción automática entre la representación espaciotemporal de los signos y el lenguaje de texto natural. En el estado de arte, enfoques recientes se basan en arquitecturas codificador-decodificador, donde las estrategias más relevantes integran módulos de atención para mejorar las correspondencias no lineales, sin embargo, siguen estando limitadas por la información redundante de las secuencias de video. Además, muchas de estas aproximaciones requieren complejos esquemas de entrenamiento y arquitectura para lograr predicciones razonables, debido a la ausencia de proyecciones de texto intermedias. Las glosas son proyecciones escritas nativas de un símbolo semántico, expresado a partir de un conjunto de señas, que pueden ser clave como representación intermedia para lograr traducciones coherentes. Este trabajo introduce una arquitectura transformer multitarea que incluye una representación de aprendizaje de glosas para lograr una traducción más adecuada. El enfoque propuesto incluye una representación de movimiento densa que exalta los gestos e incluye información cinemática, un componente clave en la lengua de señas. A partir de esta representación es posible evitar información de fondo y explotar la geometría de las señas, además, incluye representaciones espaciotemporales que facilitan el alineamiento entre los gestos y las glosas como representación textual intermedia. El enfoque propuesto supera las estrategias evaluadas en el estado del arte en el conjunto de datos CoL-SLTD, logrando un BLEU-4 de 72,64% en la división 1 y un BLEU-4 de 14,64% en la división 2. Además, la estrategia fue validada en el conjunto de datos RWTH-PHOENIX-Weather 2014 T, logrando un notable BLEU-4 de 11,58%.PregradoIngeniero de SistemasThe absence of an effective communication with deaf population represents the main social gap with this community. Furthermore, the sign language, the main deaf communication tool, is unlettered, i.e., there is not a written representation. In consequence, a main challenge today is the automatic translation among spatiotemporal sign representation and natural text language. In the state-of-the-art, recent approaches are based on encoder-decoder architectures, where the most relevant strategies integrate attention modules to enhance non-linear correspondences, however, they are still limited by the redundant background information of the video-sequences. Besides, much of these approximations requires complex training and architectural schemes to achieve reasonable predictions, because the absence intermediate text projections. The glosses are native written projections of a semantic symbol, expressed from a set of signs, that might be key as intermediate representation to achieve coherent translations. This work introduces a multitask transformer architecture that includes a gloss learning representation to achieve a more suitable translation. The proposed approach includes a dense motion representation that enhance gestures and includes kinematic information, a key component in sign language. From this representation it is possible to avoid a background information and exploit the geometry of the signs, in adittion, it includes spatiotemporal representations that facilitate the alignment between gestures and glosses as an intermediate textual representation. The proposed approach outperforms the state-of-the-art evaluated on the CoL-SLTD dataset, achieving a BLEU-4 of$72,64% in split 1, and a BLEU-4 of 14,64% in split 2. Furthermore, the strategy was validated on the RWTH-PHOENIX-Weather 2014 T dataset, achieving a remarkable BLEU-4 of 11,58%.application/pdfspaUniversidad Industrial de SantanderFacultad de Ingeníerias FisicomecánicasIngeniería de SistemasEscuela de Ingeniería de Sistemas e InformáticaTraducción continua de lengua de señasRepresentación cinemáticaGlosasAnálisis de videoTransformerRepresentaciones de aprendizaje profundoContinuous sign language translationKinematic representationGlossesVideo analysisTransformerDeep learning representationsTraducción automática y continua de lengua de señas utilizando representaciones intermedias basadas en glosasAutomatic and continuous sign language translation using an intermediate representation based on glossesTesis/Trabajo de grado - Monografía - Pregradohttp://purl.org/coar/version/c_b1a7d7d4d402bccehttp://purl.org/coar/resource_type/c_7a1fORIGINALDocumento.pdfDocumento.pdfapplication/pdf6345386https://noesis.uis.edu.co/bitstreams/0f6ed9dc-3b37-4eb0-8f3b-15d434131315/download916b1d5ac9702a14d705fc439cbec980MD51Carta de autorización.pdfCarta de autorización.pdfapplication/pdf128886https://noesis.uis.edu.co/bitstreams/aa87807e-59df-4407-99e7-23305c52affb/download6b2b6246e23fbc8d8e34f1df4f12d381MD52Nota de proyecto.pdfNota de proyecto.pdfapplication/pdf152532https://noesis.uis.edu.co/bitstreams/7cde1d45-a685-43d5-9c55-008a08b25ca3/downloadcf429394acba9fadaec1e122d61df7fcMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-82237https://noesis.uis.edu.co/bitstreams/74db5ba2-4059-46b5-98c1-ce9f2ddbe178/downloadd6298274a8378d319ac744759540b71bMD54TEXTDocumento.pdf.txtDocumento.pdf.txtExtracted texttext/plain111749https://noesis.uis.edu.co/bitstreams/2a119358-8c3f-4f99-8fb1-960abf37cc93/download9132c3f29f984ba8e265cb31b68c5e57MD55Carta de autorización.pdf.txtCarta de autorización.pdf.txtExtracted texttext/plain3388https://noesis.uis.edu.co/bitstreams/bda072d5-be41-4b89-ad25-1b6d88a555d7/download19100130ad0a2a20c836cd9fdbcdb13bMD57Nota de proyecto.pdf.txtNota de proyecto.pdf.txtExtracted texttext/plain1258https://noesis.uis.edu.co/bitstreams/4c6b2206-7074-443a-b019-ee060bf60f14/download9fa9d8e63ec018f43221c76e37cdba41MD59THUMBNAILDocumento.pdf.jpgDocumento.pdf.jpgGenerated Thumbnailimage/jpeg2738https://noesis.uis.edu.co/bitstreams/43716c11-7dcc-4480-82c1-f4a0b9fa6c2c/download8803adf57fb41eef9f70a43163ac0ac3MD56Carta de autorización.pdf.jpgCarta de autorización.pdf.jpgGenerated Thumbnailimage/jpeg5741https://noesis.uis.edu.co/bitstreams/f3f4c1ed-e0ed-4cc6-9535-c21cd23f6626/downloaddaf5d662ac832004e2779e559422dcdaMD58Nota de proyecto.pdf.jpgNota de proyecto.pdf.jpgGenerated Thumbnailimage/jpeg4735https://noesis.uis.edu.co/bitstreams/0a89bd6a-2b21-4126-90bd-0402d18bbc7a/download7394dd391f7d698e665f3343188a7c9fMD51020.500.14071/11324oai:noesis.uis.edu.co:20.500.14071/113242022-10-05 20:36:50.829http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessopen.accesshttps://noesis.uis.edu.coDSpace at UISnoesis@uis.edu.coRWwgc3VzY3JpdG8gQVVUT1Ig4oCTIEVTVFVESUFOVEUsIGlkZW50aWZpY2FkbyBjb21vIGFwYXJlY2UgYWwgcGllIGRlIG1pIGZpcm1hLCBhY3R1YW5kbyBlbiBub21icmUgcHJvcGlvLCB5IGVuIG1pIGNhbGlkYWQgZGUgYXV0b3IgZGVsIHRyYWJham8gZGUgZ3JhZG8sIGRlbCB0cmFiYWpvIGRlIGludmVzdGlnYWNpw7NuLCBvIGRlIGxhIHRlc2lzIGRlbm9taW5hZGEgY29tbyBzZSBlc3BlY2lmaWNhIGVuIGVsIGNhbXBvIOKAmFTDrXR1bG/igJksIHBvciBtZWRpbyBkZWwgcHJlc2VudGUgZG9jdW1lbnRvIGF1dG9yaXpvIGEgbGEgVU5JVkVSU0lEQUQgSU5EVVNUUklBTCBERSBTQU5UQU5ERVIsIHBhcmEgcXVlIGVuIGxvcyB0w6lybWlub3MgZXN0YWJsZWNpZG9zIGVuIGxhIExleSAyMyBkZSAxOTgyLCBsYSBMZXkgNDQgZGUgMTk5MywgZWwgRGVjcmV0byA0NjAgZGUgMTk5NSwgbGEgRGVjaXNpw7NuIEFuZGluYSAzNTEgZGUgMTk5MywgeSBkZW3DoXMgbm9ybWFzIGdlbmVyYWxlcyBzb2JyZSBkZXJlY2hvcyBkZSBhdXRvciwgcmVhbGljZSBsYSByZXByb2R1Y2Npw7NuLCBjb211bmljYWNpw7NuIHDDumJsaWNhLCBlZGljacOzbiwgZGlzdHJpYnVjacOzbiBiYWpvIGxhIG1vZGFsaWRhZCBkZSBhbHF1aWxlciwgcHLDqXN0YW1vIHDDumJsaWNvIG8gaW1wb3J0YWNpw7NuIGVuIGZvcm1hdG8gaW1wcmVzbyB5IGRpZ2l0YWwsIGxhIHRyYW5zZm9ybWFjacOzbiwgbGEgcHVibGljYWNpw7NuIGNvbW8gb2JyYSBsaXRlcmFyaWEsIGxpYnJvIGVsZWN0csOzbmljbyAoZS1Cb29rKSBvIHJldmlzdGEgZWxlY3Ryw7NuaWNhLCBpbmNsdXllbmRvIGxhIHBvc2liaWxpZGFkIGRlIGRpc3RyaWJ1aXJsYSBwb3IgbWVkaW9zIHRyYWRpY2lvbmFsZXMgbyBwb3IgSW50ZXJuZXQgYSBjdWFscXVpZXIgdMOtdHVsbyAgcG9yIGxhIFVuaXZlcnNpZGFkIHkgY29uIHF1aWVuIHRlbmdhIGNvbnZlbmlvIHBhcmEgZWxsbywgaW5jbHV5ZW5kbyBsYSBwb3NpYmlsaWRhZCBkZSBoYWNlciBhZGFwdGFjaW9uZXMsIGFjdHVhbGl6YWNpb25lcyB5IHRyYWR1Y2Npb25lcyBlbiB0b2RvcyBsb3MgaWRpb21hczsgbGEgaW5jb3Jwb3JhY2nDs24gYSB1bmEgY29sZWNjacOzbiBvIGNvbXBpbGFjacOzbiwgbGEgdHJhZHVjY2nDs24sIGZpamFjacOzbiBlbiBmb25vZ3JhbWEsIHB1ZXN0YSBhIGRpc3Bvc2ljacOzbiBlbiBmb3JtYXRvIGFuw6Fsb2dvLCBkaWdpdGFsLCBhdWRpb3Zpc3VhbCwgbWFnbsOpdGljbywgeSwgZW4gZ2VuZXJhbCwgbG9zIGZvcm1hdG9zIGVuICBxdWUgc2UgcHVlZGEgcmVwcm9kdWNpciB5IGNvbXVuaWNhciAgZGUgbWFuZXJhIHRvdGFsIHkgcGFyY2lhbCBtaSB0cmFiYWpvIGRlIGdyYWRvIG8gdGVzaXMuIAoKTGEgcHJlc2VudGUgYXV0b3JpemFjacOzbiBzZSBoYWNlIGV4dGVuc2l2YSBhIGxhcyBmYWN1bHRhZGVzIHkgZGVyZWNob3MgZGUgdXNvIHNvYnJlIGxhIG9icmEgZW4gZm9ybWF0byBvIHNvcG9ydGUgYW7DoWxvZ28sIGZvcm1hdG8gdmlydHVhbCwgZWxlY3Ryw7NuaWNvLCBkaWdpdGFsLCDDs3B0aWNvLCB1c28gZW4gcmVkLCBJbnRlcm5ldCwgZXh0cmFuZXQsIGludHJhbmV0LCBlbnRyZSBvdHJvcyBmb3JtYXRvcyB5IG1lZGlvcy4KCkVsIEFVVE9SIOKAkyBFU1RVRElBTlRFLCBtYW5pZmllc3RhIHF1ZSBsYSBvYnJhIG9iamV0byBkZSBsYSBwcmVzZW50ZSBhdXRvcml6YWNpw7NuIGVzIG9yaWdpbmFsIHkgbGEgcmVhbGl6w7Mgc2luIHZpb2xhciBvIHVzdXJwYXIgZGVyZWNob3MgZGUgYXV0b3IgZGUgdGVyY2Vyb3MsIHBvciBsbyB0YW50bywgbGEgb2JyYSBlcyBkZSBzdSBleGNsdXNpdmEgYXV0b3LDrWEgeSBkZXRlbnRhIGxhIHRpdHVsYXJpZGFkIHNvYnJlIGxhIG1pc21hLiAgCgpQYXJhIHRvZG9zIGxvcyBlZmVjdG9zIGxhIFVOSVZFUlNJREFEIElORFVTVFJJQUwgREUgU0FOVEFOREVSIGFjdMO6YSBjb21vIHVuIHRlcmNlcm8gZGUgYnVlbmEgZmU7IGVuIGNvbnNlY3VlbmNpYSwgZW4gY2FzbyBkZSBwcmVzZW50YXJzZSBjdWFscXVpZXIgcmVjbGFtYWNpw7NuIG8gYWNjacOzbiBwb3IgcGFydGUgZGUgdW4gdGVyY2VybyBlbiBjdWFudG8gYSBsb3MgZGVyZWNob3MgZGUgYXV0b3Igc29icmUgbGEgb2JyYSBlbiBjdWVzdGnDs24sIEVsIEFVVE9SIOKAkyBFU1RVRElBTlRFLCBhc3VtaXLDoSB0b2RhIGxhIHJlc3BvbnNhYmlsaWRhZCwgeSBzYWxkcsOhIGVuIGRlZmVuc2EgZGUgbG9zIGRlcmVjaG9zIGFxdcOtIGF1dG9yaXphZG9zLgo=