Aplicación del procesamiento de lenguaje natural para verificación de identidad

RESUMEN : Las empresas utilizan la verificación de identidad para garantizar que los usuarios y los clientes proporcionen información asociada con la identidad de una persona real. En un ámbito académico, de igual forma, es relevante controlar que la información que los estudiantes dan es verídica y...

Full description

Autores:
López Pabón, Felipe Orlando
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2019
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/14049
Acceso en línea:
http://hdl.handle.net/10495/14049
Palabra clave:
Algoritmo
Biometría
Identidad
Lenguaje hablado
Estudiantes
Información
Metodología
Procesamiento
Lenguaje natural
Verificación
Rights
openAccess
License
Atribución-NoComercial-SinDerivadas 2.5 Colombia
id UDEA2_0248c8ca954eacf896b56985873da18b
oai_identifier_str oai:bibliotecadigital.udea.edu.co:10495/14049
network_acronym_str UDEA2
network_name_str Repositorio UdeA
repository_id_str
dc.title.spa.fl_str_mv Aplicación del procesamiento de lenguaje natural para verificación de identidad
title Aplicación del procesamiento de lenguaje natural para verificación de identidad
spellingShingle Aplicación del procesamiento de lenguaje natural para verificación de identidad
Algoritmo
Biometría
Identidad
Lenguaje hablado
Estudiantes
Información
Metodología
Procesamiento
Lenguaje natural
Verificación
title_short Aplicación del procesamiento de lenguaje natural para verificación de identidad
title_full Aplicación del procesamiento de lenguaje natural para verificación de identidad
title_fullStr Aplicación del procesamiento de lenguaje natural para verificación de identidad
title_full_unstemmed Aplicación del procesamiento de lenguaje natural para verificación de identidad
title_sort Aplicación del procesamiento de lenguaje natural para verificación de identidad
dc.creator.fl_str_mv López Pabón, Felipe Orlando
dc.contributor.advisor.none.fl_str_mv Orozco Arroyave, Juan Rafael
Vásquez Correa, Juan Camilo
dc.contributor.author.none.fl_str_mv López Pabón, Felipe Orlando
dc.subject.unesco.none.fl_str_mv Algoritmo
Biometría
Identidad
Lenguaje hablado
topic Algoritmo
Biometría
Identidad
Lenguaje hablado
Estudiantes
Información
Metodología
Procesamiento
Lenguaje natural
Verificación
dc.subject.ocde.none.fl_str_mv Estudiantes
Información
Metodología
Procesamiento
dc.subject.proposal.spa.fl_str_mv Lenguaje natural
Verificación
description RESUMEN : Las empresas utilizan la verificación de identidad para garantizar que los usuarios y los clientes proporcionen información asociada con la identidad de una persona real. En un ámbito académico, de igual forma, es relevante controlar que la información que los estudiantes dan es verídica y que los procesos que se realizan en las instituciones (tales como trabajos, exámenes, exposiciones, entre otras) sean realizados por aquellas personas que realmente están matriculadas, esto con el fin de controlar el fraude. La verificación de identidad mitiga el riesgo de fraude mediante diferentes estrategias, entre las cuales, las más exitosas son las basadas en biometría. En Colombia, según datos recientes publicados por el ministerio de Educación Nacional, la educación virtual muestra una tasa de crecimiento de 98,9% en el número de matrículas de educación superior, lo cual indica que, en varias instituciones, como por ejemplo, en la Universidad de Antioquia, hay gran cantidad de estudiantes en la modalidad virtual. A pesar de todos los grandes beneficios de la modalidad virtual de educación, esta trae consigo diversos problemas, entre ellos, suplantación de identidad y fraude en actividades evaluativas. Para resolver estos problemas, en este trabajo se propone desarrollar, mediante el procesamiento de lenguaje natural y algoritmos de aprendizaje automático, una metodología que permita verificar a que grupo de estilo lingüístico de escritura (existirán 3 grupos) pertenecen más de 100 usuarios pertenecientes a la comunidad universitaria, los cuales se registraron en una plataforma virtual y realizaron dos tareas que consisten en argumentar una solución a problemas que está sufriendo el país actualmente y dar una opinión sobre un tema social. Los resultados muestran, a pesar de la poca cantidad de datos y la calidad de los textos, que es posible encontrar diferencias entre estilos de escritura de los usuarios de acuerdo con su nivel escolar, obteniendo resultados de eficiencia en clasificación biclase (niveles inferiores vs niveles superiores) de hasta 75% y ciencia en la clasificación triclase (niveles inferiores vs niveles intermedios vs niveles superiores) de hasta 53.3 %. Otro resultado obtenido muestra que, mediante modelos de mezclas Gaussianas, se logra identificar, de una manera muy certera, los usuarios pertenecientes al grupo de usuarios de niveles de escolaridad intermedios y superiores, y diferenciarlos de usuarios con niveles bajos de escolaridad.
publishDate 2019
dc.date.issued.none.fl_str_mv 2019
dc.date.accessioned.none.fl_str_mv 2020-04-27T17:46:17Z
dc.date.available.none.fl_str_mv 2020-04-27T17:46:17Z
dc.type.spa.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.hasversion.spa.fl_str_mv info:eu-repo/semantics/draft
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.redcol.spa.fl_str_mv https://purl.org/redcol/resource_type/TP
dc.type.local.spa.fl_str_mv Tesis/Trabajo de grado - Monografía - Pregrado
format http://purl.org/coar/resource_type/c_7a1f
status_str draft
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/10495/14049
url http://hdl.handle.net/10495/14049
dc.language.iso.spa.fl_str_mv spa
language spa
dc.rights.*.fl_str_mv Atribución-NoComercial-SinDerivadas 2.5 Colombia
dc.rights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/co/
dc.rights.accessrights.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.creativecommons.spa.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
rights_invalid_str_mv Atribución-NoComercial-SinDerivadas 2.5 Colombia
http://creativecommons.org/licenses/by-nc-nd/2.5/co/
http://purl.org/coar/access_right/c_abf2
https://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.extent.spa.fl_str_mv 58
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.group.spa.fl_str_mv Grupo de Investigación en Telecomunicaciones Aplicadas (GITA)
dc.publisher.place.spa.fl_str_mv Medellín, Colombia
institution Universidad de Antioquia
bitstream.url.fl_str_mv http://bibliotecadigital.udea.edu.co/bitstream/10495/14049/1/FelipeLopez_2019_ProcesamientoLenguajeNatural.pdf
http://bibliotecadigital.udea.edu.co/bitstream/10495/14049/2/license_rdf
http://bibliotecadigital.udea.edu.co/bitstream/10495/14049/3/license.txt
bitstream.checksum.fl_str_mv 64e8f93ba87dce9ab1bc32a313ba91f1
b88b088d9957e670ce3b3fbe2eedbc13
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad de Antioquia
repository.mail.fl_str_mv andres.perez@udea.edu.co
_version_ 1812173132455215104
spelling Orozco Arroyave, Juan RafaelVásquez Correa, Juan CamiloLópez Pabón, Felipe Orlando2020-04-27T17:46:17Z2020-04-27T17:46:17Z2019http://hdl.handle.net/10495/14049RESUMEN : Las empresas utilizan la verificación de identidad para garantizar que los usuarios y los clientes proporcionen información asociada con la identidad de una persona real. En un ámbito académico, de igual forma, es relevante controlar que la información que los estudiantes dan es verídica y que los procesos que se realizan en las instituciones (tales como trabajos, exámenes, exposiciones, entre otras) sean realizados por aquellas personas que realmente están matriculadas, esto con el fin de controlar el fraude. La verificación de identidad mitiga el riesgo de fraude mediante diferentes estrategias, entre las cuales, las más exitosas son las basadas en biometría. En Colombia, según datos recientes publicados por el ministerio de Educación Nacional, la educación virtual muestra una tasa de crecimiento de 98,9% en el número de matrículas de educación superior, lo cual indica que, en varias instituciones, como por ejemplo, en la Universidad de Antioquia, hay gran cantidad de estudiantes en la modalidad virtual. A pesar de todos los grandes beneficios de la modalidad virtual de educación, esta trae consigo diversos problemas, entre ellos, suplantación de identidad y fraude en actividades evaluativas. Para resolver estos problemas, en este trabajo se propone desarrollar, mediante el procesamiento de lenguaje natural y algoritmos de aprendizaje automático, una metodología que permita verificar a que grupo de estilo lingüístico de escritura (existirán 3 grupos) pertenecen más de 100 usuarios pertenecientes a la comunidad universitaria, los cuales se registraron en una plataforma virtual y realizaron dos tareas que consisten en argumentar una solución a problemas que está sufriendo el país actualmente y dar una opinión sobre un tema social. Los resultados muestran, a pesar de la poca cantidad de datos y la calidad de los textos, que es posible encontrar diferencias entre estilos de escritura de los usuarios de acuerdo con su nivel escolar, obteniendo resultados de eficiencia en clasificación biclase (niveles inferiores vs niveles superiores) de hasta 75% y ciencia en la clasificación triclase (niveles inferiores vs niveles intermedios vs niveles superiores) de hasta 53.3 %. Otro resultado obtenido muestra que, mediante modelos de mezclas Gaussianas, se logra identificar, de una manera muy certera, los usuarios pertenecientes al grupo de usuarios de niveles de escolaridad intermedios y superiores, y diferenciarlos de usuarios con niveles bajos de escolaridad.58application/pdfspainfo:eu-repo/semantics/draftinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fhttps://purl.org/redcol/resource_type/TPTesis/Trabajo de grado - Monografía - Pregradohttp://purl.org/coar/version/c_b1a7d7d4d402bcceAtribución-NoComercial-SinDerivadas 2.5 Colombiainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/co/http://purl.org/coar/access_right/c_abf2https://creativecommons.org/licenses/by-nc-nd/4.0/Aplicación del procesamiento de lenguaje natural para verificación de identidadGrupo de Investigación en Telecomunicaciones Aplicadas (GITA)Medellín, ColombiaAlgoritmoBiometríaIdentidadLenguaje habladoEstudiantesInformaciónMetodologíaProcesamientoLenguaje naturalVerificaciónIngeniero ElectrónicoPregradoFacultad de Ingeniería. Carrera de Ingeniería ElectrónicaUniversidad de AntioquiaORIGINALFelipeLopez_2019_ProcesamientoLenguajeNatural.pdfFelipeLopez_2019_ProcesamientoLenguajeNatural.pdfTrabajo de grado de pregradoapplication/pdf2150694http://bibliotecadigital.udea.edu.co/bitstream/10495/14049/1/FelipeLopez_2019_ProcesamientoLenguajeNatural.pdf64e8f93ba87dce9ab1bc32a313ba91f1MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8823http://bibliotecadigital.udea.edu.co/bitstream/10495/14049/2/license_rdfb88b088d9957e670ce3b3fbe2eedbc13MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://bibliotecadigital.udea.edu.co/bitstream/10495/14049/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD5310495/14049oai:bibliotecadigital.udea.edu.co:10495/140492021-06-19 19:19:55.164Repositorio Institucional Universidad de Antioquiaandres.perez@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=