Identifying Sources of Human Trafficking Within Online Escort Advertisements Written in Spanish

El problema de la resolución de entidades de los anuncios de escort en línea ha sido bien estudiado utilizando marcos de extracción de información (IE) con expresiones regulares en inglés para identificar redes de trata de personas. Sin embargo, estas aproximaciones crean características ruidosas, n...

Full description

Autores:
Rodríguez Díaz, Paula
Tipo de recurso:
Fecha de publicación:
2021
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
eng
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/53353
Acceso en línea:
http://hdl.handle.net/1992/53353
Palabra clave:
Trata de personas
Servicios de compañía
Ingeniería
Rights
openAccess
License
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
id UNIANDES2_37c3a46c44746e6188a79c0e276c912b
oai_identifier_str oai:repositorio.uniandes.edu.co:1992/53353
network_acronym_str UNIANDES2
network_name_str Séneca: repositorio Uniandes
repository_id_str
spelling Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfinfo:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Montes Jiménez, Felipevirtual::15233-1Rodríguez Díaz, Paulaf7862dd3-9865-4fe6-b6c8-81bf8ae29053600Olaya Nieto, Camilo EnriqueMejía Londoño, Daniel2021-11-03T16:19:33Z2021-11-03T16:19:33Z2021http://hdl.handle.net/1992/5335324307.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/El problema de la resolución de entidades de los anuncios de escort en línea ha sido bien estudiado utilizando marcos de extracción de información (IE) con expresiones regulares en inglés para identificar redes de trata de personas. Sin embargo, estas aproximaciones crean características ruidosas, no se pueden usar directamente en anuncios de escorts escritos en otros idiomas y requieren de una alta capacidad computacional para realizar comparaciones por pares. Esta tesis propone un proceso de resolución de entidades basado en el aprendizaje por contraste y un modelo de agrupación que es capaz de identificar posibles redes de trata de personas extrayendo grupos de representaciones vectoriales de texto. El modelo propuesto se prueba en anuncios de escorts escritos en español y obtiene un AUC de 0,93 para el marco de aprendizaje por contraste, a partir del cual se puede identificar entidades posiblemente relacionadas con la trata de personas.The problem of Entity Resolution from online escort advertisements has been well studied using Information Extraction (IE) frameworks with English based regular expressions to isolate sources of human trafficking. However, these approximations create noisy features, they cannot be directly used on escort advertisements written in other languages, and require high computational capacity to perform pairwise comparisons. This thesis pro- poses an entity resolution pipeline based on a Contrastive Learning (CL) and clus- tering framework that is able to identify possible sources of human trafficking by extracting clusters from text embeddings. The proposed pipeline is tested on escort advertisements written in Spanish obtain- ing an AUC of 0.93 for the CL framework, from which we are able to identify entities with domain specific characteristics.Magíster en Ingeniería IndustrialMaestría12 páginasapplication/pdfengUniversidad de los AndesMaestría en Ingeniería IndustrialFacultad de IngenieríaDepartamento de Ingeniería IndustrialIdentifying Sources of Human Trafficking Within Online Escort Advertisements Written in SpanishTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesishttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TMTrata de personasServicios de compañíaIngeniería201327494Publication68bc76e3-56f4-4749-ad9c-44183b982dc1virtual::15233-168bc76e3-56f4-4749-ad9c-44183b982dc1virtual::15233-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0001422815virtual::15233-1TEXT24307.pdf.txt24307.pdf.txtExtracted texttext/plain35844https://repositorio.uniandes.edu.co/bitstreams/76e31bd3-4c1c-497a-9240-142471749149/download961c4361d41e6b101ae9477d7c25a1d5MD54THUMBNAIL24307.pdf.jpg24307.pdf.jpgIM Thumbnailimage/jpeg20888https://repositorio.uniandes.edu.co/bitstreams/be719938-4388-42a0-8692-d24f63648433/download43f72f72926d239a9b528f30291c06fcMD55ORIGINAL24307.pdfapplication/pdf494654https://repositorio.uniandes.edu.co/bitstreams/84ad163f-b8fd-4e59-bcf7-854af161f2b8/download2e693bc9ca73aa2bce846b0405f1f259MD511992/53353oai:repositorio.uniandes.edu.co:1992/533532024-03-13 15:24:23.145https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfopen.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co
dc.title.eng.fl_str_mv Identifying Sources of Human Trafficking Within Online Escort Advertisements Written in Spanish
title Identifying Sources of Human Trafficking Within Online Escort Advertisements Written in Spanish
spellingShingle Identifying Sources of Human Trafficking Within Online Escort Advertisements Written in Spanish
Trata de personas
Servicios de compañía
Ingeniería
title_short Identifying Sources of Human Trafficking Within Online Escort Advertisements Written in Spanish
title_full Identifying Sources of Human Trafficking Within Online Escort Advertisements Written in Spanish
title_fullStr Identifying Sources of Human Trafficking Within Online Escort Advertisements Written in Spanish
title_full_unstemmed Identifying Sources of Human Trafficking Within Online Escort Advertisements Written in Spanish
title_sort Identifying Sources of Human Trafficking Within Online Escort Advertisements Written in Spanish
dc.creator.fl_str_mv Rodríguez Díaz, Paula
dc.contributor.advisor.none.fl_str_mv Montes Jiménez, Felipe
dc.contributor.author.none.fl_str_mv Rodríguez Díaz, Paula
dc.contributor.jury.none.fl_str_mv Olaya Nieto, Camilo Enrique
Mejía Londoño, Daniel
dc.subject.armarc.none.fl_str_mv Trata de personas
Servicios de compañía
topic Trata de personas
Servicios de compañía
Ingeniería
dc.subject.themes.none.fl_str_mv Ingeniería
description El problema de la resolución de entidades de los anuncios de escort en línea ha sido bien estudiado utilizando marcos de extracción de información (IE) con expresiones regulares en inglés para identificar redes de trata de personas. Sin embargo, estas aproximaciones crean características ruidosas, no se pueden usar directamente en anuncios de escorts escritos en otros idiomas y requieren de una alta capacidad computacional para realizar comparaciones por pares. Esta tesis propone un proceso de resolución de entidades basado en el aprendizaje por contraste y un modelo de agrupación que es capaz de identificar posibles redes de trata de personas extrayendo grupos de representaciones vectoriales de texto. El modelo propuesto se prueba en anuncios de escorts escritos en español y obtiene un AUC de 0,93 para el marco de aprendizaje por contraste, a partir del cual se puede identificar entidades posiblemente relacionadas con la trata de personas.
publishDate 2021
dc.date.accessioned.none.fl_str_mv 2021-11-03T16:19:33Z
dc.date.available.none.fl_str_mv 2021-11-03T16:19:33Z
dc.date.issued.none.fl_str_mv 2021
dc.type.spa.fl_str_mv Trabajo de grado - Maestría
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/1992/53353
dc.identifier.pdf.none.fl_str_mv 24307.pdf
dc.identifier.instname.spa.fl_str_mv instname:Universidad de los Andes
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional Séneca
dc.identifier.repourl.spa.fl_str_mv repourl:https://repositorio.uniandes.edu.co/
url http://hdl.handle.net/1992/53353
identifier_str_mv 24307.pdf
instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
repourl:https://repositorio.uniandes.edu.co/
dc.language.iso.none.fl_str_mv eng
language eng
dc.rights.uri.*.fl_str_mv https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.none.fl_str_mv 12 páginas
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de los Andes
dc.publisher.program.none.fl_str_mv Maestría en Ingeniería Industrial
dc.publisher.faculty.none.fl_str_mv Facultad de Ingeniería
dc.publisher.department.none.fl_str_mv Departamento de Ingeniería Industrial
publisher.none.fl_str_mv Universidad de los Andes
institution Universidad de los Andes
bitstream.url.fl_str_mv https://repositorio.uniandes.edu.co/bitstreams/76e31bd3-4c1c-497a-9240-142471749149/download
https://repositorio.uniandes.edu.co/bitstreams/be719938-4388-42a0-8692-d24f63648433/download
https://repositorio.uniandes.edu.co/bitstreams/84ad163f-b8fd-4e59-bcf7-854af161f2b8/download
bitstream.checksum.fl_str_mv 961c4361d41e6b101ae9477d7c25a1d5
43f72f72926d239a9b528f30291c06fc
2e693bc9ca73aa2bce846b0405f1f259
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio institucional Séneca
repository.mail.fl_str_mv adminrepositorio@uniandes.edu.co
_version_ 1812134041510477824