Rogue one : a legitimacy story

The increasing changes in the interaction and activities available in the internet, continuously introduce privacy concerns regarding online presence. The way companies deal with these concerns is by including privacy policies in their websites. Nonetheless, these policies have some problems. The vo...

Full description

Autores:
Chacón Buitrago, Valentina
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2020
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
eng
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/51468
Acceso en línea:
http://hdl.handle.net/1992/51468
Palabra clave:
Páginas Web
Privacidad de los datos
Seguridad en computadores
Ingeniería
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-nd/4.0/
id UNIANDES2_737df241c3479ebba79f8ad93346c914
oai_identifier_str oai:repositorio.uniandes.edu.co:1992/51468
network_acronym_str UNIANDES2
network_name_str Séneca: repositorio Uniandes
repository_id_str
dc.title.spa.fl_str_mv Rogue one : a legitimacy story
title Rogue one : a legitimacy story
spellingShingle Rogue one : a legitimacy story
Páginas Web
Privacidad de los datos
Seguridad en computadores
Ingeniería
title_short Rogue one : a legitimacy story
title_full Rogue one : a legitimacy story
title_fullStr Rogue one : a legitimacy story
title_full_unstemmed Rogue one : a legitimacy story
title_sort Rogue one : a legitimacy story
dc.creator.fl_str_mv Chacón Buitrago, Valentina
dc.contributor.advisor.none.fl_str_mv Cardozo Álvarez, Nicolás
dc.contributor.author.none.fl_str_mv Chacón Buitrago, Valentina
dc.subject.armarc.spa.fl_str_mv Páginas Web
Privacidad de los datos
Seguridad en computadores
topic Páginas Web
Privacidad de los datos
Seguridad en computadores
Ingeniería
dc.subject.themes.none.fl_str_mv Ingeniería
description The increasing changes in the interaction and activities available in the internet, continuously introduce privacy concerns regarding online presence. The way companies deal with these concerns is by including privacy policies in their websites. Nonetheless, these policies have some problems. The vocabulary used in the documents is not clear for all users, legal terms are difficult to understand and can be up to 8 pages long meaning that these policies are not accessible and therefore fail to inform users effectively. Studies show that it would take an average person about 200 hours a year to actually read the policy for every unique website visited in a year, not to mention the updated version of policies for sites visited on a repeated basis. Accessing web pages while ignoring privacy policies exposes users to risks regarding the handling of their personal information and the legitimacy of the services offered by web sites. To prevent users from disclosing their private information indiscriminately and reduce the time and effort involved in reading a privacy policy this project develops a model that discloses whether a website is legit or rogue based on the contents of its privacy policy with a 93.2% accuracy. This task falls at the crossroads of Information Retrieval, Natural Language Processing and Supervised Machine Learning algorithms. The project takes a top down approach as the experiments are designed to reduce the number of viable classifiers and configurations at each step, therefore reducing the search space for the setup with highest classification accuracy. There are two stages of experimentation with three experiments in total in which we identify the configuration that provides the best classification accuracy.
publishDate 2020
dc.date.issued.none.fl_str_mv 2020
dc.date.accessioned.none.fl_str_mv 2021-08-10T18:26:30Z
dc.date.available.none.fl_str_mv 2021-08-10T18:26:30Z
dc.type.spa.fl_str_mv Trabajo de grado - Pregrado
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TP
format http://purl.org/coar/resource_type/c_7a1f
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/1992/51468
dc.identifier.pdf.none.fl_str_mv 22738.pdf
dc.identifier.instname.spa.fl_str_mv instname:Universidad de los Andes
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional Séneca
dc.identifier.repourl.spa.fl_str_mv repourl:https://repositorio.uniandes.edu.co/
url http://hdl.handle.net/1992/51468
identifier_str_mv 22738.pdf
instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
repourl:https://repositorio.uniandes.edu.co/
dc.language.iso.none.fl_str_mv eng
language eng
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.none.fl_str_mv 73 hojas
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de los Andes
dc.publisher.program.none.fl_str_mv Ingeniería de Sistemas y Computación
dc.publisher.faculty.none.fl_str_mv Facultad de Ingeniería
dc.publisher.department.none.fl_str_mv Departamento de Ingeniería de Sistemas y Computación
publisher.none.fl_str_mv Universidad de los Andes
institution Universidad de los Andes
bitstream.url.fl_str_mv https://repositorio.uniandes.edu.co/bitstreams/4930e9c1-7814-4b6f-9da4-0c580c28e604/download
https://repositorio.uniandes.edu.co/bitstreams/141b33a7-15fe-45ad-b291-ab2c24c6768c/download
https://repositorio.uniandes.edu.co/bitstreams/1db7247a-1b6d-4437-b1b6-605cc3241401/download
bitstream.checksum.fl_str_mv 95da194c8fb3514d268a2b2efb7c78b2
faceea5cdffea9cc9e836352d4544118
34eff6eeb370913d87c247c67b7d3034
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio institucional Séneca
repository.mail.fl_str_mv adminrepositorio@uniandes.edu.co
_version_ 1818111965426352128
spelling Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Cardozo Álvarez, Nicolásvirtual::13873-1Chacón Buitrago, Valentina14b88fbe-7055-4d69-bbbb-ad974f7b54405002021-08-10T18:26:30Z2021-08-10T18:26:30Z2020http://hdl.handle.net/1992/5146822738.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/The increasing changes in the interaction and activities available in the internet, continuously introduce privacy concerns regarding online presence. The way companies deal with these concerns is by including privacy policies in their websites. Nonetheless, these policies have some problems. The vocabulary used in the documents is not clear for all users, legal terms are difficult to understand and can be up to 8 pages long meaning that these policies are not accessible and therefore fail to inform users effectively. Studies show that it would take an average person about 200 hours a year to actually read the policy for every unique website visited in a year, not to mention the updated version of policies for sites visited on a repeated basis. Accessing web pages while ignoring privacy policies exposes users to risks regarding the handling of their personal information and the legitimacy of the services offered by web sites. To prevent users from disclosing their private information indiscriminately and reduce the time and effort involved in reading a privacy policy this project develops a model that discloses whether a website is legit or rogue based on the contents of its privacy policy with a 93.2% accuracy. This task falls at the crossroads of Information Retrieval, Natural Language Processing and Supervised Machine Learning algorithms. The project takes a top down approach as the experiments are designed to reduce the number of viable classifiers and configurations at each step, therefore reducing the search space for the setup with highest classification accuracy. There are two stages of experimentation with three experiments in total in which we identify the configuration that provides the best classification accuracy.Los crecientes cambios en la interacción y las actividades disponibles en Internet introducen continuamente preocupaciones de privacidad con respecto a la presencia en línea. La forma en que las empresas abordan estas preocupaciones es mediante la inclusión de políticas de privacidad en sus sitios web. No obstante, estas políticas tienen algunos problemas. El vocabulario utilizado en los documentos no está claro para todos los usuarios, los términos legales son difíciles de entender y pueden tener hasta 8 páginas, lo que significa que estas políticas no son accesibles y, por lo tanto, no informan a los usuarios de manera efectiva. Los estudios muestran que a una persona promedio le tomaría aproximadamente 200 horas al año leer la política de cada sitio web único visitado en un año, sin mencionar la versión actualizada de las políticas para los sitios visitados de forma repetida. Acceder a páginas web ignorando las políticas de privacidad expone a los usuarios a riesgos relacionados con el manejo de su información personal y la legitimidad de los servicios ofrecidos por los sitios web. Para evitar que los usuarios divulguen su información privada de forma indiscriminada y reducir el tiempo y el esfuerzo que implica leer una política de privacidad, este proyecto desarrolla un modelo que revela si un sitio web es legítimo o deshonesto según el contenido de su política de privacidad con una precisión del 93,2%. Esta tarea se desarrolla con manejo de datos, procesamiento del lenguaje natural y aprendizaje automático supervisado. El proyecto adopta un enfoque de top-down, ya que los experimentos están diseñados para reducir la cantidad de clasificadores y configuraciones viables en cada paso, reduciendo así el espacio de búsqueda para la configuración con la mayor precisión de clasificación. Hay dos etapas de experimentación con tres experimentos en total en los que identificamos la configuración que proporciona la mejor precisión de clasificación.Ingeniero de Sistemas y ComputaciónPregrado73 hojasapplication/pdfengUniversidad de los AndesIngeniería de Sistemas y ComputaciónFacultad de IngenieríaDepartamento de Ingeniería de Sistemas y ComputaciónRogue one : a legitimacy storyTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TPPáginas WebPrivacidad de los datosSeguridad en computadoresIngeniería201630833Publicationhttps://scholar.google.es/citations?user=3iTzjQsAAAAJvirtual::13873-10000-0002-1094-9952virtual::13873-1a77ff528-fc33-44d6-9022-814f81ef407avirtual::13873-1a77ff528-fc33-44d6-9022-814f81ef407avirtual::13873-1TEXT22738.pdf.txt22738.pdf.txtExtracted texttext/plain95124https://repositorio.uniandes.edu.co/bitstreams/4930e9c1-7814-4b6f-9da4-0c580c28e604/download95da194c8fb3514d268a2b2efb7c78b2MD54THUMBNAIL22738.pdf.jpg22738.pdf.jpgIM Thumbnailimage/jpeg736https://repositorio.uniandes.edu.co/bitstreams/141b33a7-15fe-45ad-b291-ab2c24c6768c/downloadfaceea5cdffea9cc9e836352d4544118MD55ORIGINAL22738.pdfapplication/pdf1647709https://repositorio.uniandes.edu.co/bitstreams/1db7247a-1b6d-4437-b1b6-605cc3241401/download34eff6eeb370913d87c247c67b7d3034MD511992/51468oai:repositorio.uniandes.edu.co:1992/514682024-03-13 15:03:11.949http://creativecommons.org/licenses/by-nc-nd/4.0/open.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co