Rogue one : a legitimacy story
The increasing changes in the interaction and activities available in the internet, continuously introduce privacy concerns regarding online presence. The way companies deal with these concerns is by including privacy policies in their websites. Nonetheless, these policies have some problems. The vo...
- Autores:
-
Chacón Buitrago, Valentina
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2020
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- eng
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/51468
- Acceso en línea:
- http://hdl.handle.net/1992/51468
- Palabra clave:
- Páginas Web
Privacidad de los datos
Seguridad en computadores
Ingeniería
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by-nc-nd/4.0/
id |
UNIANDES2_737df241c3479ebba79f8ad93346c914 |
---|---|
oai_identifier_str |
oai:repositorio.uniandes.edu.co:1992/51468 |
network_acronym_str |
UNIANDES2 |
network_name_str |
Séneca: repositorio Uniandes |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Rogue one : a legitimacy story |
title |
Rogue one : a legitimacy story |
spellingShingle |
Rogue one : a legitimacy story Páginas Web Privacidad de los datos Seguridad en computadores Ingeniería |
title_short |
Rogue one : a legitimacy story |
title_full |
Rogue one : a legitimacy story |
title_fullStr |
Rogue one : a legitimacy story |
title_full_unstemmed |
Rogue one : a legitimacy story |
title_sort |
Rogue one : a legitimacy story |
dc.creator.fl_str_mv |
Chacón Buitrago, Valentina |
dc.contributor.advisor.none.fl_str_mv |
Cardozo Álvarez, Nicolás |
dc.contributor.author.none.fl_str_mv |
Chacón Buitrago, Valentina |
dc.subject.armarc.spa.fl_str_mv |
Páginas Web Privacidad de los datos Seguridad en computadores |
topic |
Páginas Web Privacidad de los datos Seguridad en computadores Ingeniería |
dc.subject.themes.none.fl_str_mv |
Ingeniería |
description |
The increasing changes in the interaction and activities available in the internet, continuously introduce privacy concerns regarding online presence. The way companies deal with these concerns is by including privacy policies in their websites. Nonetheless, these policies have some problems. The vocabulary used in the documents is not clear for all users, legal terms are difficult to understand and can be up to 8 pages long meaning that these policies are not accessible and therefore fail to inform users effectively. Studies show that it would take an average person about 200 hours a year to actually read the policy for every unique website visited in a year, not to mention the updated version of policies for sites visited on a repeated basis. Accessing web pages while ignoring privacy policies exposes users to risks regarding the handling of their personal information and the legitimacy of the services offered by web sites. To prevent users from disclosing their private information indiscriminately and reduce the time and effort involved in reading a privacy policy this project develops a model that discloses whether a website is legit or rogue based on the contents of its privacy policy with a 93.2% accuracy. This task falls at the crossroads of Information Retrieval, Natural Language Processing and Supervised Machine Learning algorithms. The project takes a top down approach as the experiments are designed to reduce the number of viable classifiers and configurations at each step, therefore reducing the search space for the setup with highest classification accuracy. There are two stages of experimentation with three experiments in total in which we identify the configuration that provides the best classification accuracy. |
publishDate |
2020 |
dc.date.issued.none.fl_str_mv |
2020 |
dc.date.accessioned.none.fl_str_mv |
2021-08-10T18:26:30Z |
dc.date.available.none.fl_str_mv |
2021-08-10T18:26:30Z |
dc.type.spa.fl_str_mv |
Trabajo de grado - Pregrado |
dc.type.coarversion.fl_str_mv |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
dc.type.coar.spa.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TP |
format |
http://purl.org/coar/resource_type/c_7a1f |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/1992/51468 |
dc.identifier.pdf.none.fl_str_mv |
22738.pdf |
dc.identifier.instname.spa.fl_str_mv |
instname:Universidad de los Andes |
dc.identifier.reponame.spa.fl_str_mv |
reponame:Repositorio Institucional Séneca |
dc.identifier.repourl.spa.fl_str_mv |
repourl:https://repositorio.uniandes.edu.co/ |
url |
http://hdl.handle.net/1992/51468 |
identifier_str_mv |
22738.pdf instname:Universidad de los Andes reponame:Repositorio Institucional Séneca repourl:https://repositorio.uniandes.edu.co/ |
dc.language.iso.none.fl_str_mv |
eng |
language |
eng |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.coar.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.extent.none.fl_str_mv |
73 hojas |
dc.format.mimetype.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de los Andes |
dc.publisher.program.none.fl_str_mv |
Ingeniería de Sistemas y Computación |
dc.publisher.faculty.none.fl_str_mv |
Facultad de Ingeniería |
dc.publisher.department.none.fl_str_mv |
Departamento de Ingeniería de Sistemas y Computación |
publisher.none.fl_str_mv |
Universidad de los Andes |
institution |
Universidad de los Andes |
bitstream.url.fl_str_mv |
https://repositorio.uniandes.edu.co/bitstreams/4930e9c1-7814-4b6f-9da4-0c580c28e604/download https://repositorio.uniandes.edu.co/bitstreams/141b33a7-15fe-45ad-b291-ab2c24c6768c/download https://repositorio.uniandes.edu.co/bitstreams/1db7247a-1b6d-4437-b1b6-605cc3241401/download |
bitstream.checksum.fl_str_mv |
95da194c8fb3514d268a2b2efb7c78b2 faceea5cdffea9cc9e836352d4544118 34eff6eeb370913d87c247c67b7d3034 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio institucional Séneca |
repository.mail.fl_str_mv |
adminrepositorio@uniandes.edu.co |
_version_ |
1818111965426352128 |
spelling |
Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Cardozo Álvarez, Nicolásvirtual::13873-1Chacón Buitrago, Valentina14b88fbe-7055-4d69-bbbb-ad974f7b54405002021-08-10T18:26:30Z2021-08-10T18:26:30Z2020http://hdl.handle.net/1992/5146822738.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/The increasing changes in the interaction and activities available in the internet, continuously introduce privacy concerns regarding online presence. The way companies deal with these concerns is by including privacy policies in their websites. Nonetheless, these policies have some problems. The vocabulary used in the documents is not clear for all users, legal terms are difficult to understand and can be up to 8 pages long meaning that these policies are not accessible and therefore fail to inform users effectively. Studies show that it would take an average person about 200 hours a year to actually read the policy for every unique website visited in a year, not to mention the updated version of policies for sites visited on a repeated basis. Accessing web pages while ignoring privacy policies exposes users to risks regarding the handling of their personal information and the legitimacy of the services offered by web sites. To prevent users from disclosing their private information indiscriminately and reduce the time and effort involved in reading a privacy policy this project develops a model that discloses whether a website is legit or rogue based on the contents of its privacy policy with a 93.2% accuracy. This task falls at the crossroads of Information Retrieval, Natural Language Processing and Supervised Machine Learning algorithms. The project takes a top down approach as the experiments are designed to reduce the number of viable classifiers and configurations at each step, therefore reducing the search space for the setup with highest classification accuracy. There are two stages of experimentation with three experiments in total in which we identify the configuration that provides the best classification accuracy.Los crecientes cambios en la interacción y las actividades disponibles en Internet introducen continuamente preocupaciones de privacidad con respecto a la presencia en línea. La forma en que las empresas abordan estas preocupaciones es mediante la inclusión de políticas de privacidad en sus sitios web. No obstante, estas políticas tienen algunos problemas. El vocabulario utilizado en los documentos no está claro para todos los usuarios, los términos legales son difíciles de entender y pueden tener hasta 8 páginas, lo que significa que estas políticas no son accesibles y, por lo tanto, no informan a los usuarios de manera efectiva. Los estudios muestran que a una persona promedio le tomaría aproximadamente 200 horas al año leer la política de cada sitio web único visitado en un año, sin mencionar la versión actualizada de las políticas para los sitios visitados de forma repetida. Acceder a páginas web ignorando las políticas de privacidad expone a los usuarios a riesgos relacionados con el manejo de su información personal y la legitimidad de los servicios ofrecidos por los sitios web. Para evitar que los usuarios divulguen su información privada de forma indiscriminada y reducir el tiempo y el esfuerzo que implica leer una política de privacidad, este proyecto desarrolla un modelo que revela si un sitio web es legítimo o deshonesto según el contenido de su política de privacidad con una precisión del 93,2%. Esta tarea se desarrolla con manejo de datos, procesamiento del lenguaje natural y aprendizaje automático supervisado. El proyecto adopta un enfoque de top-down, ya que los experimentos están diseñados para reducir la cantidad de clasificadores y configuraciones viables en cada paso, reduciendo así el espacio de búsqueda para la configuración con la mayor precisión de clasificación. Hay dos etapas de experimentación con tres experimentos en total en los que identificamos la configuración que proporciona la mejor precisión de clasificación.Ingeniero de Sistemas y ComputaciónPregrado73 hojasapplication/pdfengUniversidad de los AndesIngeniería de Sistemas y ComputaciónFacultad de IngenieríaDepartamento de Ingeniería de Sistemas y ComputaciónRogue one : a legitimacy storyTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TPPáginas WebPrivacidad de los datosSeguridad en computadoresIngeniería201630833Publicationhttps://scholar.google.es/citations?user=3iTzjQsAAAAJvirtual::13873-10000-0002-1094-9952virtual::13873-1a77ff528-fc33-44d6-9022-814f81ef407avirtual::13873-1a77ff528-fc33-44d6-9022-814f81ef407avirtual::13873-1TEXT22738.pdf.txt22738.pdf.txtExtracted texttext/plain95124https://repositorio.uniandes.edu.co/bitstreams/4930e9c1-7814-4b6f-9da4-0c580c28e604/download95da194c8fb3514d268a2b2efb7c78b2MD54THUMBNAIL22738.pdf.jpg22738.pdf.jpgIM Thumbnailimage/jpeg736https://repositorio.uniandes.edu.co/bitstreams/141b33a7-15fe-45ad-b291-ab2c24c6768c/downloadfaceea5cdffea9cc9e836352d4544118MD55ORIGINAL22738.pdfapplication/pdf1647709https://repositorio.uniandes.edu.co/bitstreams/1db7247a-1b6d-4437-b1b6-605cc3241401/download34eff6eeb370913d87c247c67b7d3034MD511992/51468oai:repositorio.uniandes.edu.co:1992/514682024-03-13 15:03:11.949http://creativecommons.org/licenses/by-nc-nd/4.0/open.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co |