Prototipo para la detección automática de perfiles de navegación de usuarios de una empresa aplicando técnicas de minería de datos y algoritmos de aprendizaje
En este trabajo se describe el desarrollo de un prototipo para la detección automática de perfiles de usuarios, el cual realiza recomendaciones a el administrador web teniendo en cuenta la navegación de los usuarios, aplicando técnicas de minería de datos. El prototipo se compone de 5 etapas: carga...
- Autores:
-
Aponte Novoa, Fredy Andrés
- Tipo de recurso:
- Fecha de publicación:
- 2011
- Institución:
- Universidad Autónoma de Bucaramanga - UNAB
- Repositorio:
- Repositorio UNAB
- Idioma:
- spa
- OAI Identifier:
- oai:repository.unab.edu.co:20.500.12749/3457
- Acceso en línea:
- http://hdl.handle.net/20.500.12749/3457
- Palabra clave:
- Systems Engineering
Internet users
Web
Data mining
Research
Ingeniería de sistemas
Usuarios de internet
Web
Minería de datos
Investigaciones
Perfiles de usuarios
Administrador web
Carga de datos
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by-nc-nd/2.5/co/
id |
UNAB2_caa8b3bcf203c50452e828fcfa3022a1 |
---|---|
oai_identifier_str |
oai:repository.unab.edu.co:20.500.12749/3457 |
network_acronym_str |
UNAB2 |
network_name_str |
Repositorio UNAB |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Prototipo para la detección automática de perfiles de navegación de usuarios de una empresa aplicando técnicas de minería de datos y algoritmos de aprendizaje |
dc.title.translated.eng.fl_str_mv |
Prototype for the automatic detection of user navigation profiles of a company applying data mining techniques and learning algorithms |
title |
Prototipo para la detección automática de perfiles de navegación de usuarios de una empresa aplicando técnicas de minería de datos y algoritmos de aprendizaje |
spellingShingle |
Prototipo para la detección automática de perfiles de navegación de usuarios de una empresa aplicando técnicas de minería de datos y algoritmos de aprendizaje Systems Engineering Internet users Web Data mining Research Ingeniería de sistemas Usuarios de internet Web Minería de datos Investigaciones Perfiles de usuarios Administrador web Carga de datos |
title_short |
Prototipo para la detección automática de perfiles de navegación de usuarios de una empresa aplicando técnicas de minería de datos y algoritmos de aprendizaje |
title_full |
Prototipo para la detección automática de perfiles de navegación de usuarios de una empresa aplicando técnicas de minería de datos y algoritmos de aprendizaje |
title_fullStr |
Prototipo para la detección automática de perfiles de navegación de usuarios de una empresa aplicando técnicas de minería de datos y algoritmos de aprendizaje |
title_full_unstemmed |
Prototipo para la detección automática de perfiles de navegación de usuarios de una empresa aplicando técnicas de minería de datos y algoritmos de aprendizaje |
title_sort |
Prototipo para la detección automática de perfiles de navegación de usuarios de una empresa aplicando técnicas de minería de datos y algoritmos de aprendizaje |
dc.creator.fl_str_mv |
Aponte Novoa, Fredy Andrés |
dc.contributor.advisor.spa.fl_str_mv |
Hernández Cáceres, Javier |
dc.contributor.author.spa.fl_str_mv |
Aponte Novoa, Fredy Andrés |
dc.contributor.cvlac.*.fl_str_mv |
Hernández Cáceres, Javier [0000817864] |
dc.contributor.researchgroup.spa.fl_str_mv |
Grupo de Investigación Tecnologías de Información - GTI Grupo de Investigaciones Clínicas |
dc.subject.keywords.eng.fl_str_mv |
Systems Engineering Internet users Web Data mining Research |
topic |
Systems Engineering Internet users Web Data mining Research Ingeniería de sistemas Usuarios de internet Web Minería de datos Investigaciones Perfiles de usuarios Administrador web Carga de datos |
dc.subject.lemb.spa.fl_str_mv |
Ingeniería de sistemas Usuarios de internet Web Minería de datos Investigaciones |
dc.subject.proposal.none.fl_str_mv |
Perfiles de usuarios Administrador web Carga de datos |
description |
En este trabajo se describe el desarrollo de un prototipo para la detección automática de perfiles de usuarios, el cual realiza recomendaciones a el administrador web teniendo en cuenta la navegación de los usuarios, aplicando técnicas de minería de datos. El prototipo se compone de 5 etapas: carga de datos, preprocesamiento, sesionalizacion, identificación de perfiles y recomendaciones. En la carga de datos, los registros de acceso son leídos desde el archivo Log generado por el servidor Web. Este archivo puede encontrarse en diferentes formatos pero el prototipo trabaja con archivos en formato NCSA generado por servidores Web Apache. La etapa de preprocesamiento de datos, se divide en 3 tareas: -Selección. –Limpieza. – Transformación. En la primera tarea se analizan los atributos que conforman el archivo de log y se identifican cuáles son relevantes en la identificación de perfiles de usuario. La tarea de limpieza está orientada a eliminar todos los datos innecesarios para las siguientes etapas, como son los registros de robots, solicitudes no exitosas, objetos de páginas y registro de páginas índice. Como último paso en la transformación de los datos se realiza la identificación de perfiles de usuario. La penúltima etapa, la sesionalización se encarga de identificar las sesiones de navegación de los usuarios, para esta tarea se maneja un umbral de tiempo para identificar las visitas correspondientes a una misma sesión. La última etapa llamada etapa de recomendación, el sistema realiza una serie de informes usados por el administrador web para realizar mejorar al sitio web. |
publishDate |
2011 |
dc.date.issued.none.fl_str_mv |
2011-07-18 |
dc.date.accessioned.none.fl_str_mv |
2020-06-26T21:34:52Z |
dc.date.available.none.fl_str_mv |
2020-06-26T21:34:52Z |
dc.type.driver.none.fl_str_mv |
info:eu-repo/semantics/masterThesis |
dc.type.local.spa.fl_str_mv |
Tesis |
dc.type.redcol.none.fl_str_mv |
http://purl.org/redcol/resource_type/TM http://purl.org/redcol/resource_type/TM |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12749/3457 |
dc.identifier.instname.spa.fl_str_mv |
instname:Universidad Autónoma de Bucaramanga - UNAB |
dc.identifier.reponame.spa.fl_str_mv |
reponame:Repositorio Institucional UNAB |
url |
http://hdl.handle.net/20.500.12749/3457 |
identifier_str_mv |
instname:Universidad Autónoma de Bucaramanga - UNAB reponame:Repositorio Institucional UNAB |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.relation.references.spa.fl_str_mv |
Aponte Novoa, Fredy Andrés (2011). Prototipo para la detección automática de perfiles de navegación de usuarios de una empresa aplicando técnicas de minería de datos y algoritmos de aprendizaje. Bucaramanga (Colombia) : Universidad Autónoma de Bucaramanga UNAB, Universitat Oberta de Catalunya UOC [HAN01] HAN Jiawei, KAMBER Micheline. (2001). Data Mining Concepts and Techniques. Morgan and Kaufman. [HAN05] HAN Xiwu, ZHAO Tiejun. (2005). Auto-K Dynamic Clustering Algorithm [KAN03] KANTARDZIC Mehmed. (2003). Data Mining Concepts, Models, methods and algorithms [MAR] MARTÍN Bautista, MARÍA J, Vila María Amparo. Building adaptive user profiles by a genetic fuzzy classifier with feature selection. [MIT03] MITRA Sushmita, ACHARYA Tinku. (2003). Data Mining Multimedia, Soft Computing And Bioinformatics. New Jersey: John Wiley & Sons, Inc. [NAS99] NASRAOUI Olfa, FRIGUI Hichem, JOSHI Anupam, KRISHNAPURAM Raghu. (1999). Mining Web Access Logs Using Relational Competitive Fuzzy Clustering [LAB03] LABROCHE Nicolas, MONMARCH´E Nicolas, VENTURINI Gilles. (2003). Web sessions Clustering with artificial ants colonies. [ROM05] ROMÁN Ulises, ALARCÓN Luis. (2005). Minería De Uso De Web Para Predicción De Usuarios En La Universidad [SAR00] SARWAR Badrul, KARYPIS George, KONSTAN Joseph, RIED John. (2000). Analysis of Recommendation Algorithms for E-Commerce [SHA05] SHANKAR Bhushan , SHIRI Nematollaah, Sudhir P. (2005). Mudur Incremental Relational Fuzzy Subtractive Clustering for Dynamic Web Usage Profiling. [STU02] STUMME Gerd, HOTHO Andreas, BERENDT Bettina. (2002). Usage Mining for and on the Semantic Web [VEL08] VELASQUEZ J. D, PALADE V. (2008). Adaptive Web site: A Knowledge Extraction from Web Data Approach. IOS Press [VEL08] VELASQUEZ J. D, PALADE V. (2008). Adaptive Web site: A Knowledge Extraction from Web Data Approach. IOS Press |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/co/ |
dc.rights.local.spa.fl_str_mv |
Abierto (Texto Completo) |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess http://purl.org/coar/access_right/c_abf2 |
dc.rights.creativecommons.*.fl_str_mv |
Atribución-NoComercial-SinDerivadas 2.5 Colombia |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/co/ Abierto (Texto Completo) http://purl.org/coar/access_right/c_abf2 Atribución-NoComercial-SinDerivadas 2.5 Colombia |
eu_rights_str_mv |
openAccess |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
dc.coverage.spa.fl_str_mv |
Bucaramanga (Colombia) |
dc.coverage.campus.spa.fl_str_mv |
UNAB Campus Bucaramanga |
dc.publisher.grantor.spa.fl_str_mv |
Universidad Autónoma de Bucaramanga UNAB |
dc.publisher.faculty.spa.fl_str_mv |
Facultad Ingeniería |
dc.publisher.program.spa.fl_str_mv |
Maestría en Software Libre |
institution |
Universidad Autónoma de Bucaramanga - UNAB |
bitstream.url.fl_str_mv |
https://repository.unab.edu.co/bitstream/20.500.12749/3457/1/2011_Tesis_Fredy_Andres_Aponte_Novoa.pdf https://repository.unab.edu.co/bitstream/20.500.12749/3457/2/2011_Manual_HTML_Fredy_Andres_Aponte_Novoa.zip https://repository.unab.edu.co/bitstream/20.500.12749/3457/4/2011_Codogo_Fuente_Fredy_Andres_Aponte_Novoa.zip https://repository.unab.edu.co/bitstream/20.500.12749/3457/5/2011_Javadoc_Fredy_Andres_Aponte_Novoa.zip https://repository.unab.edu.co/bitstream/20.500.12749/3457/6/2011_Aplicacion_Fredy_Andres_Aponte_Novoa.zip https://repository.unab.edu.co/bitstream/20.500.12749/3457/7/2011_Tesis_Fredy_Andres_Aponte_Novoa.pdf.jpg |
bitstream.checksum.fl_str_mv |
c1fc3a2537fc7d92d85533713a1b71c8 39cfc5c3c4cee887f255531e0fd825b6 b3e9cb8dd18dbf56f78b3aba3ab95d51 e67040165230c3da5aed5ba47e5ace35 18d3ffbd761ad9f899dae5d9a423382c 30439e53017638ca8b8e4e9162e2e310 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional | Universidad Autónoma de Bucaramanga - UNAB |
repository.mail.fl_str_mv |
repositorio@unab.edu.co |
_version_ |
1814277532522905600 |
spelling |
Hernández Cáceres, Javierf487f0f0-7f38-42ea-afbb-bd119d1d859eAponte Novoa, Fredy Andrés903075ae-0a89-4489-934c-5d26028fab6fHernández Cáceres, Javier [0000817864]Grupo de Investigación Tecnologías de Información - GTIGrupo de Investigaciones Clínicas2020-06-26T21:34:52Z2020-06-26T21:34:52Z2011-07-18http://hdl.handle.net/20.500.12749/3457instname:Universidad Autónoma de Bucaramanga - UNABreponame:Repositorio Institucional UNABEn este trabajo se describe el desarrollo de un prototipo para la detección automática de perfiles de usuarios, el cual realiza recomendaciones a el administrador web teniendo en cuenta la navegación de los usuarios, aplicando técnicas de minería de datos. El prototipo se compone de 5 etapas: carga de datos, preprocesamiento, sesionalizacion, identificación de perfiles y recomendaciones. En la carga de datos, los registros de acceso son leídos desde el archivo Log generado por el servidor Web. Este archivo puede encontrarse en diferentes formatos pero el prototipo trabaja con archivos en formato NCSA generado por servidores Web Apache. La etapa de preprocesamiento de datos, se divide en 3 tareas: -Selección. –Limpieza. – Transformación. En la primera tarea se analizan los atributos que conforman el archivo de log y se identifican cuáles son relevantes en la identificación de perfiles de usuario. La tarea de limpieza está orientada a eliminar todos los datos innecesarios para las siguientes etapas, como son los registros de robots, solicitudes no exitosas, objetos de páginas y registro de páginas índice. Como último paso en la transformación de los datos se realiza la identificación de perfiles de usuario. La penúltima etapa, la sesionalización se encarga de identificar las sesiones de navegación de los usuarios, para esta tarea se maneja un umbral de tiempo para identificar las visitas correspondientes a una misma sesión. La última etapa llamada etapa de recomendación, el sistema realiza una serie de informes usados por el administrador web para realizar mejorar al sitio web.Universitat Oberta de Catalunya UOCIntroduccion 12 1. Planteamiento del problema 15 2. Justificación 16 3. Objetivos 17 3.1 objetivo general 17 3.2 objetivos específicos 17 4. Estado del arte 18 4.1 minería web 18 4.2 fases de la minería web 18 4.3 categorías de la minería web 19 4.4 técnicas empleadas en la minería de uso de web 20 4.5 archivo log 21 4.6 trabajos realizados 22 5. Diseño metodologico para el prototipo de sistema 25 5.1 preprocesamiento de los datos 25 limpieza de los datos. 26 eliminación de accesos realizados por robots. 26 eliminación de registros basado en el código de estado http. 27 eliminación de duplicidad. 28 5.2 algoritmo apriori 30 6. Arquitectura y diseño del prototipo 32 6.1 carga y preprocesamiento de los datos 33 6.2 sesionalización 34 6.3 construcción de perfiles 34 6.4 recomendaciones 34 6.5 diagrama de casos de uso 35 7. Construcción 36 7.1 base de datos 36 7.2 codificación en java 37 7.3 herramientas de desarrollo 41 7.4 descripción de pantallas construidas 42 Ventana Principal 42 Carga. 43 PreProcesamiento. 45 Sesionalización. 46 Perfiles y recomendación. 48 Informe por barras. 50 Informe en torta o circular. 51 Acerca de. 52 8. ANÁLISIS E INTERPRETACIÓN DE RESULTADOS 53 8.1 CARGA DE DATOS 55 8.2 LIMPIEZA DE DATOS 55 8.3 INFORMES 56 Páginas más visitadas. 56 Páginas menos visitadas. 58 Usuarios más Activos. 60 Visitas por hora del día. 62 Visitas por día de la semana. 64 Reglas de asociación. 65 9. CONCLUSIONES 67 10. BIBLIOGRAFÍA 68MaestríaThis work describes the development of a prototype for the automatic detection of user profiles, which makes recommendations to the web administrator, taking into account user navigation, applying data mining techniques. The prototype consists of 5 stages: data loading, pre-processing, sessionization, identification of profiles and recommendations. In data loading, the access logs are read from the log file generated by the Web server. This file can be in different formats but the prototype works with files in NCSA format generated by Apache Web servers. The data pre-processing stage is divided into 3 tasks: -Selection. -Cleaning. - Transformation. In the first task, the attributes that make up the registry file are analyzed and relevant results are identified in the identification of user profiles. The cleanup task is aimed at removing all unnecessary data for the next stages, such as robot registrations, unsuccessful requests, page objects, and index page registration. As the last step in the transformation of the data, the identification of user profiles is carried out. The penultimate stage, the sessionization is responsible for identifying the users' browsing sessions, for this task a time threshold is handled to identify the visits corresponding to the same session. The last stage called the recommendation stage, the system performs a series of reports used by the web administrator to improve the website.Modalidad Presencialapplication/pdfspahttp://creativecommons.org/licenses/by-nc-nd/2.5/co/Abierto (Texto Completo)info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Atribución-NoComercial-SinDerivadas 2.5 ColombiaPrototipo para la detección automática de perfiles de navegación de usuarios de una empresa aplicando técnicas de minería de datos y algoritmos de aprendizajePrototype for the automatic detection of user navigation profiles of a company applying data mining techniques and learning algorithmsMagíster en Software LibreBucaramanga (Colombia)UNAB Campus BucaramangaUniversidad Autónoma de Bucaramanga UNABFacultad IngenieríaMaestría en Software Libreinfo:eu-repo/semantics/masterThesisTesishttp://purl.org/redcol/resource_type/TMhttp://purl.org/redcol/resource_type/TMSystems EngineeringInternet usersWebData miningResearchIngeniería de sistemasUsuarios de internetWebMinería de datosInvestigacionesPerfiles de usuariosAdministrador webCarga de datosAponte Novoa, Fredy Andrés (2011). Prototipo para la detección automática de perfiles de navegación de usuarios de una empresa aplicando técnicas de minería de datos y algoritmos de aprendizaje. Bucaramanga (Colombia) : Universidad Autónoma de Bucaramanga UNAB, Universitat Oberta de Catalunya UOC[HAN01] HAN Jiawei, KAMBER Micheline. (2001). Data Mining Concepts and Techniques. Morgan and Kaufman.[HAN05] HAN Xiwu, ZHAO Tiejun. (2005). Auto-K Dynamic Clustering Algorithm[KAN03] KANTARDZIC Mehmed. (2003). Data Mining Concepts, Models, methods and algorithms[MAR] MARTÍN Bautista, MARÍA J, Vila María Amparo. Building adaptive user profiles by a genetic fuzzy classifier with feature selection.[MIT03] MITRA Sushmita, ACHARYA Tinku. (2003). Data Mining Multimedia, Soft Computing And Bioinformatics. New Jersey: John Wiley & Sons, Inc.[NAS99] NASRAOUI Olfa, FRIGUI Hichem, JOSHI Anupam, KRISHNAPURAM Raghu. (1999). Mining Web Access Logs Using Relational Competitive Fuzzy Clustering[LAB03] LABROCHE Nicolas, MONMARCH´E Nicolas, VENTURINI Gilles. (2003). Web sessions Clustering with artificial ants colonies.[ROM05] ROMÁN Ulises, ALARCÓN Luis. (2005). Minería De Uso De Web Para Predicción De Usuarios En La Universidad[SAR00] SARWAR Badrul, KARYPIS George, KONSTAN Joseph, RIED John. (2000). Analysis of Recommendation Algorithms for E-Commerce[SHA05] SHANKAR Bhushan , SHIRI Nematollaah, Sudhir P. (2005). Mudur Incremental Relational Fuzzy Subtractive Clustering for Dynamic Web Usage Profiling.[STU02] STUMME Gerd, HOTHO Andreas, BERENDT Bettina. (2002). Usage Mining for and on the Semantic Web[VEL08] VELASQUEZ J. D, PALADE V. (2008). Adaptive Web site: A Knowledge Extraction from Web Data Approach. IOS Press[VEL08] VELASQUEZ J. D, PALADE V. (2008). Adaptive Web site: A Knowledge Extraction from Web Data Approach. IOS PressORIGINAL2011_Tesis_Fredy_Andres_Aponte_Novoa.pdf2011_Tesis_Fredy_Andres_Aponte_Novoa.pdfTesisapplication/pdf1291432https://repository.unab.edu.co/bitstream/20.500.12749/3457/1/2011_Tesis_Fredy_Andres_Aponte_Novoa.pdfc1fc3a2537fc7d92d85533713a1b71c8MD51open access2011_Manual_HTML_Fredy_Andres_Aponte_Novoa.zip2011_Manual_HTML_Fredy_Andres_Aponte_Novoa.zipManual al usuarioapplication/octet-stream552938https://repository.unab.edu.co/bitstream/20.500.12749/3457/2/2011_Manual_HTML_Fredy_Andres_Aponte_Novoa.zip39cfc5c3c4cee887f255531e0fd825b6MD52open access2011_Codogo_Fuente_Fredy_Andres_Aponte_Novoa.zip2011_Codogo_Fuente_Fredy_Andres_Aponte_Novoa.zipCódigo fuenteapplication/octet-stream172364https://repository.unab.edu.co/bitstream/20.500.12749/3457/4/2011_Codogo_Fuente_Fredy_Andres_Aponte_Novoa.zipb3e9cb8dd18dbf56f78b3aba3ab95d51MD54open access2011_Javadoc_Fredy_Andres_Aponte_Novoa.zip2011_Javadoc_Fredy_Andres_Aponte_Novoa.zipJavaapplication/octet-stream146918https://repository.unab.edu.co/bitstream/20.500.12749/3457/5/2011_Javadoc_Fredy_Andres_Aponte_Novoa.zipe67040165230c3da5aed5ba47e5ace35MD55open access2011_Aplicacion_Fredy_Andres_Aponte_Novoa.zip2011_Aplicacion_Fredy_Andres_Aponte_Novoa.zipAplicaciónapplication/octet-stream2604250https://repository.unab.edu.co/bitstream/20.500.12749/3457/6/2011_Aplicacion_Fredy_Andres_Aponte_Novoa.zip18d3ffbd761ad9f899dae5d9a423382cMD56open accessTHUMBNAIL2011_Tesis_Fredy_Andres_Aponte_Novoa.pdf.jpg2011_Tesis_Fredy_Andres_Aponte_Novoa.pdf.jpgIM Thumbnailimage/jpeg4424https://repository.unab.edu.co/bitstream/20.500.12749/3457/7/2011_Tesis_Fredy_Andres_Aponte_Novoa.pdf.jpg30439e53017638ca8b8e4e9162e2e310MD57open access20.500.12749/3457oai:repository.unab.edu.co:20.500.12749/34572024-01-22 14:19:47.991open accessRepositorio Institucional | Universidad Autónoma de Bucaramanga - UNABrepositorio@unab.edu.co |