Modelo basado en minería de flujos de datos para el análisis de clics en un sitio web / A model based on data streams mining to clickstream analysis in a website

En este documento se propone un modelo de minería enfocado al procesamiento de flujos de datos. Tratar con flujos de datos (o data streams, en inglés) trae retos computacionales debido a su volumen y su tasa de generación rápida y variable. Los datos en un flujo no pueden ser almacenados, ni mucho m...

Full description

Autores:
Rojas Hernández, Alix Érica
Tipo de recurso:
Fecha de publicación:
2010
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/11417
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/11417
http://bdigital.unal.edu.co/8840/
Palabra clave:
0 Generalidades / Computer science, information and general works
Flujos de datos
Minería de datos
Análisis de clics / Data streams
Data mining
Clickstream analysis
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_b08ccdad1f29c4f801779307e8772a8c
oai_identifier_str oai:repositorio.unal.edu.co:unal/11417
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
dc.title.spa.fl_str_mv Modelo basado en minería de flujos de datos para el análisis de clics en un sitio web / A model based on data streams mining to clickstream analysis in a website
title Modelo basado en minería de flujos de datos para el análisis de clics en un sitio web / A model based on data streams mining to clickstream analysis in a website
spellingShingle Modelo basado en minería de flujos de datos para el análisis de clics en un sitio web / A model based on data streams mining to clickstream analysis in a website
0 Generalidades / Computer science, information and general works
Flujos de datos
Minería de datos
Análisis de clics / Data streams
Data mining
Clickstream analysis
title_short Modelo basado en minería de flujos de datos para el análisis de clics en un sitio web / A model based on data streams mining to clickstream analysis in a website
title_full Modelo basado en minería de flujos de datos para el análisis de clics en un sitio web / A model based on data streams mining to clickstream analysis in a website
title_fullStr Modelo basado en minería de flujos de datos para el análisis de clics en un sitio web / A model based on data streams mining to clickstream analysis in a website
title_full_unstemmed Modelo basado en minería de flujos de datos para el análisis de clics en un sitio web / A model based on data streams mining to clickstream analysis in a website
title_sort Modelo basado en minería de flujos de datos para el análisis de clics en un sitio web / A model based on data streams mining to clickstream analysis in a website
dc.creator.fl_str_mv Rojas Hernández, Alix Érica
dc.contributor.author.spa.fl_str_mv Rojas Hernández, Alix Érica
dc.contributor.spa.fl_str_mv León Guzmán, Elizabeth
dc.subject.ddc.spa.fl_str_mv 0 Generalidades / Computer science, information and general works
topic 0 Generalidades / Computer science, information and general works
Flujos de datos
Minería de datos
Análisis de clics / Data streams
Data mining
Clickstream analysis
dc.subject.proposal.spa.fl_str_mv Flujos de datos
Minería de datos
Análisis de clics / Data streams
Data mining
Clickstream analysis
description En este documento se propone un modelo de minería enfocado al procesamiento de flujos de datos. Tratar con flujos de datos (o data streams, en inglés) trae retos computacionales debido a su volumen y su tasa de generación rápida y variable. Los datos en un flujo no pueden ser almacenados, ni mucho menos, procesados eficientemente utilizando procedimientos que requieran usar un dato varias veces. Para esto se propone el desarrollo de un modelo llamado SCOFI, que por sus siglas en inglés traduce Streaming Clasification based On Frequent Itemsets. Su diseño general presenta dos módulos funcionales: un módulo de selección y asociación y un módulo de clasificación. Para el primer módulo se propone el algoritmo Apriori+, que encuentra conjuntos de elementos frecuentes calculando el número de candidatos primos, cambiando así, la representación de los datos para obtener un problema más sencillo en el dominio de los números naturales. En el módulo de clasificación se usa una modificación del algoritmo M1 para construir el clasificador a partir de reglas de asociación. Finalmente, el modelo se aplica al análisis de clics generados en un sitio Web real. Para ello se emplea el conjunto de datos “Online retailer website clickstream analysis” de la KDD-Cup 2000 y se simula un ambiente en línea, con el fin de validar el modelo. / Abstract: In this document, a data mining model to process data streams is proposed. Dealing with data streams carries computational challenges since they cannot be stored or processed efficiently through procedures that use data several times because, data arrival rate and speed is variable and the volume is high. The proposed model is named SCOFI - Streaming Classification based On Frequent Item sets. Its general design relies on two functional modules: selection and association module and classification module. For the first module it is proposed the algorithm Apriori+. This algorithm finds frequent item sets calculating the amount of prime candidates; so that, it changes the data representation in order to get a simpler problem in the natural numbers domain. In the classification model it is used a modification of the M1 algorithm in order to build a classifier based on association rules. Finally, the model is applied to click stream analysis from real data. For this, the "Online retailer website click stream analysis" data set from KDD-Cup 2000 is used, and simulated an online environment for model validation.
publishDate 2010
dc.date.issued.spa.fl_str_mv 2010
dc.date.accessioned.spa.fl_str_mv 2019-06-24T23:58:49Z
dc.date.available.spa.fl_str_mv 2019-06-24T23:58:49Z
dc.type.spa.fl_str_mv Trabajo de grado - Maestría
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/11417
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/8840/
url https://repositorio.unal.edu.co/handle/unal/11417
http://bdigital.unal.edu.co/8840/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial
Departamento de Ingeniería de Sistemas e Industrial
dc.relation.references.spa.fl_str_mv Rojas Hernández, Alix Érica (2010) Modelo basado en minería de flujos de datos para el análisis de clics en un sitio web / A model based on data streams mining to clickstream analysis in a website. Maestría thesis, Universidad Nacional de Colombia.
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/11417/1/299675.2010.pdf
https://repositorio.unal.edu.co/bitstream/unal/11417/2/299675.2010.pdf.jpg
bitstream.checksum.fl_str_mv 3309f039b77929bec640689fe04355c5
600d1c87785d70515df466d2be3ced55
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1814089465780502528
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2León Guzmán, ElizabethRojas Hernández, Alix Éricabbba3ddd-4cb8-41c7-8b20-ae41893fa22b3002019-06-24T23:58:49Z2019-06-24T23:58:49Z2010https://repositorio.unal.edu.co/handle/unal/11417http://bdigital.unal.edu.co/8840/En este documento se propone un modelo de minería enfocado al procesamiento de flujos de datos. Tratar con flujos de datos (o data streams, en inglés) trae retos computacionales debido a su volumen y su tasa de generación rápida y variable. Los datos en un flujo no pueden ser almacenados, ni mucho menos, procesados eficientemente utilizando procedimientos que requieran usar un dato varias veces. Para esto se propone el desarrollo de un modelo llamado SCOFI, que por sus siglas en inglés traduce Streaming Clasification based On Frequent Itemsets. Su diseño general presenta dos módulos funcionales: un módulo de selección y asociación y un módulo de clasificación. Para el primer módulo se propone el algoritmo Apriori+, que encuentra conjuntos de elementos frecuentes calculando el número de candidatos primos, cambiando así, la representación de los datos para obtener un problema más sencillo en el dominio de los números naturales. En el módulo de clasificación se usa una modificación del algoritmo M1 para construir el clasificador a partir de reglas de asociación. Finalmente, el modelo se aplica al análisis de clics generados en un sitio Web real. Para ello se emplea el conjunto de datos “Online retailer website clickstream analysis” de la KDD-Cup 2000 y se simula un ambiente en línea, con el fin de validar el modelo. / Abstract: In this document, a data mining model to process data streams is proposed. Dealing with data streams carries computational challenges since they cannot be stored or processed efficiently through procedures that use data several times because, data arrival rate and speed is variable and the volume is high. The proposed model is named SCOFI - Streaming Classification based On Frequent Item sets. Its general design relies on two functional modules: selection and association module and classification module. For the first module it is proposed the algorithm Apriori+. This algorithm finds frequent item sets calculating the amount of prime candidates; so that, it changes the data representation in order to get a simpler problem in the natural numbers domain. In the classification model it is used a modification of the M1 algorithm in order to build a classifier based on association rules. Finally, the model is applied to click stream analysis from real data. For this, the "Online retailer website click stream analysis" data set from KDD-Cup 2000 is used, and simulated an online environment for model validation.Maestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e IndustrialDepartamento de Ingeniería de Sistemas e IndustrialRojas Hernández, Alix Érica (2010) Modelo basado en minería de flujos de datos para el análisis de clics en un sitio web / A model based on data streams mining to clickstream analysis in a website. Maestría thesis, Universidad Nacional de Colombia.0 Generalidades / Computer science, information and general worksFlujos de datosMinería de datosAnálisis de clics / Data streamsData miningClickstream analysisModelo basado en minería de flujos de datos para el análisis de clics en un sitio web / A model based on data streams mining to clickstream analysis in a websiteTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMORIGINAL299675.2010.pdfapplication/pdf11081299https://repositorio.unal.edu.co/bitstream/unal/11417/1/299675.2010.pdf3309f039b77929bec640689fe04355c5MD51THUMBNAIL299675.2010.pdf.jpg299675.2010.pdf.jpgGenerated Thumbnailimage/jpeg2397https://repositorio.unal.edu.co/bitstream/unal/11417/2/299675.2010.pdf.jpg600d1c87785d70515df466d2be3ced55MD52unal/11417oai:repositorio.unal.edu.co:unal/114172023-09-18 23:05:47.594Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co