Sistema para descubrir el comportamiento de los factores de riesgo de cancer de cuello uterino utilizando minería de datos

En este trabajo se propone el diseño de un sistema para descubrir conocimiento en la Secretaria Distrital de Salud (SDS), específicamente el detectar patrones y relaciones entre factores de la muestra de citología, el resultado de la muestra, los métodos de planificación y establecer tendencias sobr...

Full description

Autores:
López Forero, Rafael Alfredo
Tipo de recurso:
Fecha de publicación:
2011
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/7510
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/7510
http://bdigital.unal.edu.co/3896/
Palabra clave:
61 Ciencias médicas; Medicina / Medicine and health
62 Ingeniería y operaciones afines / Engineering
Cáncer de cuello uterino
Minería de datos
Bodega de datos
Regresión logística
Algoritmo de bayes net
Percetron multicapa
Validación cruzada
Inteligencia de negocios
OLAP / Cervical cancer
Data mining
Data warehouse
Logistic regression
Bayes net algorithm
Multilayer percetron
Cross validation
Business intelligence
On line analytical processing
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_df462b67f629f5d64e0ac7aebf096d46
oai_identifier_str oai:repositorio.unal.edu.co:unal/7510
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
dc.title.spa.fl_str_mv Sistema para descubrir el comportamiento de los factores de riesgo de cancer de cuello uterino utilizando minería de datos
title Sistema para descubrir el comportamiento de los factores de riesgo de cancer de cuello uterino utilizando minería de datos
spellingShingle Sistema para descubrir el comportamiento de los factores de riesgo de cancer de cuello uterino utilizando minería de datos
61 Ciencias médicas; Medicina / Medicine and health
62 Ingeniería y operaciones afines / Engineering
Cáncer de cuello uterino
Minería de datos
Bodega de datos
Regresión logística
Algoritmo de bayes net
Percetron multicapa
Validación cruzada
Inteligencia de negocios
OLAP / Cervical cancer
Data mining
Data warehouse
Logistic regression
Bayes net algorithm
Multilayer percetron
Cross validation
Business intelligence
On line analytical processing
title_short Sistema para descubrir el comportamiento de los factores de riesgo de cancer de cuello uterino utilizando minería de datos
title_full Sistema para descubrir el comportamiento de los factores de riesgo de cancer de cuello uterino utilizando minería de datos
title_fullStr Sistema para descubrir el comportamiento de los factores de riesgo de cancer de cuello uterino utilizando minería de datos
title_full_unstemmed Sistema para descubrir el comportamiento de los factores de riesgo de cancer de cuello uterino utilizando minería de datos
title_sort Sistema para descubrir el comportamiento de los factores de riesgo de cancer de cuello uterino utilizando minería de datos
dc.creator.fl_str_mv López Forero, Rafael Alfredo
dc.contributor.author.spa.fl_str_mv López Forero, Rafael Alfredo
dc.contributor.spa.fl_str_mv León, Elizabeth
dc.subject.ddc.spa.fl_str_mv 61 Ciencias médicas; Medicina / Medicine and health
62 Ingeniería y operaciones afines / Engineering
topic 61 Ciencias médicas; Medicina / Medicine and health
62 Ingeniería y operaciones afines / Engineering
Cáncer de cuello uterino
Minería de datos
Bodega de datos
Regresión logística
Algoritmo de bayes net
Percetron multicapa
Validación cruzada
Inteligencia de negocios
OLAP / Cervical cancer
Data mining
Data warehouse
Logistic regression
Bayes net algorithm
Multilayer percetron
Cross validation
Business intelligence
On line analytical processing
dc.subject.proposal.spa.fl_str_mv Cáncer de cuello uterino
Minería de datos
Bodega de datos
Regresión logística
Algoritmo de bayes net
Percetron multicapa
Validación cruzada
Inteligencia de negocios
OLAP / Cervical cancer
Data mining
Data warehouse
Logistic regression
Bayes net algorithm
Multilayer percetron
Cross validation
Business intelligence
On line analytical processing
description En este trabajo se propone el diseño de un sistema para descubrir conocimiento en la Secretaria Distrital de Salud (SDS), específicamente el detectar patrones y relaciones entre factores de la muestra de citología, el resultado de la muestra, los métodos de planificación y establecer tendencias sobre el comportamiento del cáncer de cuello uterino. Las técnicas a utilizar son basadas en Inteligencia de Negocios y Minería de Datos. Como primer paso se requiere de la integración de los sistemas de información con los que cuenta la SDS, como son: Registro Individual de prestación de servicios (RIPS) y del programa de seguimiento del cáncer de cuello uterino (SCU). Como primer paso, se elaboro el modelo de sistema para identificar el comportamiento de los factores de riesgo del cáncer de cuello uterino. Inicialmente, se presenta el modelo general lógico del sistema para identificar el comportamiento de los factores de riesgo del cáncer de cuello uterino. Se describe cada uno de los elementos considerados en la construcción del modelo. Luego se presenta la arquitectura del modelo, que incluye los pasos seguir en la definición de los modelos de minería. Por último, se presenta el análisis y diseño de la bodega que incluye el diseño del modelo multidimensional, la extracción, trasformación y carga de datos, la construcción e implementación de los cubos OLAP y la generación de reportes de salida. Igualmente, es importante identificar que los reportes se construyeron a partir de los requerimientos del sistema. Como componente de investigación en este proyecto, se diseño e implementó un modelo de minería de datos que permite encontrar patrones y relaciones entre factores de la muestra de citología, el resultado de la muestra, los métodos de planificación y establecer tendencias sobre el comportamiento del cáncer de cuello uterino. Para el proceso de diseño y desarrollo de los modelos de minería de datos se realizó primero la selección, limpieza y transformación de los datos. En esta etapa se realizó el preprocesado y filtrado de los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos). Otra labor que se realizó en la preparación de los datos fue la construcción de atributos, que consiste en construir automáticamente nuevos atributos aplicando alguna operación o función a los atributos originales con objeto de que estos nuevos atributos hicieran más fácil el proceso de minería. Por último en esta etapa se hizo la selección de atributos relevantes. El sistema propuesto en este trabajo ha sido de gran utilidad para la Secretaria Distrital de Salud, y ha sido de gran aporte para la integración de los diferentes sistemas de información. Se ha logrado introducir el concepto de Inteligencia de Negocios en la Entidad. Como producto del trabajo, se realizó el modelo de integración de los sistemas de la Secretaria de Salud e igualmente se construyo una aplicación del concepto de minería de datos, para encontrar las relaciones entre los factores de riesgo de cáncer de cuello uterino. Para esto, se utilizaron los datos de los sistemas de información de la SDS, específicamente los relacionados con las tomas de citologías vaginales. Igualmente, el sistema diseñado, permitió determinar qué factores como el fumar, el iniciar a tener relaciones tempranamente, número de compañeros sexuales, información sobre la planificación, número de partos son factores de riesgo de cáncer de cuello. Igualmente, con los modelos construidos se encuentra que es fácil predecir la presencia de cáncer de cuello uterino si se da la ocurrencia de los factores: Numero de compañeros sexuales, edad de la paciente, edad de inicio de las relaciones sexuales, método de planificación, número de partos, si fuma o no, si es gestante. Por otro lado, combinar clasificadores es una buena alternativa cuando se pretende obtener un modelo de minería de datos. En este sentido se encontró buenos resultados con el modelo de regresión logística y con el modelo de redes neuronales. Por último, a consideración de los expertos cito patólogos de la Secretaria de Salud y considerando que la bodega de datos no se cuenta información de presencia de la infección del virus del papiloma humano, no fue posible a través del proyecto verificar que el principal factor de riesgo de cáncer de cuello uterino es la infección del virus del papiloma humano. Sin embargo, se puede inferir que datos como ser gestante, número de partos, edad de inicio de las relaciones sexuales, que como se vio en los modelos de minería y dado que el virus del papiloma humano se trasmite de una persona a otra durante las relaciones sexuales, se puede concluir que el principal factor de riesgo es la infección del virus del papiloma humano. / Abstract. In this work it intends the design of a system to discover the knowledge in the Health District Secretary (HDS), specifically detecting patterns and relationships between factors of the cytology sample, the result of the sample, the methods of planning and to establish tendencies about the behavior of the cervical cancer. The techniques to use are based on Business Intelligence and Data Mining. As first step it is required the integration of the information systems with which counts the HDS, such as: single record of service delivery (SRSD) and of the program of following of cervical cancer (FCC). As first step, a model of system to identify the behavior of the risk factors of the cervical cancer was elaborated. Initially, the logical general model of the system is presented to identify the behavior of the risk factors of the cervical cancer. Each one of the elements is described took under consideration in the construction of the model. Then the architecture of the model is presented, which includes the steps to follow in the definition of the mining models. Lastly, it is presented the analysis and design of the warehouse which includes the design of the multidimensional model, the extraction, transformation and load of data, the construction and implementation of the OLAP cubes and the generation of output reports. Equally, it is important to identify that the reports were built starting from the requirements of the system. As component of investigation in this project was designed and implemented a model of data mining that allows to find patterns and relationships between factors of the cytology sample, the result of the sample, the methods of planning and to establish tendencies about the behavior of the cervical cancer. For the design process and development of the models of data mining first was carried out the selection, cleaning and transformation of the data. In this stage it was carried out the pre-processing and filtrate of data (so that incorrect, not-valid and unknown values are eliminated,). Another work that was carried out in the preparation of the data was the building of attributes, which consists on to build automatically new attributes applying some operation or function to the original attributes in order to these new attributes made easier the mining process. Lastly in this stage the selection of relevant attributes was made. The system proposed in this work has been of great utility for the Health District Secretary, and it has been of great contribution for the integration of the various information systems. It has been possible to introduce the concept of Business Intelligence in the Agency. As product of the work the integration model of sistems from the Health District Scretary was carried out and equally was building an application of the concept of data mining, to find the relationships between the risk factors of cervical cancer. For this, the data of the information systems of the HDS were used, specifically those related with the takings of vaginal cytologies. Equally, the designed system allowed to determine that factors such as smoking, beginning to have sexual intercourses early, the number of sexual partners, the information about the planning, the number of childbirths, are risk factors of cervical cancer. Equally, with the built models it is found that it is easy to predict the presence of cervical cancer if it presents the occurrence of the factors: number of sexual partners, the age of the patient, age of beginning of the sexual intercourses, method of planning, number of childbirths, smoker or no-smoker, if she is pregnant. On the other hand, to combine classifiers is a good alternative when it is sought to obtain a model of data mining. In this sense good results were found with the model of logistical regression and with the model of neural networks Lastly, to the consideration of experts I quote pathologists of the Health Secretary and considering that the warehouse of data does not have information about the presence of infection of the human papilloma virus, it was not possible through the project to verify that the main risk factor of cervical cancer is the infection of the human papilloma virus. However it can infer that data like being pregnant, the number of childbirths, age of beginning of the sexual intercourses, that as it was seen in the mining models and since the human papilloma virus is transmitted from a person to another during the sexual intercourses, it can conclude that the main risk factor is the infection of the the human papilloma virus.
publishDate 2011
dc.date.issued.spa.fl_str_mv 2011
dc.date.accessioned.spa.fl_str_mv 2019-06-24T16:38:33Z
dc.date.available.spa.fl_str_mv 2019-06-24T16:38:33Z
dc.type.spa.fl_str_mv Trabajo de grado - Maestría
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/7510
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/3896/
url https://repositorio.unal.edu.co/handle/unal/7510
http://bdigital.unal.edu.co/3896/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial Ingeniería de Sistemas
Ingeniería de Sistemas
dc.relation.references.spa.fl_str_mv López Forero, Rafael Alfredo (2011) Sistema para descubrir el comportamiento de los factores de riesgo de cancer de cuello uterino utilizando minería de datos. Maestría thesis, Universidad Nacional de Colombia.
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/7510/1/299511.2011.pdf
https://repositorio.unal.edu.co/bitstream/unal/7510/2/299511.2011.pdf.jpg
bitstream.checksum.fl_str_mv f29203879a5d832037d17c74b0c8c3d5
10d7b5a84f1ae152f287074223e1f181
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1806886356382646272
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2León, ElizabethLópez Forero, Rafael Alfredo39c20824-5a0f-4d41-bada-87e8ea0986443002019-06-24T16:38:33Z2019-06-24T16:38:33Z2011https://repositorio.unal.edu.co/handle/unal/7510http://bdigital.unal.edu.co/3896/En este trabajo se propone el diseño de un sistema para descubrir conocimiento en la Secretaria Distrital de Salud (SDS), específicamente el detectar patrones y relaciones entre factores de la muestra de citología, el resultado de la muestra, los métodos de planificación y establecer tendencias sobre el comportamiento del cáncer de cuello uterino. Las técnicas a utilizar son basadas en Inteligencia de Negocios y Minería de Datos. Como primer paso se requiere de la integración de los sistemas de información con los que cuenta la SDS, como son: Registro Individual de prestación de servicios (RIPS) y del programa de seguimiento del cáncer de cuello uterino (SCU). Como primer paso, se elaboro el modelo de sistema para identificar el comportamiento de los factores de riesgo del cáncer de cuello uterino. Inicialmente, se presenta el modelo general lógico del sistema para identificar el comportamiento de los factores de riesgo del cáncer de cuello uterino. Se describe cada uno de los elementos considerados en la construcción del modelo. Luego se presenta la arquitectura del modelo, que incluye los pasos seguir en la definición de los modelos de minería. Por último, se presenta el análisis y diseño de la bodega que incluye el diseño del modelo multidimensional, la extracción, trasformación y carga de datos, la construcción e implementación de los cubos OLAP y la generación de reportes de salida. Igualmente, es importante identificar que los reportes se construyeron a partir de los requerimientos del sistema. Como componente de investigación en este proyecto, se diseño e implementó un modelo de minería de datos que permite encontrar patrones y relaciones entre factores de la muestra de citología, el resultado de la muestra, los métodos de planificación y establecer tendencias sobre el comportamiento del cáncer de cuello uterino. Para el proceso de diseño y desarrollo de los modelos de minería de datos se realizó primero la selección, limpieza y transformación de los datos. En esta etapa se realizó el preprocesado y filtrado de los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos). Otra labor que se realizó en la preparación de los datos fue la construcción de atributos, que consiste en construir automáticamente nuevos atributos aplicando alguna operación o función a los atributos originales con objeto de que estos nuevos atributos hicieran más fácil el proceso de minería. Por último en esta etapa se hizo la selección de atributos relevantes. El sistema propuesto en este trabajo ha sido de gran utilidad para la Secretaria Distrital de Salud, y ha sido de gran aporte para la integración de los diferentes sistemas de información. Se ha logrado introducir el concepto de Inteligencia de Negocios en la Entidad. Como producto del trabajo, se realizó el modelo de integración de los sistemas de la Secretaria de Salud e igualmente se construyo una aplicación del concepto de minería de datos, para encontrar las relaciones entre los factores de riesgo de cáncer de cuello uterino. Para esto, se utilizaron los datos de los sistemas de información de la SDS, específicamente los relacionados con las tomas de citologías vaginales. Igualmente, el sistema diseñado, permitió determinar qué factores como el fumar, el iniciar a tener relaciones tempranamente, número de compañeros sexuales, información sobre la planificación, número de partos son factores de riesgo de cáncer de cuello. Igualmente, con los modelos construidos se encuentra que es fácil predecir la presencia de cáncer de cuello uterino si se da la ocurrencia de los factores: Numero de compañeros sexuales, edad de la paciente, edad de inicio de las relaciones sexuales, método de planificación, número de partos, si fuma o no, si es gestante. Por otro lado, combinar clasificadores es una buena alternativa cuando se pretende obtener un modelo de minería de datos. En este sentido se encontró buenos resultados con el modelo de regresión logística y con el modelo de redes neuronales. Por último, a consideración de los expertos cito patólogos de la Secretaria de Salud y considerando que la bodega de datos no se cuenta información de presencia de la infección del virus del papiloma humano, no fue posible a través del proyecto verificar que el principal factor de riesgo de cáncer de cuello uterino es la infección del virus del papiloma humano. Sin embargo, se puede inferir que datos como ser gestante, número de partos, edad de inicio de las relaciones sexuales, que como se vio en los modelos de minería y dado que el virus del papiloma humano se trasmite de una persona a otra durante las relaciones sexuales, se puede concluir que el principal factor de riesgo es la infección del virus del papiloma humano. / Abstract. In this work it intends the design of a system to discover the knowledge in the Health District Secretary (HDS), specifically detecting patterns and relationships between factors of the cytology sample, the result of the sample, the methods of planning and to establish tendencies about the behavior of the cervical cancer. The techniques to use are based on Business Intelligence and Data Mining. As first step it is required the integration of the information systems with which counts the HDS, such as: single record of service delivery (SRSD) and of the program of following of cervical cancer (FCC). As first step, a model of system to identify the behavior of the risk factors of the cervical cancer was elaborated. Initially, the logical general model of the system is presented to identify the behavior of the risk factors of the cervical cancer. Each one of the elements is described took under consideration in the construction of the model. Then the architecture of the model is presented, which includes the steps to follow in the definition of the mining models. Lastly, it is presented the analysis and design of the warehouse which includes the design of the multidimensional model, the extraction, transformation and load of data, the construction and implementation of the OLAP cubes and the generation of output reports. Equally, it is important to identify that the reports were built starting from the requirements of the system. As component of investigation in this project was designed and implemented a model of data mining that allows to find patterns and relationships between factors of the cytology sample, the result of the sample, the methods of planning and to establish tendencies about the behavior of the cervical cancer. For the design process and development of the models of data mining first was carried out the selection, cleaning and transformation of the data. In this stage it was carried out the pre-processing and filtrate of data (so that incorrect, not-valid and unknown values are eliminated,). Another work that was carried out in the preparation of the data was the building of attributes, which consists on to build automatically new attributes applying some operation or function to the original attributes in order to these new attributes made easier the mining process. Lastly in this stage the selection of relevant attributes was made. The system proposed in this work has been of great utility for the Health District Secretary, and it has been of great contribution for the integration of the various information systems. It has been possible to introduce the concept of Business Intelligence in the Agency. As product of the work the integration model of sistems from the Health District Scretary was carried out and equally was building an application of the concept of data mining, to find the relationships between the risk factors of cervical cancer. For this, the data of the information systems of the HDS were used, specifically those related with the takings of vaginal cytologies. Equally, the designed system allowed to determine that factors such as smoking, beginning to have sexual intercourses early, the number of sexual partners, the information about the planning, the number of childbirths, are risk factors of cervical cancer. Equally, with the built models it is found that it is easy to predict the presence of cervical cancer if it presents the occurrence of the factors: number of sexual partners, the age of the patient, age of beginning of the sexual intercourses, method of planning, number of childbirths, smoker or no-smoker, if she is pregnant. On the other hand, to combine classifiers is a good alternative when it is sought to obtain a model of data mining. In this sense good results were found with the model of logistical regression and with the model of neural networks Lastly, to the consideration of experts I quote pathologists of the Health Secretary and considering that the warehouse of data does not have information about the presence of infection of the human papilloma virus, it was not possible through the project to verify that the main risk factor of cervical cancer is the infection of the human papilloma virus. However it can infer that data like being pregnant, the number of childbirths, age of beginning of the sexual intercourses, that as it was seen in the mining models and since the human papilloma virus is transmitted from a person to another during the sexual intercourses, it can conclude that the main risk factor is the infection of the the human papilloma virus.Maestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial Ingeniería de SistemasIngeniería de SistemasLópez Forero, Rafael Alfredo (2011) Sistema para descubrir el comportamiento de los factores de riesgo de cancer de cuello uterino utilizando minería de datos. Maestría thesis, Universidad Nacional de Colombia.61 Ciencias médicas; Medicina / Medicine and health62 Ingeniería y operaciones afines / EngineeringCáncer de cuello uterinoMinería de datosBodega de datosRegresión logísticaAlgoritmo de bayes netPercetron multicapaValidación cruzadaInteligencia de negociosOLAP / Cervical cancerData miningData warehouseLogistic regressionBayes net algorithmMultilayer percetronCross validationBusiness intelligenceOn line analytical processingSistema para descubrir el comportamiento de los factores de riesgo de cancer de cuello uterino utilizando minería de datosTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMORIGINAL299511.2011.pdfapplication/pdf2615520https://repositorio.unal.edu.co/bitstream/unal/7510/1/299511.2011.pdff29203879a5d832037d17c74b0c8c3d5MD51THUMBNAIL299511.2011.pdf.jpg299511.2011.pdf.jpgGenerated Thumbnailimage/jpeg3487https://repositorio.unal.edu.co/bitstream/unal/7510/2/299511.2011.pdf.jpg10d7b5a84f1ae152f287074223e1f181MD52unal/7510oai:repositorio.unal.edu.co:unal/75102022-10-31 18:05:24.385Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co