Detección de outliers multivariables mediante projection pursuit

Tanto en inferencia estadística como en el análisis de datos experimentales, ya sean univariables o multivariables. Es esencial evaluar la calidad de los datos sujetos a estudio. Es por ello que se hace necesario explorar y construir métodos que ayuden a la detección de ciertas observaciones que pue...

Full description

Autores:
López Ríos, Victor Ignacio
Tipo de recurso:
Fecha de publicación:
1999
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/3081
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/3081
http://bdigital.unal.edu.co/1495/
Palabra clave:
51 Matemáticas / Mathematics
Estadística
Análisis multivariante
Correlación (Estadística)
Simulación
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
Description
Summary:Tanto en inferencia estadística como en el análisis de datos experimentales, ya sean univariables o multivariables. Es esencial evaluar la calidad de los datos sujetos a estudio. Es por ello que se hace necesario explorar y construir métodos que ayuden a la detección de ciertas observaciones que puedan afectar las medidas (correlaciones) en el caso multivariable. Estas observaciones se conocen en la literatura estadística como “outliers”. En el caso de univarible se han desarrollado muchos trabajos tanto informales como de tipo formal. Una extensa revisión bibliografía es presentada por Barnett y Lewis (1994) y por Beckman y Cook (1983). En el caso multivariable, la situación es diferente, la detección de outliers requiere de una exploración mucho mas detallada ya que estas observaciones no son tan fáciles de detectar visualmente por el problema de la dimensión: en este caso las técnicas de tipo formal que se han desarrollado son muy escasas debido principalmente a que las variables, en general, no cumplen el supuesto de independencia, lo cual no permite elaborar pruebas que presenten una buena potencia. Según Beckman y Cook (1983) los outliers en una muestra univariable se puede considerar como aquellas observaciones que en opinión del investigador se mantienen aparte o alejadas del volumen de los datos, conocidas en la literatura como:”observaciones discordantes”, “contaminantes”, “disidentes”, etc. También se consideran outliers aquellas observaciones que tienen la apariencia de desviarse notablemente de los otros miembros de la muestra en la cual ocurren. Las observaciones outliers son estudiadas para la detección de un fenómeno alternativo específico. Según Beckman y Cook (1983) los outliers pueden ser de distintos tipos: Observación discordante es aquella observación que parece sorprendente o discrepante para el investigador: Observación contaminante es aquella que no proviene de la población en estudio. Sino de otra población: Observación influyente es aquella que al ser excluida del análisis de datos, altera sustancialmente rasgos importantes de dicho análisis. En la detección de outliers se presentan varios problemas, entre otros: Una observación puede ser identificada como un outlier por un método dado y no por otro: Puede ser un outlier en un modelo y no en otro, y finalmente, en el caso multivariable, puede ser un outlier en un espacio p-dimensional y no lo es necesariamente en un subespacio dado. Por lo expuesto anteriormente, se hace necesario e importante, además de estudiar y revisar las técnicas que han sido propuestas. Explorar una nueva metodología de tipo informal. Que pueda detectar outliers en el caso de datos multivariables utilizando el enfoque por “Projection Pursuit”, buscando índices apropiados que permitan evaluar las proyecciones de los datos en diferentes subespacios. Los outliers que detectaremos son del tipo de observaciones discordantes. Adicionalmente, se desea evaluar la eficiencia de esta metodología comparándola con la técnica de componentes principales.