Web Scraping y modelación del precio de la oferta de autos usados en venta en la ciudad de Cali en el año 2023

La compra-venta de autos usados en Colombia es una actividad que posee parte de su cuota de mercado en internet, en donde son ofertados libremente vehículos en plataformas como Mercado Libre, OLX o Carro Ya. En este Trabajo de grado se modela el precio de la oferta de autos usados en la ciudad de Ca...

Full description

Autores:
Botero Rodríguez, José Francisco
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2024
Institución:
Universidad del Valle
Repositorio:
Repositorio Digital Univalle
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.univalle.edu.co:10893/33477
Acceso en línea:
https://hdl.handle.net/10893/33477
Palabra clave:
Modelos lineales (Estadística)
Análisis estadístico
Arboles de regresión
Plataforma digital
Autos usados
Cali (Valle del Cauca)
Rights
openAccess
License
Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
Description
Summary:La compra-venta de autos usados en Colombia es una actividad que posee parte de su cuota de mercado en internet, en donde son ofertados libremente vehículos en plataformas como Mercado Libre, OLX o Carro Ya. En este Trabajo de grado se modela el precio de la oferta de autos usados en la ciudad de Cali mediante los datos obtenidos a través de Web Scraping del sitio web de Mercado Libre Colombia para septiembre de 2023, lo que permitirá tener mejores precios de referencia para comprar o vender un auto usado. Además se estudia el efecto sobre el precio de las características técnicas y de uso de los vehículos como el cilindraje, kilometraje, marca, modelo o antigüedad. En la modelación del precio de los autos usados se emplearon características del vehículo proporcionadas por los vendedores en el sitio web. Se utilizaron técnicas de preprocesamiento y limpieza de datos para el posterior ajuste de los modelos estadísticos como el Modelo lineal mediante mínimos cuadrados ordinarios y el Modelo lineal generalizado bajo la distribución gamma, en donde se analizaron los efectos de las covariables sobre el precio y se validaron los supuestos del modelo. Como complemento, se emplearon modelos de aprendizaje automático como los Árboles de regresión, Bosques aleatorios y XGBoost, en donde se entrenaron mediante validación cruzada y se encontró el modelo de cada método que obtuviera el menor error de predicción. Las variables que resultaron tener más efecto positivo sobre el precio son la marca y el cilindraje, mientras que aquellas que más afectan de manera negativa son el kilometraje y la antigüedad de los autos. El modelo de XGBoost resultó ser el mejor modelo para predecir el precio de los vehículos usados, en donde este logra explicar el 86,7% de la variabilidad del precio mediante las covariables.