ScraCOVID-19: Plataforma informativa de contenido digital mediante Scraping y almacenamiento NoSQL

Introducción— Mantener informada a la comunidad sobre la reciente pandemia causada por el COVID-19, se ha convertido en una necesidad haciéndose indispensable el uso de canales de comunicación confiables, información precisa y basada en la evidencia. Objetivos— Este trabajo tiene como objetivo princ...

Full description

Autores:
Sánchez Paipilla, Ariel Guillermo
Durán Vaca, Mónica Katherine
González Amarillo, Angela María
Ballesteros Ricaurte, Javier Antonio
Tipo de recurso:
Article of journal
Fecha de publicación:
2020
Institución:
Corporación Universidad de la Costa
Repositorio:
REDICUC - Repositorio CUC
Idioma:
spa
OAI Identifier:
oai:repositorio.cuc.edu.co:11323/12303
Acceso en línea:
https://hdl.handle.net/11323/12303
https://doi.org/10.17981/ingecuc.16.2.2020.18
Palabra clave:
data analysis
NoSQL Database
digital communication
web page
information extraction
análisis de datos
bases de datos NoSQL
comunicación digital
página web
extracción de información
Rights
openAccess
License
INGE CUC - 2020
Description
Summary:Introducción— Mantener informada a la comunidad sobre la reciente pandemia causada por el COVID-19, se ha convertido en una necesidad haciéndose indispensable el uso de canales de comunicación confiables, información precisa y basada en la evidencia. Objetivos— Este trabajo tiene como objetivo principal crear ScraCOVID-19 una plataforma web de contenido digital dedicada a acceder a las noticias actualizadas y de manera rápida. Como caso de estudio se manejan cuatro medios digitales con licencia a nivel nacional. Las noticias se presentan de manera resumida para permitir a los lectores, en función de su interés, leer las noticias mediante algunos filtros como: desempleo, educación, maltrato, corrupción y discriminación. Metodología— ScraCOVID-19 se crea a partir de la técnica de extracción Scraping, mediante el uso de BeautifulSoup, librería que permite extraer información en formato HTML de varios sitios web, utilizando el lenguaje de programación Python. Resultado: Se describe un modelo para realizar la categorización que extrae información útil para clasificar información en categorías haciendo referencia a las URL. Conclusiones— A partir de técnicas de extracción utilizadas en conjunto con herramientas de almacenamiento de datos no estructurados, se obtiene información de diferentes páginas web y se administran todos los datos recogidos en una misma web generada dinámicamente.