- Detalles
-
Escrito por Jesús Manuel Nieto Carracedo
-
Categoría: COVID-19
Aprovechando los recientes acontecimientos ocurridos a nivel mundial, se presta una muy buena oportunidad de poder realizar un análisis de datos a aquellas personas que comenzamos a dar nuestros primeros pasos en este apasionante mundo de la estadística.
La motivación viene dada por la posibilidad de poder generar visualizaciones y modelos, en base a un acontecimiento que por desgracia, en este momento está "vivo", cada día se van sumando datos y más datos, que nos obligan a revisar los modelos realizados. Poder visualizar los mismos y hacernos preguntas, generar hipótesis de trabajo, y poder aceptar o rechazar las mismas, a través de:
- Las noticias diarias en medios de comunicación.
- Artículos científicos.
- Redes sociales donde profesionales sanitarios, virólogos, epidemiólogos, nos indican de que forma miden ellos el avance del virus.
- La Organización mundial de la salud, O.M.S. https://www.who.int/es
- Redes sociales de analistas de datos como https://www.kaggle.com
- O incluso las experiencias aportadas a través de amigos, familiares que trabajan en "primera línea de fuego", como policías, médicos, enfermeros, cajeros, reponedores, o transportistas ...
Antes de continuar, indicar que este estudio lo realizo en condición de ingeniero informático, experto en desarrollo de soluciones fullstack, por este motivo, me he centrado en la adquisición, limpieza, de datos, dejando y exportando un dataframe cuadrado donde por cada línea tendremos una observación y por cada columna, una variable.
He calculado algunas variables, que se comentarán en el detallado del estudio, con una breve explicación del motivo de la misma. Por tanto, en ningún caso pretende ser un estudio que tenga validez alguna más allá de un entrenamiento en mis estudios sobre análisis de datos.
Como nota final, indicar que, se hace un detallado de Castilla y León y Salamanca, dado que es la ciudad donde vivo.
Para el análisis he utilizado la siguiente infraestructura técnica:
- Leguaje R y Rstudio como entorno de desarrollo, con los siguientes paquetes:
- Tidyversehttps://www.tidyverse.org/, haciendo uso de los paquetes contenidos:
- Para hacer la limpieza y transformaciones de datos, los paquetes dplyr y tidyr
- Representaciones gráficas el paquete ggplot2.
- Para la persistencia de datasets y dataframes, los datos tibble.
- Para importación y exportación de datos en formato csv el paquete readr
- Para la transformación de fechas, paquete lubridate
- Para el trabajo con cadenas de texto, el paquete stringr
- Trabajo con modelos lineales, modelos de regresión paquete modelr.
- Sistemas operativo Ubuntu Desktop 19.10
- Un ordenador portátil hp elitebook 820 G3 con su tarjeta gráfica intel HD integrada, 20 GB de RAM DDR4, procesador intel i5 6ª generación, y disco duro de 540 GB SSD.
- Repositorio del proyecto público, ubicado en github: https://github.com/jesusmanuelnieto/covid19
- Dataset de entrada en carpeta /data/csv
- Dataframe de salida en carpeta /data/csv
- Gráficas generadas por los scripts R en carpeta /data/png
- Código fuente ubicado en los scripts R, en la carpeta raíz
- Fuentes de datos:
Escribir un comentario