El SMN dispone en su nueva web de una sección de descarga de datos que básicamente sirve para leer datos históricos relacionados a factores climáticos como la temperatura, humedad, presión atmosférica, nubosidad y más. De esta manera, nos permite trabajar con datos fehacientes para luego poder visualizarlos.
La única desventaja que podemos encontrar en este estudio fue que sólo deja descargar datos en *txt (texto plano), un formato bastante más complicado para trabajar que un *csv (tabla delimitada por comas), Más allá de esta desventaja y adicionando un par de pasos se puede decodificar los mismos con lenguaje R usando la librería "readr" que sirve para leer archivos externos y reconocer títulos y espacios en blanco que queramos eliminar. Finalizado esto, el paso siguiente sería convertir este archivo de texto plano en un dataframe (conjunto de datos diferentes al estilo tabla, similar a un csv)
"Un dataframe es un conjunto de datos recopilados en un archivo. Pueden ser de una misma clase o no"
El archivo que descargamos en esta sección se llama "estadistica.txt" y contiene los datos de todas las estaciones aéreas del país correspondientes a lo que va de esta temporada de verano. El siguiente paso es guardarlo en una carpeta y convertirlo en dataframe con los siguientes comandos:
(El código está comentado para que puedas entender paso a paso los procesos)
*Llamo a librería library(readr) *Leo txt y lo convierto en tabla datos <- read_table2("C:/Users/rpardo/Downloads/estadistica.txt") *Visualizo en consola el dataframe View(datos)
Listo! La tabla ha sido creada. A continuación te adjunto una captura para que aprendas conmigo cómo vamos interpretando estos datos:
En todo proceso de Big Data, una vez que tenemos toda la información recopilada llega el momento de limpieza de datos que básicamente es descartar aquello que interfiere o no sirve para lograr un estudio más eficiente.
Tenemos un dataframe llamado datos con nueve parámetros diferentes entre ellos fecha, hora, temperatura, humedad, presión atmosférica, vientos, nombre de aeropuerto y más. Pero lo que realmente nos interesa en este estudio es comparar solo a Aeroparque con el aeropuerto de la ciudad de Mendoza para ver si realmente tienen diferencias en sus temperaturas y si la humedad que aprecia el mendocino al llegar a Buenos Aires es una sensación o no.
Llegó el turno de crear dos variables llamadas ba (que contenga todos los datos de Aeroparque) y mendoza (que contenga todos los datos de Mendoza). Para eso, vamos a utilizar la función subset.
*Guardo en una variable ba todos los datos de la estacion Aeroparque ba <- subset(datos, ESTACION = "AEROPARQUE")
Realizamos lo mismo para obtener los datos de "El Plumerillo", aeropuerto internacional de Mendoza:
*Guardo en una variable mendoza todos los datos de la estacion Mendoza mendoza <- subset(datos, ESTACION = "MENDOZA")
Listo! Ya tenemos los datos de cada aeropuerto en cada una de las variables.
Organizado los datos, pasamos a graficar utilizando la librería ggplot lo que nos va a permitir apreciar las diferencias de temperatura y humedad en las distintas horas del día.
*LLamo a librería ggplot para graficar en líneas ggplot()+ geom_line(data = mendoza, aes(x=mendoza$HORA, y= mendoza$HUM), color = "green")+ geom_line(data = ba, aes(x=ba$HORA, y= ba$HUM), color = "red")+ xlab("Hora")+ ylab("Humedad")+ ggtitle("Humedad en ambos aeropuertos")
Resultado: podemos deducir que sí viajás desde Mendoza a Aeroparque a partir de las 18 horas, vas a poder percibir la diferencia de humedad entre ambas localidades al pasar de valores que oscilan entre 20%-45% a 75%-85%. Por lo tanto, si sufrís la humedad alta, te recomiendo no viajar en estos horarios.
Referencia del gráfico: en rojo, Aeroparque | en verde, Mendoza
Ahora, analizamos la temperatura de ambos aeropuertos y por lejos...Mendoza fue más hot. En horarios de 15 en adelante es donde más diferencia de temperatura se percibe por lo que tampoco te recomiendo viajar en este horario.
*Llamamos a la librería y graficamos ggplot()+ geom_line(data = mendoza, aes(x=mendoza$HORA, y= mendoza$TEMP), color = "green")+ geom_line(data = ba, aes(x=ba$HORA, y= ba$TEMP), color = "red")+ xlab("Hora")+ ylab("Temperatura")+ ggtitle("Temperatura en ambos aeropuertos")
Gracias a este estudio de datos, podemos llegar a la conclusión de que si sos un pasajero frecuente de Aerolíneas Argentinas, LAN o ANDES y sufrís de los cambios de temperatura y humedad, te conviene viajar en los siguientes horarios tanto en la ida como la vuelta (casualmente son los vuelos de mayor demanda):
Referencias del estudio:
Lenguaje utilizado: R
Datos fuente: Servicio Meteorológico Nacional
Estoy en Linkedin, seguime y hablamos de tecnología y datos: