A calcular …

Para comenzar….

Carlos Montiel, investigador de la Estación Chama en el sur del Lago de Maracaibo (Venezuela) se sirve café. Lleva días pensando cómo poder predecir la incidencia de la Sigatoka Negra en las plantaciones de plátano vecinas a la estación. Los productores fumigan cada 15 días y los niveles de químicos en los ríos que caen al Lago están subiendo de forma alarmante. Desde su teléfono se conecta al buscador inteligente de repositorios datos y logra descubrir una relación entre el aumento del cociente humedad relativa/humedad absoluta con la densidad de esporas de Sigatoka en el ambiente en los últimos meses. Hace una búsqueda en los últimos diez años y los resultados son asombrosos. Hay varios productores conectados y Carlos escribe una nota en la cual incluye las gráficas de la serie temporal y propone cambiar el patrón de fumigación en la zona. Calcula los ahorros en vuelos en avioneta, combustible y químicos. Se sorprende.

Este es un relato de esas “ficciones” que se van convirtiendo en realidad. La actividad científica de los próximos años estará centrada en los datos registrados por infinidad de sensores de todo tipo. Dispositivos cada vez más inteligentes que enviarán datos una red de repositorios, en los cuales les haremos análisis estadísticos para desentrañar correlaciones insospechadas. Desde siempre la actividad científica se apoya en observaciones, en medidas experimentales. Hoy lo radicalmente diferente es la inmensa cantidad de datos que constituyen las “mediciones experimentales”. No serán solo comprobaciones estadísticas de predicciones teóricas sino relaciones entre datos de distintas fuentes. Como en el relato, se obtienen datos de presencia de esporas de la Sigatoka Negra con variables ambientales. Esos datos provienen de dos tipos de repositorios: biológicos y climáticos. Es la correlación entre los datos provenientes de estas fuentes las que nos permitirán entender fenómenos y proponer soluciones. Muchos descubrimientos recientes son hallazgos estadísticos, son inferencias sobre desviaciones de una o varias variables respecto a un comportamiento promedio establecido.  Esta nueva realidad impone una exposición temprana de los estudiantes a los conceptos estadísticos, a su metodología de análisis, a las estrategias de selección de muestras, generación de hipótesis y validación de resultados.

¿Qué buscamos?

Al finalizar esta unidad el lector podrá:

  • comprender los conceptos de: población, muestra, media, varianza, desvío y residuos
  • aplicar estos conceptos a problemas reales, con datos obtenidos de repositorios en la red
  • utilizar representaciones gráficas de estos conceptos para encontrar correlaciones entre muestras de datos

¿Qué leer y escuchar en la red?

Existen muchos tutoriales que pueden ser encontrados en la red. Les proponemos un par: 1 y 2

¿Qué hacer?

Para los exoplanetas:

  • calcule la media y el desvío de las masas de los 609 exoplanetas confirmados
  • Repita luego el mismo procedimiento anterior para los 3315 exoplanetas candidatos

Para la concentración de CO2

  • Calcular el valor medio y el desvío muestral de las mediciones de la concentración de CO2 del último millón de años, sin considerar el período reciente (antes de 1950)
  • Calcular a cuantos “sigmas” del valor medio se encuentra el valor actual de la concentración.

¿Necesita recursos adicionales?

Para realizar las actividades propuestas el lector puede necesitar:

  • Descargar los datos disponibles en la red o acceder a los datos de concentración de CO2, que hemos dispuesto para facilitar esa tarea
  • Seguir los procedimiento expuestos en la presentación de Estadística Express que se discutió en clases, descargar los datos de las masas de los explanetas del archivo:
  • Utilizar una hoja de cálculo para realizar los cómputos estadístico o utilizar herramientas de programación en Python tal y como las hemos descrito en el módulo de programación. Para el cálculo en Python puede hacer uso de un módulo pre-escrito estadistica.py.

 ¿Qué dedicación requiere este módulo?

Como el resto de los módulos de este cursillo, completar las actividades puede requerir entre 4 y 6 horas de dedicación, la mitad de las cuales son trabajo independiente previo a la discusión en el taller de 2h acompañados por los instructores.

Agradecemos

La realización de este módulo ha sido posible gracias al financiamiento del Fondo Regional para la Innovación Digital en América Latina y el Caribe, FRIDA y la Vicerrectoría de Investigación y Extensión de la Universidad Industrial de Santander.

logo-frida