Helados, medusas y paradojas estadísticas

«La paradoja de Simpson es una situación estadística en la que los datos pueden llevar a interpretaciones engañosas si no se analizan con suficiente cuidado»

Rafael Cabañas de Paz

Profesor de Estadística de la Facultad de Ciencias Experimentales de la UAL

Miércoles, 24 de septiembre 2025, 23:12

Las estadísticas muestran que, cuando aumenta el consumo de helados, también se disparan las picaduras de medusas en las playas. A primera vista, cualquiera podría ... pensar que existe una relación de causa y efecto entre ambos fenómenos y llegar a la conclusión de que conviene no bañarse en el mar después de disfrutar de un helado. Pero, en realidad, no es así. ¿Qué está pasando entonces?

Publicidad

Seguro que más de una vez hemos oído la frase «correlación no implica causalidad», y este es un ejemplo perfecto. Al analizar los datos por separado según la época del año, la correlación positiva desaparece. Durante el verano, el consumo de helados y las picaduras no muestran ninguna relación clara: hay días con mucho consumo y pocas picaduras, y otros con pocas ventas de helados y muchas picaduras. El efecto observado en el análisis global se debe a que los meses calurosos concentran tanto el mayor consumo de helados como el mayor número de picaduras. Este es un ejemplo de la paradoja de Simpson, una situación estadística en la que los datos pueden llevar a interpretaciones engañosas si no se analizan con suficiente cuidado.

Entrando en detalle, la paradoja de Simpson ocurre cuando una asociación aparente en los datos desaparece al desagregarlos. Un ejemplo clásico se dio en los años 70 con las admisiones de la Universidad de California en Berkeley. A nivel global, las estadísticas mostraban que el 44% de los hombres eran admitidos frente al 35% de las mujeres, lo que podía interpretarse como discriminación o peores expedientes académicos. Sin embargo, al analizar los datos por departamentos, la mayoría no mostraba diferencias significativas; en algunos, incluso las mujeres tenían una tasa de éxito superior. La aparente desigualdad se debía a que ellas solicitaban con mayor frecuencia plaza en departamentos muy competitivos, mientras que los hombres lo hacían más en aquellos con tasas más altas.

También es habitual encontrar este tipo de situaciones en el ámbito médico. Imaginemos que queremos comprobar la eficacia de un medicamento. Comparamos la tasa de mortalidad entre los pacientes que lo recibieron y los que no, y observamos que es mayor entre los primeros. ¿Significa esto que no funciona? No necesariamente: puede existir un sesgo en los datos. Los médicos suelen recetar el tratamiento a quienes ya están más graves, que de por sí presentan un riesgo mayor de fallecer. Algo parecido ocurrió al inicio de la vacunación contra la covid-19. Muchos grupos antivacunas afirmaban que la mortalidad era más alta entre los vacunados. Sin embargo, esa diferencia se explicaba porque la campaña comenzó por los colectivos más vulnerables, en especial las personas de mayor edad.

Recientemente hemos visto cómo ciertos políticos intentan vincular inmigración y delincuencia, argumentando que la tasa de delitos es mayor entre la población extranjera que entre la autóctona. Sin embargo, este es otro ejemplo de la paradoja de Simpson, en el que se pasan por alto factores esenciales. El problema radica en que se están comparando dos grupos poblacionales muy distintos. Por un lado, la población inmigrante es mayoritariamente joven o de mediana edad, mientras que la autóctona está más envejecida. Y son precisamente los jóvenes quienes concentran la mayor parte de los delitos; cuesta imaginar a una abuela atracando un banco. Por otro lado, la situación socioeconómica es el factor más determinante en la criminalidad. De hecho, en 2013, investigadores de la Universidad de Maryland demostraron en un estudio que, al analizar los datos desagregados por barrio, no existían diferencias significativas en la tasa de delincuencia entre población local y foránea.

Publicidad

La lección que se desprende de estos ejemplos es clara: la estadística es mucho más compleja que observar la relación entre dos variables de forma aislada. La verdadera dificultad está en interpretar los datos, descubrir qué hay detrás de las cifras y evitar conclusiones precipitadas que, aunque parezcan lógicas, pueden resultar muy engañosas.

Este contenido es exclusivo para suscriptores

Suscríbete durante los 3 primeros meses por 1 €

Publicidad