Una de la maravilla de tener datos es poder hacer análisis sobre ellos, y no sólo para describir lo sucedido, sino también para proyectar lo que podría suceder. Eso sí, suponemos que los datos publicados reflejan un fenómeno real, han sido registrados de forma correcta y no han sido manipulados o alterados.
La buena noticia es que la matemática, estadística y computación, nos permite también detectar cuando los datos presentan anomalías que pueden ser el resultado de recolección inconsistente de los datos, o hasta incluso de manipulación intencionada de ellos. Hay varias estrategias que se pueden utilizar para verificar y analizar qué tan confiables son los datos, una de ellas que se conoce como Ley de Benford, que es algo extraña, pero resulta ser muy efectiva en muchas situaciones, y de eso les hablaré hoy.
La Ley de Benford (o Ley Newcomb-Benford) es una ley matemática algo extraña. Resulta ser que en colecciones de muchos números, si observamos la frecuencia de ocurrencia solo del primer dígito de cada número en cada dato, esta frecuencia de primeros dígitos tiene una distribución muy particular. Veamos por ejemplo la altura de los rascacielos más grandes del mundo (dato de Wikipedia), estos son todos los datos, sin importar a los edificios que corresponde, veamos solamente la altura (en metros),
He marcado los primeros dígitos de cada número en rojo, concentrémonos en estos. Si tomo solamente los primeros dígitos de esas secuencia de números, obtengo la siguiente lista de números,
y ahora cuento cuántos hay de cada uno, con lo cual obtengo la siguiente tabla,
Noten como no ocurren con igual proporción los primeros dígitos, hay notoriamente mayor cantidad de 1 que de otros números. Intuitivamente uno diría que deberían ocurrir con igual probabilidad, pues personas en arquitectura e ingeniería involucradas en la construcción no se pusieron de acuerdo. Resulta ser que es algo que tiene que ver con la naturaleza de los números, podemos ver la distribución de primer dígito de rascacielos en esta gráfica,
Vean que acá describo la probabilidad de ocurrencia de primer dígito en el eje "y". El "1" aparece con mucho mayor probabilidad que los siguientes dígitos.
Resulta ser que estos dígitos siguen una distribución teórica que es la que llamamos ley de Benford. Esta distribución viene dada por la siguiente fórmula,
La derivación de la fórmula es algo compleja, pero fue descubierta, pues antes de las calculadoras, para hacer multiplicaciones de grandes números, se utilizaban los logaritmos y de allí se observó algo sobre el uso de los dígitos "1" en general. Graficando esta fórmula para los dígitos del 1 al 9 tenemos,
Esta es la distribución de Benford, y es la que usamos de referencia para ver si un conjunto de datos corresponde con esta distribución. Ahora sí, comparando con la altura de rascacielos,
La línea punteada es la distribución de Benford. Aunque la correspondencia no es perfecta, se puede comparar estadísticamente mediante una medida de similaridad (que tan similares son) que se llama estadístico D. En este caso la similaridad es 0.19 (0 son iguales y 1 son completamente diferentes), estadísticamente cuando este valor es menor de 0.25, se acepta como que sigue la Ley de Benford.
La razón porque estos y otros datos siguen esta ley es algo difícil de explicar en esta columna, es bastante abstracto y va más allá del alcance acá. Pero trataré de explicar con un ejemplo sencillo.
La pregunta es ¿porque, un conjunto grande de números, así de la nada, sigue la Ley de Benford? Los datos que siguen esta ley, tienden a ser números que crecen de muchos órdenes de magnitud. Supongamos que usted tiene un colón, y lo deposita en un banco, el cual le da un interés compuesto del 10% anual. Esto quiere decir, que después de un año tendrá 1.1 colones, al segundo año 1.21, al tercero 1.33… y así. Luego de 25 años tendríamos esto,
Noten como aparece mayor cantidad de "1" como primer dígito, de forma "natural", casi como un efecto de los números mismos. De hecho si seguimos calculando el interés compuesto por muchos más años, llegaríamos exactamente a una distribución de Benford. Es como que se "tarda más en crecer" cuando estamos en los dígitos 1 que en los siguientes. Veámoslo gráficamente,
Si seguimos suficientes años llegamos exactamente a la distribución de Benford (y no interesa con cuanto dinero empecemos). Esto lo que quiere decir es que esta distribución de dígitos ocurre, por la forma en que una secuencia de número crece, pero como dije antes, la explicación exacta se sale del alcance de esta columna.
¿Cómo sirve esto para detectar anomalías en datos?
Si se tiene un conjunto de datos, que vienen de información que puede extenderse a grandes órdenes de magnitud, y que tienen una distribución no aleatoria, sino casi normal o exponencial, estos datos seguirán la Ley de Benford. Esta propiedad, puede servir para analizar datos publicados, y sin necesidad de saber mucho de ellos, "probar" si hay algún tipo de comportamiento en los datos que no sea "normal".
Cómo ejemplo, y que se que todos están familiarizados, utilicemos datos de nuevos casos reportados de COVID. En principio, los datos de nuevos casos siguen la distribución de Benford ver este artículo en Nature que explica).
Tomando los datos de https://www.worldometers.info/ para Costa Rica, Nicaragua y Uruguay, analicemos la ocurrencia de primeros dígitos en cada uno de estos países, y comparemos con la distribución de Benford,
En cada gráfico se muestra la distribución de los primeros dígitos de los datos reportados de nuevos casos COVID, y como referencia, la línea continua muestra la distribución de Benford. El estadístico D, que se indica en el gráfico, son Uruguay = 0.060, Costa Rica = 0.079, los cuales indican una alta correspondencia con la Ley de Benford, eso nos dice que los datos parecen estar bien.
Pero noten como los datos de Nicaragua dan un valor de 0.30, lo que indica muy poca correspondencia con la ley. Se puede decir que son "anómalos", no es normal que ocurran esos números. Sabemos que en Nicaragua el registro de datos no ha sido bueno, y este análisis muy sencillo lo que hace es confirmarlo.
Acá una aclaración, este análisis es con fines ilustrativos, y el objetivo es mostrar cómo, utilizando la Ley de Benford, se puede determinar si hay anomalías en un conjunto de datos. Ya para afirmar fraude, manipulación de datos y problemas serios de registro de datos, se deben hacer análisis mucho más completos.
A modo de conclusión, fabricar datos no es sencillo. La matemática, estadística y computación, nos ayudan a determinar si los datos están dentro de un rango esperado. El análisis de los números nos permite hacer muchas cosas, desde describir fenómenos, hasta entenderlos o hacer predicciones con ellos, y bueno, también nos sirven para ver cuando hay algo mal en ellos… ¡A estudiar bastante matemática!
Director Escuela de Sistemas Inteligentes
Universidad Cenfotec