La ley de Zipf. Las matemáticas de los idiomas

 

Hay un antiguo libro manuscrito, escrito sobre 272 páginas de pergamino que se ha datado sobre el año 1400 sumamente vistoso y con ilustraciones sumamente bellas. El libro se llama Manuscrito Voynich y a tenor de los dibujos parece ser que habla de botánica, recetas, cosmología, farmacia.

Una imagen de uno de los textos del Manuscrito de Voynich

Y digo que «parece ser que habla», porque nadie entiende ni una sola de las palabras con las que está escrito esta misteriosa obra. Hasta la fecha, el idioma en el que está escrito permanece oculto para todo el mundo, a pesar de haber sido objeto de un intenso estudio desde hace ya muchos años atrás.

Después de tantos esfuerzos baldíos sin obtener ni un solo resultado se llegó a pensar que podría tratarse de una elaborada broma, que las desconocidas palabras escritas que aparecen en él son simples símbolos al azar que no significan nada.

Pero los minuciosos análisis realizados, tratando de entender algo, de encontrar alguna regularidad a la que agarrarse y poder, a partir de ella, desenmascarar el enigma, han hecho que saliera a la luz algo completamente asombroso:

en las agrupaciones de símbolos que aparentemente deben ser palabras, la palabra que más aparece en el texto lo hace el doble de veces que la segunda palabra que más aparece, el triple de veces que la tercera palabra que más aparece, el cuádruple de veces que la cuarta palabra que más aparece y así sucesivamente.

Es decir, este incompresible, ininteligible e inquietante manuscrito parece estar construido siguiendo un proceso de ordenación matemática de sus elementos. Todos los símbolos siguen frecuencias de aparición proporcionales a números enteros. Esto es la música de la que hablaba Pitágoras, ¿te das cuenta?

¿Qué es esto? ¿Se trata de una lengua real que se ha perdido? ¿Es esto un juego preparado por su genial autor que desde el pasado nos quiere enfrentar al reto de descubrir qué significa su obra?¿Suponiendo que los textos tengan sentido, cómo es posible escribir decenas de miles de palabras escritas en una lengua, desconocida para nosotros de momento, y que todas estén escritas siguiendo tal maravillosa relación?

Puede que muchos de vosotros estéis sintiendo ahora cierta curiosidad en saber cómo sonaría esta armoniosa lengua, en la cadencia de cada frase siguiendo esta escricta pauta matemática:

la palabra que más aparece lo hace el doble de veces que la segunda palabra más usada, el triple de veces que la tercera palabra más popular y así sucesivamente.

Pues, querido amigo, querida amiga, quiero darte el placer de decirte que tu idioma, la lengua en la que te desenvuelves cada día, que supongo que es el español, sigue esa precisa pauta matemática.

Y no sólo eso. Sea cual sea la lengua en la que te expreses, la relación entre la frecuencia de aparición de los vocablos usados en el día a día, en cada diálogo, en cada libro, en cada medio, está determinada de la misma manera.

De forma matemática, podemos decir que  para cualquier lengua real, la frecuencia de aparición de las palabras siguen la siguiente relación, llamada Ley de Zipf:

F_{n}=1/n
en donde F_{n} es la cantidad de veces que aparece una palabra que está en la posición n del ranking de las palabras que más aparecen en cierta lengua.

Por ejemplo, la palabra hombre está en el puesto 135 en el ranking de las palabras más usadas en español. Eso significa que la frecuencia con la que aparece hombre es, con respecto a la primera palabra de del ranking (que es de)

F_{135}=1/135,

es decir, la palabra más usada del español, la preposición de aparece 135 más veces que la palabra hombre.

La conclusión fundamental que podemos sacar de lo observado en el Manuscrito de Voynich es que se trata de una lengua real, sea lo que fuere el significado de los textos que hay en los pergaminos.

 

Ley de Zipf

Imagen de la Ley de Zipf

Ley de Zipf es seguida por todas las lenguas habladas por los seres humanos de este planeta, es la seña de identidad de una lengua real.

Se trata de una ley empírica dentro del ámbito de la matemática estadística que es usada en otros ámbitos más allá de la lingüística: describe muchos otros fenómenos en diversos campos del conocimiento, desde la física hasta la sociología.

Intenta predecir la frecuencia en la que se da cierto fenómemo.

La Ley de Zipf fue formulada por primera vez por el linguista George Kingsley Zipf, un profesor de la Universidad de Harvard.

El descubridor de la Ley de Zipf

 

Ley de Zipf y la población de las ciudades

 

La Ley de Zipf, por ejemplo, ha sido capaz de predecir qué relación guardan entre sí las poblaciones de las ciudades más grandes.

Un ejemplo concreto:

En 2010, el número de habitantes de New York era de 8175133 habitantes. La segunda ciudad más grande, Los Ángeles, tenía una población de 3792621. Las siguientes ciudades por población eran Chicago con 2695598, Houston, con 22100263 y Filadelfia con 1526006 habitantes.

La Ley de Zipf es una ley estadística, es decir la exactitud no es absoluta, pero el hecho de predeir de forma notable cuál es la población de las ciudades norteamericanas sabiendo simplemente la población de la mayor de todas, New York, es algo espectacular.

Otros casos en donde se verifica esta ley estadística son:

  • El tamaño de las grandes corporaciones
  • Los ingresos de las personas más ricas del mundo
  • Las audiencias en los programas de televisión
  • Las jugadas más usadas en el ajedrez
  • Los apellidos de las personas