La ley Zipf, formulada en los años 30 por el lingüista estadounidense George Kingsley Zipf, ha sido demostrada por primera vez por investigadores del Centre de Recerca Matemàtica y de la Universidad Autónoma de Barcelona. Una noticia que ya ha dado la vuelta al mundo y que lleva a otro nivel el contenido de los libros.

Se trata de uno de los principios matemáticos más vapuleados del siglo XX, y es que la ley de Zipf, formulada en los años 30 por el lingüista George Kingsley Zipf, determina que la palabra más frecuente de un texto aparece el doble de veces que la siguiente más frecuente, tres veces más que la tercera más frecuente, cuatro veces más que la cuarta más frecuente, y así sucesivamente.

Por primera vez, investigadores españoles han conseguido comprobar este principio con todo el rigor matemático que se merece y con una base de datos suficiente como para dar a esta ley validez estadística.

Aunque el principio se puede aplicar en muchos otros campos, no sólo en la literatura, hasta ahora ha carecido de este tipo de comprobación, que no había ido más allá que de una docena de textos. El estudio se enmarca dentro del proyecto “Investigación en Matemática Colaborativa” impulsado por la Obra Social “la Caixa”, y ha sido reconocido por las publicaciones más prestigiosas del sector de la lingüística en todo el mundo.

El equipo investigador ha utilizado la colección de textos que componen el proyecto Gutenberg, una conocida base de datos pública y gratuita, que cuenta con más de 30.000 obras en lengua inglesa.

Si dejamos a un lado aquellas palabras que se consideran menos habituales, o que sólo salen entre una y dos veces en el libro, más de la mitad de los textos se ajustan a la ley de Zipf, aunque si se tienen en cuenta todas las palabras, el porcentaje cae hasta 15 puntos.

Álvaro Corral, investigador del CRM adscrito al Departamento de Matemáticas de la UAB y coordinador de la investigación, se ha mostrado muy sorprendido ante el hecho de que “la frecuencia de aparición de las palabras esté determinada por una fórmula con un solo parámetro libre. La famosa campana de Gauss, por ejemplo, ya necesita dos, posición y anchura, para ajustarse a los datos reales”.

“Si descartásemos palabras que aparecen 3, 4 ó 5 veces en toda una obra, la proporción de libros que siguen la ley de Zipf podría llegar a porcentajes aún más altos”, explica el experto.

“Aunque la literatura se considera una de las expresiones por antonomasia de la libertad creadora, ni los más grandes autores como Shakespeare o Dickens escapan a la tiranía de la ley de Zipf”, comenta Corral, para quien este principio “ha generado mucho debate, pero siempre basando su validez en algunos ejemplos particulares”.

“Parece evidente que, en la actual era del Big Data y de los ordenadores de altas prestaciones, se deberán enfocar los esfuerzos en el análisis de la ley a gran escala, y estos resultados son un primer paso en esta dirección”, concluye el coordinador del estudio.

fuente: APPdeLibros