Tecnología

Wikimedia alerta de los problemas que generan los bots que arrasan con el contenido de su catálogo

06 de abril de 2025

El ancho de banda vinculado a las descargas de contenido de Wikimedia han crecido un 50 por ciento en el último año, un tráfico que la fundación identifica en programas automatizados para su uso en el entrenamiento de modelos de inteligencia artificial (IA).

Wikimedia Commons acoge un catálogo de 144 millones de imágenes, vídeos y otros archivos de dominio público que cualquiera puede usar de manera gratuita, incluso modificar, siempre que se cite al autor.

La demanda de estos contenidos ha crecido desde enero de 2024. El ancho de banda que se utiliza para descargarlos ha aumentado un 50 por ciento en este tiempo, con picos en momentos puntuales como las elecciones presidenciales de Estados Unidos y la muerte del expresidente estadounidense Jimmy Carter.

Aunque la infraestructura de Wikimedia Commons puede soportar picos puntuales de demanda, no lleva tan bien el incremento de las descargas de contenido, que ya ha generado ralentización en el servicio en algunas ocasiones.

Sin embargo, como ha denunciado Fundación Wikimedia, detrás de este incremento se encuentran los ‘bots’ que recogen contenidos de internet con el fin de alimentar los modelos de IA, según explica en su blog oficial.

Estos ‘bots’, además, muestran un comportamiento particular, ya que si bien los usuarios humanos tienden a buscar contenidos sobre temas específicos, “los robots rastreadores suelen leer un mayor número de páginas y visitar también las menos populares”, que consume más recursos, al requerir que las peticiones lleguen al centro de datos principal y no solo al centro de datos más cercano.

De hecho, y según la fundación, “al menos el 65% de este tráfico proviene de ‘bots’, una cantidad desproporcionada considerando que las visitas totales a la página causadas por bots representan aproximadamente el 35% del total”.

Esta situación se traduce en más tiempo y recursos dedicados a responder al tráfico no humano y, en consecuencia, en un mayor coste de uso y mantenimiento de las infraestructuras.

Por ello, Fundación Wikimedia ha llamado la atención sobre el hecho de que su contenido es gratuito, pero su infraestructura no, y ha informado de que están trabajando para abordar los interrogantes que plantea la situación.