Wikipedia: l’impennata dei crawler IA minaccia la stabilità del sito

L’enciclopedia online più consultata al mondo, Wikipedia, si trova ad affrontare una sfida senza precedenti. Negli ultimi tre mesi, il consumo di media sulla piattaforma è schizzato in alto di circa il 50%, un incremento che non riflette un rinnovato interesse culturale degli utenti, bensì l’attività incessante dei crawler utilizzati dalle aziende di intelligenza artificiale. Questi programmi automatizzati, progettati per raccogliere dati su vasta scala, stanno esaurendo le risorse di Wikipedia, mettendo a rischio la sua fruibilità.
Un traffico insostenibile per l’infrastruttura di Wikipedia
Questo aumento esponenziale del traffico generato dai bot sta mettendo a dura prova l’infrastruttura di Wikimedia, soprattutto in occasione di eventi di grande richiamo pubblico. Un esempio recente è stato l’afflusso di visitatori durante la scomparsa dell’ex presidente Jimmy Carter, quando l’elevato interesse per la sua pagina ha causato rallentamenti significativi nel caricamento delle pagine.
Nonostante Wikipedia sia attrezzata per gestire picchi di traffico organico, l’aggiunta costante del traffico artificiale dei crawler sta sovraccaricando il sistema. La Wikimedia Foundation ha espresso preoccupazione per il volume di traffico generato dai bot, definendolo “senza precedenti” e sottolineando i “rischi e costi crescenti” associati.
I costi nascosti dell’addestramento delle IA
Il problema si aggrava a causa delle peculiarità tecniche del funzionamento della cache di Wikipedia. A differenza del traffico generato dagli utenti, che spesso accedono a pagine popolari memorizzate nella cache dei data center più vicini, i crawler tendono a esplorare anche contenuti meno frequentati. Questo comporta un maggiore ricorso al data center centrale, con un conseguente aumento dei costi per la fondazione.
Si stima che circa il 65% del traffico ad alto consumo di risorse sia attribuibile ai crawler, che non si limitano a consultare le voci più note, ma setacciano l’intero archivio di Wikipedia. La Wikimedia Foundation sta valutando nuove strategie per garantire un accesso sostenibile ai suoi contenuti, con l’obiettivo di definire limiti e tariffe per gli sviluppatori di IA entro la fine dell’anno.
Un appello alla sostenibilità
La fondazione ha ribadito che, sebbene i contenuti di Wikipedia siano gratuiti, l’infrastruttura necessaria per mantenerli online ha un costo. L’obiettivo è trovare un equilibrio tra l’accesso aperto alla conoscenza e la sostenibilità economica del progetto, garantendo che le aziende di IA contribuiscano in modo equo al mantenimento di questa risorsa globale.