Meta: 80TB di dati rubati per addestrare l’IA

Meta è al centro di nuove accuse riguardanti una massiccia violazione di copyright. Documenti giudiziari recentemente desecretati rivelano che l’azienda avrebbe scaricato oltre 81,7 terabyte di dati, principalmente libri, da “biblioteche ombra“ online tramite il protocollo BitTorrent.
Questi dati, secondo email interne dei dipendenti, sarebbero stati utilizzati per addestrare i modelli di intelligenza artificiale di Meta. La pratica, già nota ma mai quantificata con tale precisione, sta generando un acceso dibattito sulla legalità e l’etica dell’utilizzo di contenuti protetti da copyright per lo sviluppo dell’IA.
Le “biblioteche ombra” nel mirino
Le principali fonti dei dati scaricati illegalmente da Meta sarebbero state piattaforme come LibGen e Z-Library, note per offrire accesso gratuito a milioni di libri e articoli accademici spesso protetti da copyright. Queste piattaforme sono da tempo nel mirino di case editrici e autori per violazione della proprietà intellettuale.
La vicenda è emersa durante una causa collettiva intentata da un gruppo di autori, tra cui Richard Kadrey, Sarah Silverman e Christopher Golden, contro Meta. Gli scrittori accusano l’azienda di aver utilizzato le loro opere senza autorizzazione per addestrare i modelli di IA.
Le prove e le difficoltà
Secondo i documenti legali, Meta avrebbe scaricato almeno 35,7 terabyte di dati da Z-Library e LibGen attraverso Anna’s Archive, un aggregatore di contenuti provenienti da diverse biblioteche digitali. In precedenza, l’azienda aveva già acquisito 80,6 terabyte di dati direttamente da LibGen.
Le comunicazioni interne di Meta rivelano le difficoltà incontrate durante il processo di download: i dipendenti lamentavano la scarsità di “seeder” e le basse velocità di trasferimento, problemi tipici delle reti peer-to-peer come BitTorrent.
Preoccupazioni interne e difesa
Addirittura, alcuni dipendenti di Meta avrebbero espresso preoccupazioni sull’utilizzo di materiale “piratato”, suggerendo che tale pratica potrebbe superare la “soglia etica” dell’azienda. Inoltre, sarebbero emerse discussioni interne sulla necessità di evitare l’uso dell’infrastruttura di Facebook per il torrenting, al fine di non lasciare tracce riconducibili ai server di Meta.
La difesa di Meta si basa sul principio del “fair use” previsto dalla legge sul copyright degli Stati Uniti. L’azienda sostiene che l’utilizzo di questi dati per l’addestramento dei modelli di linguaggio di grandi dimensioni (LLM) rientri in questa categoria.
Tuttavia, gli autori contestano questa interpretazione, sostenendo che l’uso massiccio e sistematico di opere protette vada ben oltre i limiti del fair use.
Necessità di un quadro normativo chiaro
In attesa di ulteriori sviluppi legali, sembra evidente la necessità di un quadro normativo chiaro che consideri sia gli interessi dell’innovazione tecnologica sia la necessità di proteggere la proprietà intellettuale.