Meta: 80TB di dati rubati per addestrare l’IA

Salvatore L.8 Febbraio 2025

0 828

Meta è al centro di nuove accuse riguardanti una massiccia violazione di copyright. Documenti giudiziari recentemente desecretati rivelano che l’azienda avrebbe scaricato oltre 81,7 terabyte di dati, principalmente libri, da “biblioteche ombra“ online tramite il protocollo BitTorrent.

Questi dati, secondo email interne dei dipendenti, sarebbero stati utilizzati per addestrare i modelli di intelligenza artificiale di Meta. La pratica, già nota ma mai quantificata con tale precisione, sta generando un acceso dibattito sulla legalità e l’etica dell’utilizzo di contenuti protetti da copyright per lo sviluppo dell’IA.

Le “biblioteche ombra” nel mirino

Le principali fonti dei dati scaricati illegalmente da Meta sarebbero state piattaforme come LibGen e Z-Library, note per offrire accesso gratuito a milioni di libri e articoli accademici spesso protetti da copyright. Queste piattaforme sono da tempo nel mirino di case editrici e autori per violazione della proprietà intellettuale.

La vicenda è emersa durante una causa collettiva intentata da un gruppo di autori, tra cui Richard Kadrey, Sarah Silverman e Christopher Golden, contro Meta. Gli scrittori accusano l’azienda di aver utilizzato le loro opere senza autorizzazione per addestrare i modelli di IA.

Le prove e le difficoltà

Secondo i documenti legali, Meta avrebbe scaricato almeno 35,7 terabyte di dati da Z-Library e LibGen attraverso Anna’s Archive, un aggregatore di contenuti provenienti da diverse biblioteche digitali. In precedenza, l’azienda aveva già acquisito 80,6 terabyte di dati direttamente da LibGen.

Le comunicazioni interne di Meta rivelano le difficoltà incontrate durante il processo di download: i dipendenti lamentavano la scarsità di “seeder” e le basse velocità di trasferimento, problemi tipici delle reti peer-to-peer come BitTorrent.

Preoccupazioni interne e difesa

Addirittura, alcuni dipendenti di Meta avrebbero espresso preoccupazioni sull’utilizzo di materiale “piratato”, suggerendo che tale pratica potrebbe superare la “soglia etica” dell’azienda. Inoltre, sarebbero emerse discussioni interne sulla necessità di evitare l’uso dell’infrastruttura di Facebook per il torrenting, al fine di non lasciare tracce riconducibili ai server di Meta.

La difesa di Meta si basa sul principio del “fair use” previsto dalla legge sul copyright degli Stati Uniti. L’azienda sostiene che l’utilizzo di questi dati per l’addestramento dei modelli di linguaggio di grandi dimensioni (LLM) rientri in questa categoria.

Tuttavia, gli autori contestano questa interpretazione, sostenendo che l’uso massiccio e sistematico di opere protette vada ben oltre i limiti del fair use.

Necessità di un quadro normativo chiaro

In attesa di ulteriori sviluppi legali, sembra evidente la necessità di un quadro normativo chiaro che consideri sia gli interessi dell’innovazione tecnologica sia la necessità di proteggere la proprietà intellettuale.

Tag

Salvatore L.8 Febbraio 2025

0 828

Le “biblioteche ombra” nel mirino

Le prove e le difficoltà

Preoccupazioni interne e difesa

Necessità di un quadro normativo chiaro

Salvatore L.

Articoli Correlati

Android 4.4 prenderà il nome di KitKat?

Su Amazon gli sconti sui prodotti di Vactidy

Razer Hammerhead PRO Hyperspeed disponibili

Ecco la nuova Razer HUNTSMAN V2

Lascia un commento Annulla risposta