OpenAI sotto accusa: nel mirino l’uso non autorizzato di libri O’Reilly per l’addestramento di GPT-4o

OpenAI sotto accusa: nel mirino l’uso non autorizzato di libri O’Reilly per l’addestramento di GPT-4o

OpenAI, la società statunitense nota per aver sviluppato ChatGPT, si trova al centro di una nuova controversia. Secondo quanto riportato dall’AI Disclosures Project, una giovane organizzazione no-profit, l’azienda potrebbe aver utilizzato senza autorizzazione una vasta raccolta di contenuti provenienti dai libri di O’Reilly Media per addestrare GPT-4o, il suo modello linguistico di ultima generazione.

Fondata dall’imprenditore Tim O’Reilly e dall’economista Ilan Strauss, l’AI Disclosures Project ha sviluppato un innovativo sistema di rilevamento denominato DE-COP, progettato per individuare la presenza di materiale protetto da copyright nei dataset utilizzati per l’addestramento delle intelligenze artificiali. La metodologia consente di confrontare testi originali scritti da esseri umani con versioni generate da modelli linguistici, evidenziando somiglianze sospette.

L’indagine ha preso in esame circa 14.000 paragrafi tratti da 34 opere pubblicate da O’Reilly Media. I risultati indicano che porzioni di questi testi risultano riconoscibili nei dati utilizzati per addestrare GPT-4o. Sebbene il metodo non sia infallibile e non possa escludere del tutto che tali contenuti siano stati inseriti da utenti durante conversazioni con ChatGPT, le evidenze suggeriscono una probabilità significativa che i libri di O’Reilly siano stati impiegati direttamente nel processo di training.

Il caso solleva ancora una volta interrogativi cruciali sull’approvvigionamento dei dati da parte delle aziende che sviluppano intelligenze artificiali. Mentre alcune realtà stipulano accordi commerciali per l’utilizzo di contenuti protetti, altre sembrano percorrere strade meno trasparenti. Situazioni analoghe hanno già coinvolto aziende come Meta, accusata di aver impiegato dati raccolti da fonti non ufficiali, inclusi testi ottenuti tramite Torrent, per addestrare i propri modelli linguistici.

In questo contesto, le aziende tecnologiche tendono a giustificare il proprio operato appellandosi al principio del “fair use”, sostenendo che l’impiego dei contenuti avviene in modo trasformativo e pertanto lecito. Tuttavia, questa interpretazione è oggetto di contestazione da parte di autori ed editori, che vedono minacciati i propri diritti. Numerose sono infatti le cause legali già avviate, tra cui quella del New York Times, che ha citato in giudizio OpenAI e Microsoft per l’utilizzo non autorizzato dei propri articoli.

La questione del fair use applicato all’intelligenza artificiale resta una delle aree più controverse del dibattito attuale. Il caso sollevato dall’AI Disclosures Project alimenta ulteriormente le tensioni tra il settore dell’editoria e quello dell’intelligenza artificiale, dimostrando quanto sia ancora aperto e complesso il confronto sui limiti e le responsabilità nell’utilizzo dei dati per l’addestramento dei modelli generativi.

Il dibattito, insomma, è tutt’altro che concluso.

L’articolo OpenAI ha “mangiato” i libri di O’Reilly per ChatGPT? La nuova accusa fa discutere proviene da CorriereNerd.it.

Lascia un commento