E-Mail: [email protected]
- Llama 3.1 riproduce il 91% di 'Harry Potter e la Pietra Filosofale'.
- Studio: IA 'memorizza' libri, non solo 'remixa' materiale esistente.
- OpenAI: memorizzazione è un 'raro fallimento' del processo di apprendimento.
Un recente studio condotto da ricercatori di Stanford, Cornell e West Virginia University ha rivelato che una versione del modello di intelligenza artificiale di Meta, Llama 3.1, sembra aver memorizzato porzioni significative di opere letterarie, tra cui quasi l’intero primo libro di Harry Potter. Questa scoperta solleva importanti interrogativi sul copyright e potrebbe avere un impatto significativo sugli autori e sui creativi, già coinvolti in azioni legali collettive contro Meta.
I ricercatori hanno testato diversi modelli linguistici di grandi dimensioni (LLM) disponibili gratuitamente per valutare la percentuale di 56 libri diversi che erano in grado di riprodurre. Hanno fornito ai modelli brevi frammenti di testo tratti da questi libri e hanno misurato la loro capacità di recitare le righe successive. I titoli includevano un campionamento casuale di opere popolari, meno conosciute e di pubblico dominio, tratte dal controverso dataset Books3, utilizzato da Meta per addestrare i suoi modelli, nonché libri di autori che hanno intentato una causa contro Meta.

Implicazioni Legali e la Natura dell’IA
Mark A. Lemley, uno degli autori dello studio, sottolinea che questa scoperta potrebbe avere implicazioni significative. Le aziende di intelligenza artificiale sostengono che i loro modelli sono generativi, ovvero creano contenuti nuovi, piuttosto che essere semplici motori di ricerca avanzati. D’altra parte, autori ed editori stanno intentando cause sostenendo che l’IA si limita a remixare materiale esistente, compreso materiale protetto da copyright. Lo studio suggerisce che nessuna di queste caratterizzazioni è completamente accurata.
La ricerca dimostra che la capacità di Llama 3.1 70B di recitare passaggi da Harry Potter e la Pietra Filosofale e 1984, tra gli altri libri, è significativamente superiore a quanto potrebbe accadere per caso. Questo potrebbe indicare che gli LLM non vengono solo addestrati utilizzando libri, ma potrebbero effettivamente memorizzare intere copie dei libri stessi. In base alla legge sul copyright, ciò potrebbe significare che il modello è meno “ispirato da” e più “una copia illegale di” determinati testi.
- 🚀 Llama 3.1 e Harry Potter: una svolta per l'IA......
- 😠 Questa memorizzazione di Harry Potter è inaccettabile! Bisogna......
- 🤔 E se la "memorizzazione" fosse in realtà un nuovo modo......
Il Metodo di Estrazione e la “Memorizzazione”
Dimostrare che un modello ha “memorizzato” qualcosa è complesso, poiché è difficile esaminarne il funzionamento interno. Gli LLM vengono addestrati utilizzando le relazioni matematiche tra piccoli blocchi di dati chiamati “token”, come parole o segni di punteggiatura. I token hanno tutti probabilità variabili di seguirsi o di essere concatenati in un ordine specifico.
I ricercatori sono stati in grado di estrarre sezioni di vari libri sollecitando ripetutamente i modelli con righe selezionate. Hanno diviso ogni libro in stringhe sovrapposte di 100 token, quindi hanno presentato al modello la prima metà di 50 token e hanno misurato la sua capacità di produrre la seconda metà. Questo processo, ripetuto più volte, ha permesso di riprodurre il 91% di Harry Potter e la Pietra Filosofale. James Grimmelmann, professore di diritto digitale e dell’informazione alla Cornell, ha affermato che è altamente improbabile che il modello possa indovinare correttamente le successive 50 parole se non le avesse memorizzate.
OpenAI ha definito la memorizzazione “un raro fallimento del processo di apprendimento” e afferma che a volte si verifica quando l’argomento in questione compare molte volte nei dati di addestramento. L’azienda ha anche dichiarato che indurre intenzionalmente i suoi LLM a riprodurre dati memorizzati “non è un uso appropriato della nostra tecnologia ed è contrario ai nostri termini di utilizzo”.
Conseguenze e Prospettive Future
Gli autori dello studio suggeriscono che, se il modello memorizza un libro, il modello stesso potrebbe essere considerato letteralmente “una” copia del libro. In tal caso, la distribuzione dell’LLM potrebbe essere legalmente equivalente alla pirateria di un DVD. Un tribunale potrebbe quindi ordinare la distruzione del modello stesso, come avviene con i set di film piratati. Questo non è mai successo nel campo dell’IA e potrebbe non essere possibile, data la diffusione di questi modelli.
Lo studio ha rilevato che diversi modelli Llama avevano memorizzato quantità molto variabili dei libri testati. Alcuni modelli erano eccellenti nel rigurgitare informazioni, mentre altri no, il che significa che le scelte specifiche fatte nell’addestramento della versione 3.1 70B avevano portato alla memorizzazione. Questo potrebbe essere dovuto alla scelta di non rimuovere i dati di addestramento duplicati o al fatto che Harry Potter e 1984 sono libri molto popolari online. A titolo di confronto, i ricercatori hanno scoperto che i libri di Game of Thrones erano altamente memorizzati, mentre i libri di Twilight non lo erano affatto.
Grimmelmann ritiene che questi risultati potrebbero essere positivi per coloro che cercano di regolamentare le aziende di IA. Se i tribunali si pronunciassero contro la memorizzazione estensiva, si potrebbe riservare un trattamento legale migliore alle aziende che hanno mitigato o impedito tale fenomeno rispetto a quelle che non lo hanno fatto. Si potrebbe stabilire che, se un modello memorizza più di una certa quantità di un libro, ciò costituisce violazione del copyright. Spetterebbe quindi alle aziende trovare il modo di garantire che i loro modelli non memorizzino più di quella quantità.
Verso un Futuro dell’IA Più Responsabile: Riflessioni sull’Automazione e la Scalabilità
L’emergere di modelli di intelligenza artificiale capaci di memorizzare e riprodurre vaste quantità di testo solleva questioni cruciali sull’automazione e la scalabilità della produzione di contenuti. Da un lato, l’automazione promette di accelerare la creazione di opere letterarie e artistiche, aprendo nuove frontiere per la creatività. Dall’altro, la memorizzazione di opere protette da copyright da parte di modelli di IA solleva interrogativi sulla proprietà intellettuale e sulla necessità di regolamentare l’uso di tali tecnologie.
Un concetto base di automazione applicabile a questo scenario è la necessità di implementare sistemi di controllo e verifica per garantire che i modelli di IA non violino il copyright. Un concetto avanzato potrebbe consistere nello sviluppo di algoritmi in grado di distinguere tra la memorizzazione di un’opera e l’ispirazione creativa, consentendo ai modelli di IA di generare contenuti originali senza incorrere in violazioni legali.
Riflettiamo: fino a che punto siamo disposti a spingere l’automazione nella creazione di contenuti, e quali misure dobbiamo adottare per proteggere i diritti degli autori e dei creativi nell’era dell’intelligenza artificiale?