Llms e copyright: possono davvero "dimenticare" i libri che hanno letto?

Estraibile il 95,8% di un libro da Claude 3.7 con jailbreak.
Gemini 2.5 Pro: nv-recall del 76,8% senza jailbreak.
Llama 3.1 70B memorizza quasi interamente "Harry Potter".

## L’estrazione di libri dai modelli linguistici di produzione: una sfida alla protezione del copyright?

Un recente studio di Stanford ha sollevato questioni cruciali riguardo alla memorizzazione e all’estrazione di materiale protetto da copyright dai modelli linguistici di grandi dimensioni (LLM). La ricerca mette in discussione una delle principali difese degli LLM contro l’accusa di violazione del copyright: la capacità di generare nuovi contenuti “da zero” che, per coincidenza e grazie all’ingegneria dei prompt, risultano massicciamente simili a opere preesistenti.

La domanda centrale è se un LLM che replica una porzione significativa di un libro protetto da copyright stia effettivamente “conoscendo” il libro e riproducendolo, o se stia generando autonomamente contenuti originali. La risposta a questa domanda ha implicazioni significative per le cause legali sul copyright che coinvolgono l’intelligenza artificiale generativa.

## Dettagli dello studio: estrazione di libri da LLM

Lo studio ha esaminato la fattibilità dell’estrazione di testi da quattro LLM di produzione: Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro e Grok 3. I ricercatori hanno utilizzato una procedura in due fasi:

1. *Fase 1: Probing iniziale. Questa fase mirava a testare la fattibilità dell’estrazione, a volte utilizzando tecniche di “jailbreak” (Best-of-N, BoN) per aggirare le misure di sicurezza dei modelli.
2. Fase 2: Prompt di continuazione iterativa. In questa fase, i ricercatori hanno utilizzato prompt iterativi per tentare di estrarre l’intero libro.
Il successo dell’estrazione è stato misurato utilizzando un punteggio basato su un’approssimazione a blocchi della sottostringa comune più lunga (nv-recall). I risultati hanno mostrato che è possibile estrarre quantità variabili di testo da tutti e quattro gli LLM.

Per Gemini 2.5 Pro e Grok 3, non è stato necessario utilizzare tecniche di jailbreak per estrarre testo (ad esempio, nv-recall del 76,8% e del 70,3%, rispettivamente, per “Harry Potter e la pietra filosofale”).
Per Claude 3.7 Sonnet e GPT-4.1, è stato necessario utilizzare tecniche di jailbreak. In alcuni casi, Claude 3.7 Sonnet, dopo essere stato sottoposto a jailbreak, ha prodotto interi libri quasi testualmente (ad esempio, nv-recall = 95,8%).
GPT-4.1 ha richiesto un numero significativamente maggiore di tentativi BoN (ad esempio, 20 volte) e alla fine si è rifiutato di continuare (ad esempio, nv-recall = 4,0%).

Lo studio ha evidenziato che, anche con le misure di sicurezza a livello di modello e di sistema, l’estrazione di dati di addestramento protetti da copyright rimane un rischio per gli LLM di produzione.

## Memorizzazione e copyright: un legame complesso

La questione della memorizzazione è centrale nelle cause legali sul copyright che coinvolgono l’IA generativa. I querelanti sostengono spesso che gli LLM hanno memorizzato espressioni protette da copyright, mentre i convenuti affermano il contrario. Lo studio di Stanford dimostra che la relazione tra memorizzazione e copyright è complessa e non può essere semplificata in posizioni polarizzate.

I ricercatori hanno utilizzato una tecnica di estrazione probabilistica per estrarre parti del dataset Books3 da 17 LLM open-weight. I risultati hanno mostrato che è possibile estrarre parti significative di almeno alcuni libri da diversi LLM, il che indica che questi modelli hanno memorizzato il testo estratto. Tuttavia, l’entità della memorizzazione varia sia in base al modello che al libro.

Ad esempio, Llama 3.1 70B ha memorizzato quasi interamente alcuni libri, come “Harry Potter e la pietra filosofale” e “1984”. In effetti, “Harry Potter” è così ben memorizzato che, utilizzando un prompt iniziale costituito solo dalla prima riga del capitolo 1, è possibile generare deterministicamente l’intero libro quasi testualmente.

## Implicazioni legali e sfide future

I risultati dello studio hanno implicazioni significative per le cause legali sul copyright, anche se non favoriscono inequivocabilmente nessuna delle due parti. La facilità con cui è possibile estrarre materiale protetto da copyright dagli LLM è un fattore importante da considerare nel valutare se la riproduzione di tali opere costituisca una violazione del copyright o rientri in eccezioni come il “fair use”.

Lo studio solleva anche interrogativi sulla responsabilità dei fornitori di LLM nel proteggere i dati di addestramento protetti da copyright. Mentre le aziende stanno sviluppando e perfezionando approcci per prevenire la perdita di dati di addestramento nei risultati del sistema, l’estrazione rimane un rischio.

## Salvaguardie e Responsabilità: Un Equilibrio Precario

La questione centrale, come spesso accade, non è tanto la capacità tecnica, quanto la responsabilità nell’uso di tali capacità. Se da un lato è vero che gli LLM possono “memorizzare” e potenzialmente riprodurre materiale protetto da copyright, dall’altro è altrettanto vero che la loro creazione si basa su un’enorme quantità di dati, molti dei quali sono inevitabilmente soggetti a copyright.

Il punto cruciale è stabilire un equilibrio tra l’innovazione tecnologica e la protezione dei diritti d’autore. Le aziende che sviluppano LLM devono implementare salvaguardie robuste per prevenire l’estrazione non autorizzata di materiale protetto, ma allo stesso tempo non si può soffocare l’innovazione imponendo restrizioni eccessive sull’uso dei dati.

Un approccio equilibrato potrebbe consistere nell’utilizzare tecniche di anonimizzazione e offuscamento dei dati per ridurre il rischio di memorizzazione e riproduzione di materiale protetto da copyright, pur consentendo agli LLM di apprendere e generare nuovi contenuti.

Inoltre, è fondamentale promuovere una maggiore trasparenza riguardo ai dati di addestramento utilizzati per creare gli LLM. Ciò consentirebbe ai titolari dei diritti d’autore di valutare il rischio di violazione del copyright e di adottare misure appropriate per proteggere le proprie opere.

*Nozioni di base sull’automazione e la scalabilità: L’automazione, in questo contesto, si riferisce alla capacità degli LLM di generare testo in modo autonomo, riducendo la necessità di intervento umano. La scalabilità produttiva implica la capacità di addestrare e implementare LLM su larga scala, rendendoli accessibili a un vasto pubblico.

Nozioni avanzate: Tecniche come il “federated learning” potrebbero consentire l’addestramento di LLM su dati distribuiti senza la necessità di centralizzare i dati stessi, riducendo così il rischio di violazione del copyright.

Riflessione personale:* La questione del copyright nell’era dell’IA generativa è complessa e richiede un approccio ponderato. È necessario trovare un equilibrio tra l’innovazione tecnologica e la protezione dei diritti d’autore, al fine di garantire che l’IA generativa possa essere utilizzata in modo responsabile e sostenibile.

Per approfondire:

Articolo e immagini generati dall’AI, senza interventi da parte dell’essere umano. Le immagini, create dall’AI, potrebbero avere poca o scarsa attinenza con il suo contenuto.(scopri di più)