Deepseek Ai: come superare i limiti dei modelli linguistici?

Mhc migliora la stabilità dei modelli fino a 27b parametri.
Guadagni di performance del 2.1% su bbh con mhc.
Incremento del 2.3% su drop rispetto a hc.

## Manifold-Constrained Hyper-Connections: DeepSeek AI Rivoluziona la Scalabilità dei Modelli Linguistici

DeepSeek AI torna a far parlare di sé con un nuovo framework architetturale, *Manifold-Constrained Hyper-Connections (mHC), progettato per affrontare le sfide di instabilità durante l’addestramento di modelli linguistici di grandi dimensioni. La soluzione proposta si concentra sull’ottimizzazione delle connessioni iperconnesse, un’evoluzione delle tradizionali connessioni residue, per garantire una maggiore scalabilità e ridurre il carico computazionale.

## Il Problema delle Hyper-Connections e la Soluzione mHC

Le Hyper-Connections (HC), introdotte come estensione delle connessioni residue, mirano a migliorare le prestazioni dei modelli espandendo la larghezza del flusso residuo e diversificando gli schemi di connettività. Tuttavia, questa diversificazione compromette l’identity mapping property, una caratteristica intrinseca delle connessioni residue che garantisce la stabilità durante l’addestramento. La perdita di questa proprietà porta a instabilità, limitazioni nella scalabilità e un aumento del memory access overhead.

Per risolvere questi problemi, DeepSeek AI ha sviluppato mHC, un framework che proietta lo spazio delle connessioni residue di HC su un manifold specifico per ripristinare l’identity mapping property. Questo approccio, combinato con un’ottimizzazione rigorosa dell’infrastruttura, garantisce efficienza e scalabilità.

## Dettagli Tecnici e Implementazione

Il framework mHC affronta le limitazioni delle HC attraverso un approccio duale: un design architetturale vincolato al manifold e un’ottimizzazione rigorosa dell’infrastruttura. L’innovazione chiave consiste nel vincolare il mapping residuo apprendibile HreslH_{res}^l a giacere sul Birkhoff polytope, il manifold delle matrici doppiamente stocastiche. Una matrice doppiamente stocastica ha voci non negative dove sia le righe che le colonne sommano a 1.

Questo vincolo è ottenuto attraverso l’algoritmo Sinkhorn-Knopp, che normalizza iterativamente righe e colonne per imporre la proprietà doppiamente stocastica. Tale vincolo fornisce diverse garanzie teoriche:

Norm Preservation: La norma spettrale è limitata da 1 (||Hresl||2<=1|H_{res}^l|_2 leq 1), assicurando mapping non espansivi.
Compositional Closure: Il prodotto di matrici doppiamente stocastiche rimane doppiamente stocastico, garantendo stabilità end-to-end.
Identity Recovery: Quando il tasso di espansione n=1n=1, il vincolo degenera naturalmente a scalare 1, recuperando l’identity mapping originale.

Inoltre, i mapping di input e output sono vincolati alla non-negatività:
PMpre(Hprel)=?(H~prel+bprel)P_M^{pre}(H_{pre}^l) = sigma(tilde{H}_{pre}^l + b_{pre}^l)
PMpost(Hpostl)=2·?(H~postl+bpostl)P_M^{post}(H_{post}^l) = 2 cdot sigma(tilde{H}_{post}^l + b_{post}^l)

dove ?sigma è la funzione sigmoide, prevenendo la cancellazione del segnale attraverso coefficienti positivi e negativi misti.

Per affrontare l’overhead di sistema, mHC incorpora diverse strategie di ottimizzazione:
Kernel Fusion: Kernel personalizzati implementati utilizzando TileLang fondono più operazioni con accesso alla memoria condivisa, riducendo i colli di bottiglia della larghezza di banda della memoria.
Selective Recomputation: Le attivazioni intermedie vengono scartate dopo il forward pass e ricalcolate durante il backward pass per blocchi di LrL_r layer consecutivi, bilanciando l’utilizzo della memoria e l’overhead computazionale.
* Communication Overlapping: Nel parallelismo della pipeline, i calcoli vengono eseguiti su stream dedicati ad alta priorità per prevenire la comunicazione di blocco, mantenendo un elevato utilizzo delle unità di calcolo.

## Risultati Sperimentali e Scalabilità

La validazione sperimentale si concentra sul pre-training del modello linguistico utilizzando architetture MoE, con modelli che vanno da 3B a 27B parametri. Tutti gli esperimenti utilizzano un tasso di espansione n=4n=4 sia per HC che per mHC. I risultati dimostrano che mHC offre miglioramenti significativi nella stabilità rispetto a HC non vincolato. Mentre HC mostra inaspettati picchi di perdita intorno a 12.000 passaggi per un modello da 27B e norme di gradiente irregolari, mHC mantiene profili di perdita stabili e un comportamento del gradiente paragonabile ai modelli di base.

Su otto diversi benchmark (BBH, DROP, GSM8K, HellaSwag, MATH, MMLU, PIQA, TriviaQA), mHC supera costantemente sia i modelli di base che HC non vincolato. In particolare, mHC mostra capacità di ragionamento avanzate con guadagni di performance del 2.1% su BBH e del 2.3% su DROP rispetto a HC per il modello da 27B, suggerendo che un addestramento stabile consente un migliore utilizzo dell’espressività del flusso residuo espanso.

## Verso un Futuro di Modelli Fondazionali Più Stabili e Scalabili
mHC rappresenta un passo avanti significativo nella progettazione di architetture neurali, colmando il divario tra innovazione architetturale e scalabilità pratica. Fornendo un framework basato su principi per vincolare le connessioni diversificate mantenendo i loro vantaggi di espressività, mHC consente l’applicazione pratica di progetti macro-architetturali avanzati a modelli fondazionali di grandi dimensioni.

## Riflessioni sull’Automazione e la Trasformazione Digitale
L’automazione, in questo contesto, non è solo una questione di eseguire compiti più velocemente, ma di progettare sistemi che si auto-stabilizzino e si adattino alle sfide della scalabilità. La trasformazione digitale richiede un approccio olistico che consideri sia l’architettura del modello che l’infrastruttura di supporto.

Una nozione base di automazione qui è l’utilizzo di algoritmi come Sinkhorn-Knopp per imporre vincoli matematici che stabilizzano il processo di apprendimento. Una nozione avanzata è la co-progettazione di architetture e sistemi, dove le ottimizzazioni dell’infrastruttura sono integrate nel design del modello per massimizzare l’efficienza.
Riflettiamo: quanto spesso ci concentriamo solo sull’innovazione architetturale, trascurando l’importanza dell’infrastruttura e della stabilità? Forse è il momento di adottare un approccio più equilibrato, dove la scalabilità e l’affidabilità sono considerate fin dall’inizio, non come un ripensamento.

Per approfondire:

Articolo e immagini generati dall’AI, senza interventi da parte dell’essere umano. Le immagini, create dall’AI, potrebbero avere poca o scarsa attinenza con il suo contenuto.(scopri di più)