Fine-tuning vs. apprendimento contestuale: una nuova ricerca guida una migliore personalizzazione dell'LLM per attività del mondo reale

Iscriviti alle nostre newsletter giornaliere e settimanali per ricevere gli ultimi aggiornamenti e contenuti esclusivi sulla copertura leader del settore dell'intelligenza artificiale. Scopri di più
Due approcci popolari per la personalizzazione di modelli linguistici di grandi dimensioni (LLM) per le attività a valle sono il fine-tuning e l'apprendimento contestuale (ICL). In un recente studio , i ricercatori di Google DeepMind e della Stanford University hanno esplorato le capacità di generalizzazione di questi due metodi. Hanno scoperto che l'ICL ha una maggiore capacità di generalizzazione (sebbene comporti un costo di calcolo maggiore durante l'inferenza). Propongono inoltre un nuovo approccio per ottenere il meglio da entrambi i mondi.
I risultati possono aiutare gli sviluppatori a prendere decisioni cruciali durante la creazione di applicazioni LLM per i loro dati aziendali personalizzati.
Il fine-tuning consiste nell'utilizzare un LLM pre-addestrato e addestrarlo ulteriormente su un set di dati più piccolo e specializzato. Questo modifica i parametri interni del modello per insegnargli nuove conoscenze o competenze. L'apprendimento contestuale (ICL), invece, non modifica i parametri sottostanti del modello. Piuttosto, guida l'LLM fornendo esempi dell'attività desiderata direttamente all'interno del prompt di input. Il modello utilizza quindi questi esempi per capire come gestire una nuova query simile.
I ricercatori si sono prefissati di confrontare rigorosamente l'efficacia della generalizzazione dei modelli a nuovi compiti utilizzando questi due metodi. Hanno costruito "dataset sintetici controllati di conoscenza fattuale" con strutture complesse e autoconsistenti, come alberi genealogici immaginari o gerarchie di concetti fittizi.
Per assicurarsi di testare la capacità del modello di apprendere nuove informazioni, hanno sostituito tutti i nomi, gli aggettivi e i verbi con termini senza senso, evitando qualsiasi sovrapposizione con i dati che gli LLM avrebbero potuto incontrare durante la fase di pre-addestramento.
I modelli sono stati poi testati su varie sfide di generalizzazione. Ad esempio, un test prevedeva semplici inversioni . Se un modello veniva addestrato con l'affermazione "i femp sono più pericolosi dei glon", poteva dedurre correttamente che "i glon sono meno pericolosi dei femp"? Un altro test si concentrava su semplici sillogismi , una forma di deduzione logica. Se gli veniva detto "Tutti i glon sono yomp" e "Tutti i troff sono glon", il modello poteva dedurre che "Tutti i troff sono yomp"? Hanno anche utilizzato un "benchmark della struttura semantica" più complesso con una gerarchia più ricca di questi fatti inventati per testare una comprensione più sfumata.
"I nostri risultati si concentrano principalmente sulle impostazioni relative al modo in cui i modelli si generalizzano in deduzioni e inversioni derivanti dalla messa a punto di nuove strutture di conoscenza, con chiare implicazioni per le situazioni in cui la messa a punto viene utilizzata per adattare un modello a informazioni proprietarie e specifiche dell'azienda", ha affermato a VentureBeat Andrew Lampinen, ricercatore scientifico presso Google DeepMind e autore principale del documento.
Per valutare le prestazioni, i ricercatori hanno perfezionato Gemini 1.5 Flash su questi set di dati. Per l'ICL, hanno utilizzato l'intero set di dati di training (o ampi sottoinsiemi) come contesto per un modello ottimizzato per le istruzioni prima di porre le domande del test.
I risultati hanno costantemente mostrato che, in contesti con dati corrispondenti, l'ICL ha portato a una generalizzazione migliore rispetto al fine-tuning standard. I modelli che utilizzavano l'ICL si sono dimostrati generalmente più efficaci in compiti come l'inversione di relazioni o la formulazione di deduzioni logiche dal contesto fornito. I modelli pre-addestrati, senza fine-tuning o ICL, hanno ottenuto risultati scadenti, a dimostrazione della novità dei dati di test.
"Uno dei principali compromessi da considerare è che, sebbene l'ICL non richieda una messa a punto precisa (che consente di risparmiare sui costi di addestramento), è generalmente più costoso a livello computazionale a ogni utilizzo, poiché richiede di fornire contesto aggiuntivo al modello", ha affermato Lampinen. "D'altra parte, l'ICL tende a generalizzare meglio per i set di dati e i modelli che abbiamo valutato."
Partendo dall'osservazione che l'ICL eccelle nella generalizzazione flessibile, i ricercatori hanno proposto un nuovo metodo per migliorare il fine-tuning: aggiungere inferenze contestualizzate ai dati di fine-tuning. L'idea centrale è quella di utilizzare le capacità ICL proprie dell'LLM per generare esempi più diversificati e ricchi di inferenze, e quindi aggiungere questi esempi migliorati al set di dati utilizzato per il fine-tuning.
Hanno esplorato due principali strategie di aumento dei dati:
- Una strategia locale : questo approccio si concentra su singole informazioni. L'LLM viene invitato a riformulare singole frasi dai dati di training o a trarne inferenze dirette, come ad esempio la generazione di inversioni.
- Una strategia globale : all'LLM viene fornito l'intero set di dati di formazione come contesto, quindi viene invitato a generare inferenze collegando un particolare documento o fatto con il resto delle informazioni fornite, il che porta a un percorso di ragionamento più lungo di inferenze rilevanti.
Quando i modelli sono stati perfezionati su questi set di dati ampliati, i miglioramenti sono stati significativi. Questa ottimizzazione avanzata ha migliorato significativamente la generalizzazione, superando non solo la ottimizzazione standard, ma anche la semplice ICL.

"Ad esempio, se uno dei documenti aziendali afferma 'XYZ è uno strumento interno per l'analisi dei dati', i nostri risultati suggeriscono che ICL e l'ottimizzazione avanzata saranno più efficaci nel consentire al modello di rispondere a domande correlate come 'Quali strumenti interni per l'analisi dei dati esistono?'", ha affermato Lampinen.
Questo approccio offre un percorso interessante per le aziende. Investendo nella creazione di questi set di dati potenziati da ICL, gli sviluppatori possono sviluppare modelli perfezionati che mostrano maggiori capacità di generalizzazione.
Ciò può dare origine ad applicazioni LLM più solide e affidabili, che offrono prestazioni migliori su input diversificati e reali, senza incorrere nei continui costi di inferenza associati a grandi prompt contestualizzati.
"Il fine-tuning avanzato renderà generalmente più costoso il processo di fine-tuning del modello, perché richiede un ulteriore passaggio di ICL per ampliare i dati, seguito dal fine-tuning", ha affermato Lampinen. "Se questo costo aggiuntivo sia giustificato dalla generalizzazione migliorata dipenderà dal caso d'uso specifico. Tuttavia, è computazionalmente più economico rispetto all'applicazione di ICL ogni volta che il modello viene utilizzato, se ammortizzato su più utilizzi del modello."
Lampinen ha sottolineato che sono necessarie ulteriori ricerche per verificare in che modo i componenti studiati interagiscono in contesti diversi; tuttavia, ha aggiunto che i risultati indicano che gli sviluppatori potrebbero prendere in considerazione l'esplorazione della messa a punto avanzata nei casi in cui la sola messa a punto non fornisca prestazioni adeguate.
"In definitiva, speriamo che questo lavoro contribuisca alla comprensione scientifica dell'apprendimento e della generalizzazione nei modelli fondamentali, nonché agli aspetti pratici del loro adattamento alle attività successive", ha affermato Lampinen.
Se vuoi fare colpo sul tuo capo, VB Daily è la soluzione che fa per te. Ti offriamo informazioni privilegiate su ciò che le aziende stanno facendo con l'IA generativa, dai cambiamenti normativi alle implementazioni pratiche, così puoi condividere spunti per massimizzare il ROI.
Leggi la nostra Informativa sulla privacy
Grazie per l'iscrizione. Scopri altre newsletter di VB qui .
Si è verificato un errore.

venturebeat