Inception esce dall'ombra con un nuovo tipo di modello di intelligenza artificiale

Inception , una nuova azienda con sede a Palo Alto fondata dal professore di informatica di Stanford Stefano Ermon, afferma di aver sviluppato un nuovo modello di intelligenza artificiale basato sulla tecnologia di "diffusione". Inception lo chiama modello di linguaggio di grandi dimensioni basato sulla diffusione, o "DLM" in breve.
I modelli di IA generativa che stanno ricevendo la maggiore attenzione ora possono essere ampiamente suddivisi in due tipi: Large Language Models (LLM) e modelli di diffusione. Gli LLM, basati sull'architettura del trasformatore , sono utilizzati per la generazione di testo. Nel frattempo, i modelli di diffusione, che alimentano sistemi di IA come Midjourney e Sora di OpenAI, sono utilizzati principalmente per creare immagini, video e audio.
Secondo l'azienda, il modello di Inception offre le funzionalità dei tradizionali LLM, tra cui la generazione di codice e la risposta alle domande, ma con prestazioni notevolmente più rapide e costi di elaborazione ridotti.
Ermon ha detto a TechCrunch che ha studiato a lungo come applicare modelli di diffusione al testo nel suo laboratorio di Stanford. La sua ricerca si basava sull'idea che i LLM tradizionali sono relativamente lenti rispetto alla tecnologia di diffusione.
Con gli LLM, "non puoi generare la seconda parola finché non hai generato la prima, e non puoi generare la terza finché non hai generato le prime due", ha affermato Ermon.
Ermon era alla ricerca di un modo per applicare un approccio di diffusione al testo perché, a differenza dei LLM, che funzionano in modo sequenziale, i modelli di diffusione partono da una stima approssimativa dei dati che stanno generando (ad esempio un'immagine) e poi li mettono a fuoco tutti in una volta.
Ermon ha ipotizzato che generare e modificare grandi blocchi di testo in parallelo fosse possibile con modelli di diffusione. Dopo anni di tentativi, Ermon e un suo studente hanno raggiunto una svolta importante, che hanno descritto in un articolo di ricerca pubblicato l'anno scorso.
Riconoscendo il potenziale di questo progresso, la scorsa estate Ermon ha fondato Inception, coinvolgendo due ex studenti, il professore della UCLA Aditya Grover e il professore della Cornell Volodymyr Kuleshov, nella guida congiunta dell'azienda.
Sebbene Ermon abbia rifiutato di discutere del finanziamento di Inception, TechCrunch ha appreso che il Mayfield Fund ha investito.
Emron ha affermato che Inception ha già acquisito diversi clienti, tra cui aziende Fortune 100 senza nome, rispondendo alla loro esigenza critica di ridurre la latenza dell'intelligenza artificiale e aumentare la velocità.
"Quello che abbiamo scoperto è che i nostri modelli possono sfruttare le GPU in modo molto più efficiente", ha detto Ermon, riferendosi ai chip per computer comunemente usati per eseguire modelli in produzione. "Penso che questa sia una cosa importante. Cambierà il modo in cui le persone costruiscono modelli linguistici".
Inception offre un'API e opzioni di distribuzione di dispositivi on-premise e edge, supporto per la messa a punto del modello e una suite di DLM pronti all'uso per vari casi d'uso. L'azienda afferma che i suoi DLM possono funzionare fino a 10 volte più velocemente dei tradizionali LLM, pur costando 10 volte meno.
"Il nostro modello di codifica 'piccolo' è buono quanto il GPT-4o mini di [OpenAI], ma è più di 10 volte più veloce", ha detto un portavoce dell'azienda a TechCrunch. "Il nostro modello 'mini' supera i piccoli modelli open source come Llama 3.1 8B di [Meta] e raggiunge più di 1.000 token al secondo".
"Token" è il termine del settore per bit di dati grezzi. Mille token al secondo sono davvero una velocità impressionante , supponendo che le affermazioni di Inception siano valide.
techcrunch