A Origem emerge da discrição com um novo tipo de modelo de IA

A Inception , uma nova empresa sediada em Palo Alto, iniciada pelo professor de ciência da computação de Stanford Stefano Ermon, afirma ter desenvolvido um novo modelo de IA baseado em tecnologia de “difusão”. A Inception o chama de um modelo de linguagem grande baseado em difusão, ou “DLM” para abreviar.
Os modelos de IA generativos que recebem mais atenção agora podem ser amplamente divididos em dois tipos: Large Language Models (LLMs) e modelos de difusão. LLMs, construídos na arquitetura transformer , são usados para geração de texto. Enquanto isso, modelos de difusão, que alimentam sistemas de IA como Midjourney e Sora da OpenAI, são usados principalmente para criar imagens, vídeo e áudio.
O modelo da Inception oferece os recursos dos LLMs tradicionais, incluindo geração de código e resposta a perguntas, mas com desempenho significativamente mais rápido e custos de computação reduzidos, de acordo com a empresa.
Ermon disse ao TechCrunch que ele vem estudando como aplicar modelos de difusão a texto há muito tempo em seu laboratório de Stanford. Sua pesquisa foi baseada na ideia de que os LLMs tradicionais são relativamente lentos em comparação à tecnologia de difusão.
Com os LLMs, “você não pode gerar a segunda palavra até gerar a primeira, e não pode gerar a terceira até gerar as duas primeiras”, disse Ermon.
Ermon estava procurando uma maneira de aplicar uma abordagem de difusão ao texto porque, diferentemente dos LLMs, que funcionam sequencialmente, os modelos de difusão começam com uma estimativa aproximada dos dados que estão gerando (por exemplo, uma imagem) e então colocam os dados em foco de uma só vez.
Ermon levantou a hipótese de que gerar e modificar grandes blocos de texto em paralelo era possível com modelos de difusão. Após anos de tentativas, Ermon e um aluno seu alcançaram um grande avanço, que detalharam em um artigo de pesquisa publicado no ano passado.
Reconhecendo o potencial do avanço, Ermon fundou a Inception no verão passado, convocando dois ex-alunos, o professor da UCLA Aditya Grover e o professor da Cornell Volodymyr Kuleshov, para co-liderar a empresa.
Embora Ermon tenha se recusado a discutir o financiamento da Inception, o TechCrunch entende que o Mayfield Fund investiu.
A Inception já conquistou vários clientes, incluindo empresas não identificadas da Fortune 100, ao atender à necessidade crítica deles de redução de latência de IA e aumento de velocidade, disse Emron.
“O que descobrimos é que nossos modelos podem alavancar as GPUs de forma muito mais eficiente”, disse Ermon, referindo-se aos chips de computador comumente usados para executar modelos em produção. “Acho que isso é um grande negócio. Isso vai mudar a maneira como as pessoas constroem modelos de linguagem.”
A Inception oferece uma API, bem como opções de implantação de dispositivos locais e de ponta, suporte para ajuste fino de modelo e um conjunto de DLMs prontos para uso para vários casos de uso. A empresa afirma que seus DLMs podem ser executados até 10x mais rápido do que os LLMs tradicionais, custando 10x menos.
“Nosso modelo de codificação 'pequeno' é tão bom quanto o GPT-4o mini [da OpenAI], enquanto é mais de 10 vezes mais rápido”, disse um porta-voz da empresa ao TechCrunch. “Nosso modelo 'mini' supera modelos pequenos de código aberto como o Llama 3.1 8B [da Meta] e alcança mais de 1.000 tokens por segundo.”
“Tokens” é o jargão da indústria para bits de dados brutos. Mil tokens por segundo é uma velocidade impressionante, de fato , assumindo que as alegações da Inception se sustentem.
techcrunch