De nieuwe diffusie-AI-agent van Google imiteert menselijk schrijven om bedrijfsonderzoek te verbeteren

Wilt u slimmere inzichten in uw inbox? Meld u aan voor onze wekelijkse nieuwsbrieven en ontvang alleen wat relevant is voor leiders op het gebied van AI, data en beveiliging voor ondernemingen. Abonneer u nu.
Onderzoekers van Google hebben een nieuw raamwerk ontwikkeld voor AI-onderzoeksagenten dat op belangrijke benchmarks beter presteert dan toonaangevende systemen van concurrenten OpenAI, Perplexity en anderen .
De nieuwe agent, Test-Time Diffusion Deep Researcher (TTD-DR), is geïnspireerd op de manier waarop mensen schrijven: ze doorlopen een proces van concepten maken, zoeken naar informatie en iteratieve revisies doorvoeren.
Het systeem maakt gebruik van diffusiemechanismen en evolutionaire algoritmen om uitgebreider en nauwkeuriger onderzoek te doen naar complexe onderwerpen.
Voor ondernemingen kan dit raamwerk een nieuwe generatie op maat gemaakte onderzoeksassistenten opleveren voor taken met een hoge toegevoegde waarde waar standaard RAG-systemen ( Retrieval Augmented Generation ) moeite mee hebben, zoals het genereren van een concurrentieanalyse of een markttoetredingsrapport.
AI-schaalbaarheid bereikt zijn grenzen
Power caps, stijgende tokenkosten en vertragingen bij inferentie veranderen de AI van bedrijven. Kom naar onze exclusieve salon en ontdek hoe topteams:
- Energie omzetten in een strategisch voordeel
- Het ontwerpen van efficiënte inferentie voor echte doorvoerwinst
- Concurrerende ROI ontsluiten met duurzame AI-systemen
Zorg dat je plek veilig is om voorop te blijven lopen : https://bit.ly/4mwGngO
Volgens de auteurs van het artikel waren deze praktische zakelijke use cases het primaire doel van het systeem.
Deep research (DR)-agenten zijn ontworpen om complexe vragen te beantwoorden die verder gaan dan een simpele zoekopdracht. Ze gebruiken grote taalmodellen (LLM's) om te plannen, gebruiken tools zoals webzoekmachines om informatie te verzamelen en vatten de bevindingen vervolgens samen in een gedetailleerd rapport met behulp van test-time scaling-technieken zoals chain-of-thought (CoT), best-of-N sampling en Monte Carlo Tree Search.
Veel van deze systemen hebben echter fundamentele ontwerpbeperkingen. De meeste openbaar beschikbare DR-agenten passen testalgoritmen en -tools toe zonder een structuur die menselijk cognitief gedrag weerspiegelt. Open-sourceagenten volgen vaak een rigide lineair of parallel proces van plannen, zoeken en content genereren, waardoor het moeilijk is voor de verschillende fasen van het onderzoek om met elkaar te interacteren en elkaar te corrigeren.

Hierdoor kan de agent de globale context van het onderzoek uit het oog verliezen en belangrijke verbanden tussen verschillende stukjes informatie missen.
Zoals de auteurs van het artikel opmerken: "Dit wijst op een fundamentele beperking in het huidige werk met DR-agenten en onderstreept de behoefte aan een samenhangender, speciaal ontwikkeld raamwerk voor DR-agenten dat de menselijke onderzoekscapaciteiten imiteert of overtreft."
In tegenstelling tot het lineaire proces van de meeste AI-agenten, werken menselijke onderzoekers iteratief . Ze beginnen doorgaans met een plan op hoog niveau, maken een eerste concept en doorlopen vervolgens meerdere revisiecycli . Tijdens deze revisies zoeken ze naar nieuwe informatie om hun argumenten te versterken en lacunes op te vullen.
De Google-onderzoekers merkten op dat dit menselijke proces kon worden nagebootst met behulp van een diffusiemodel, aangevuld met een retrievalcomponent. (Diffusiemodellen worden vaak gebruikt bij het genereren van afbeeldingen. Ze beginnen met een ruisende afbeelding en verfijnen deze geleidelijk tot een gedetailleerde afbeelding.)
Zoals de onderzoekers uitleggen: "In deze analogie genereert een getraind diffusiemodel aanvankelijk een ruisige versie, en de ruisverwijderingsmodule, geholpen door ophaaltools, herziet deze versie tot uitvoer van hogere kwaliteit (of met een hogere resolutie)."
TTD-DR is gebaseerd op deze blauwdruk. Het raamwerk behandelt het opstellen van een onderzoeksrapport als een diffusieproces, waarbij een eerste, "ruisende" versie geleidelijk wordt verfijnd tot een gepolijst eindrapport.

Dit wordt bereikt via twee kernmechanismen. Het eerste, dat de onderzoekers "Denoising with Retrieval" noemen, begint met een voorlopige versie en verbetert deze iteratief. In elke stap gebruikt de agent de huidige versie om nieuwe zoekopdrachten te formuleren, externe informatie op te halen en deze te integreren om het rapport te "denoisen" door onnauwkeurigheden te corrigeren en details toe te voegen.
Het tweede mechanisme, "Zelfevolutie", zorgt ervoor dat elk onderdeel van de agent (de planner, de vraaggenerator en de antwoordsynthesizer) onafhankelijk zijn eigen prestaties optimaliseert. In een reactie op VentureBeat legde Rujun Han, onderzoeker bij Google en co-auteur van het artikel, uit dat deze evolutie op componentniveau cruciaal is omdat het de "ruisonderdrukking van rapporten effectiever maakt". Dit is vergelijkbaar met een evolutionair proces waarbij elk onderdeel van het systeem steeds beter wordt in zijn specifieke taak, waardoor er meer context ontstaat voor het belangrijkste revisieproces.

"De complexe wisselwerking en synergetische combinatie van deze twee algoritmen zijn cruciaal voor het behalen van hoogwaardige onderzoeksresultaten", stellen de auteurs. Dit iteratieve proces resulteert direct in rapporten die niet alleen nauwkeuriger zijn, maar ook logischer coherent. Zoals Han opmerkt, is het model beoordeeld op bruikbaarheid, waaronder vloeiendheid en coherentie, en zijn de prestatieverbeteringen een directe maatstaf voor het vermogen om goed gestructureerde zakelijke documenten te produceren.
Volgens het artikel is de resulterende onderzoekspartner "in staat om nuttige en uitgebreide rapporten te genereren voor complexe onderzoeksvragen in uiteenlopende industriële domeinen, waaronder financiën, biomedische sector, recreatie en technologie", waarmee het in dezelfde klasse valt als diepgaande onderzoeksproducten van OpenAI, Perplexity en Grok.
Om hun raamwerk te bouwen en testen, gebruikten de onderzoekers de Agent Development Kit (ADK) van Google, een uitbreidbaar platform voor het orkestreren van complexe AI-workflows, met Gemini 2.5 Pro als de belangrijkste LLM (hoewel je het kunt verwisselen voor andere modellen).
Ze vergeleken TTD-DR met toonaangevende commerciële en open source systemen, waaronder OpenAI Deep Research , Perplexity Deep Research, Grok DeepSearch en de open source GPT-Researcher .
De evaluatie richtte zich op twee hoofdgebieden. Voor het genereren van uitgebreide, uitgebreide rapporten gebruikten ze de DeepConsult-benchmark , een verzameling vragen over zakendoen en consultancy, naast hun eigen LongForm Research-dataset. Voor het beantwoorden van multi-hop vragen die uitgebreid zoeken en redeneren vereisen, testten ze de agent met uitdagende academische en praktijkgerichte benchmarks zoals Humanity's Last Exam (HLE) en GAIA .
De resultaten lieten zien dat TTD-DR consistent beter presteerde dan zijn concurrenten. In directe vergelijkingen met OpenAI Deep Research voor het genereren van lange rapporten behaalde TTD-DR winstpercentages van 69,1% en 74,5% op twee verschillende datasets. TTD-DR overtrof het systeem van OpenAI ook in drie afzonderlijke benchmarks die multi-hop redenering vereisten om beknopte antwoorden te vinden, met prestatiewinsten van 4,8%, 7,7% en 1,7%.

Hoewel het huidige onderzoek zich richt op tekstuele rapporten met behulp van webzoekopdrachten, is het framework ontworpen om zeer aanpasbaar te zijn. Han bevestigde dat het team van plan is het werk uit te breiden met meer tools voor complexe bedrijfstaken.
Een soortgelijk ‘test-time diffusion’-proces zou gebruikt kunnen worden om complexe softwarecode te genereren , een gedetailleerd financieel model te creëren of een marketingcampagne in meerdere fasen te ontwerpen , waarbij een eerste ‘concept’ van het project iteratief wordt verfijnd met nieuwe informatie en feedback van verschillende gespecialiseerde tools.
"Al deze tools kunnen op natuurlijke wijze in ons raamwerk worden opgenomen", aldus Han, die suggereerde dat deze conceptgerichte aanpak een fundamentele architectuur zou kunnen worden voor een breed scala aan complexe, meerstaps AI-agenten.
Wil je indruk maken op je baas? VB Daily is de aangewezen plek. We geven je insiderinformatie over wat bedrijven doen met generatieve AI, van wetswijzigingen tot praktische implementaties, zodat je inzichten kunt delen voor een maximale ROI.
Lees ons privacybeleid
Bedankt voor uw aanmelding. Bekijk hier meer VB-nieuwsbrieven .
Er is een fout opgetreden.

venturebeat