Home Bots & BrainsGoogle DeepMind lanceert Gemini Robotics-ER 1.6 met verbeterde ruimtelijk redeneren en instrumentuitlezing

Google DeepMind lanceert Gemini Robotics-ER 1.6 met verbeterde ruimtelijk redeneren en instrumentuitlezing

door Marco van der Hoeven

Google DeepMind heeft Gemini Robotics-ER 1.6 uitgebracht, een bijgewerkte versie van zijn ’embodied reasoning’-model dat robots een nauwkeurigere kijk op hun fysieke omgeving geeft. Het model is vanaf vandaag beschikbaar voor ontwikkelaars via de Gemini API en Google AI Studio.

De release richt zich op drie kerngebieden: ruimtelijk redeneren via aanwijzing, succesdetectie vanuit meerdere camerahoeken, en een gloednieuwe functie voor het uitlezen van meetinstrumenten.

Ruimtelijk redeneren

Het aanwijzen van objecten in een beeld vormt de basis voor complexere redeneertaken. Gemini Robotics-ER 1.6 gebruikt aanwijspunten als tussenstap om objecten te tellen, ruimtelijke relaties te definiëren, bewegingstrajecten in kaart te brengen en grijppunten te bepalen. Volgens Google kan het model ook correct weigeren om objecten aan te wijzen die niet in een scène aanwezig zijn — wat het aantal hallucinaties ten opzichte van zijn voorganger merkbaar terugdringt.

Weten wanneer een taak is voltooid is een cruciale vereiste voor autonome robots. Het nieuwe model verbetert het redeneren over meerdere camerabeelden tegelijk — zoals een overzichtscamera gecombineerd met een polscamera — om te bepalen of een taak succesvol is uitgevoerd, ook in gedeeltelijk afgeschermde of dynamisch veranderende omgevingen.

Instrumenten uitlezen

De meest opvallende nieuwe functie is het uitlezen van meetinstrumenten, ontwikkeld in samenwerking met Boston Dynamics. Hiermee kunnen robots analoge manometers, drukmeetinstrumenten, chemische kijkglazen en digitale uitlezingen interpreteren tijdens industriële inspecties.

De functie maakt gebruik van wat Google ‘agentic vision’ noemt: een combinatie van visueel redeneren en code-uitvoering. Het model zoomt eerst in op een meetinstrument om kleine details te kunnen lezen, gebruikt vervolgens aanwijzing en wiskundige berekeningen om de positie van de wijzer en de schaalaanduidingen te schatten, en past ten slotte zijn algemene kennis toe om tot een definitieve aflezing te komen.

In benchmarktests behaalde Gemini Robotics-ER 1.6 met agentic vision een succespercentage van 93% op instrumentuitleestaken, tegenover 67% voor Gemini 3.0 Flash en slechts 23% voor de vorige generatie Gemini Robotics-ER 1.5.

Boston Dynamics-vicepresident Marco da Silva stelt dat de functie zijn inspectierobot Spot in staat stelt om zelfstandig te reageren op situaties die hij tijdens zijn rondes tegenkomt.

Veiligheid

Google omschrijft Gemini Robotics-ER 1.6 als zijn veiligste roboticamodel tot nu toe. Het model scoort beter op het naleven van veiligheidsrichtlijnen bij ruimtelijke redeneertaken en houdt zich strikter aan fysieke beperkingen, zoals het vermijden van objecten die te zwaar zijn of gevaarlijke stoffen bevatten. Ten opzichte van het basismodel Gemini 3.0 Flash scoort de Robotics-ER-lijn 6% beter bij het herkennen van gevaren in tekstscenario’s en 10% beter bij videoscenario’s.

Misschien vind je deze berichten ook interessant