Google DeepMind boekt gestaag vooruitgang op het gebied van AI met regelmatige, hoog aangeschreven updates voor Gemini, Imagen, Veo, Gemma en AlphaFold. Vandaag blijft het AI-team van Google het nieuws halen door officieel zijn intrede in de robotica-industrie aan te kondigen met de lancering van twee nieuwe modellen op basis van Gemini 2.0: Gemini Robotics en Gemini Robotics-ER.
Gemini Robotics: Geavanceerd visie-taal-actiemodel
Gemini Robotics is een geavanceerd vision-language-action (VLA) model dat is ontwikkeld op basis van Gemini 2.0, met de toevoeging van fysieke acties als nieuwe uitvoermethode voor robotbesturing. Google beweert dat dit nieuwe model situaties kan begrijpen die het nog niet eens is tegengekomen tijdens de training.
Vergeleken met andere toonaangevende VLA-modellen presteert Gemini Robotics twee keer zo goed op een uitgebreide reeks generalisatiebenchmarks. Omdat het gebaseerd is op het Gemini 2.0-model, kan het veel verschillende soorten natuurlijke talen begrijpen. Dat betekent dat het menselijke commando's beter kan begrijpen.
Wat de behendigheid betreft, beweert Google dat Gemini Robotics complexe, meerstapstaken kan uitvoeren die een nauwkeurige manipulatie vereisen. Dit model kan bijvoorbeeld origami vouwen of snacks in hersluitbare zakjes doen.
Gemini Robotics-ER: een visueel-taalmodel gericht op ruimtelijk redeneren
Gemini Robotics-ER is een geavanceerd visueel-linguïstisch model dat zich richt op ruimtelijk redeneren, waarmee robotici hun bestaande controllers op laag niveau kunnen integreren. Met dit model beschikt de roboticus over alle stappen om de robot in één keer te besturen, waaronder perceptie, toestandsschatting, ruimtelijk inzicht, planning en codegeneratie.
De toekomst van Gemini Robotics
Google werkt samen met Apptronik om humanoïde robots te bouwen op basis van de Gemini 2.0-modellen. Google werkt daarnaast samen met een aantal vertrouwde testpartners, waaronder Agile Robots, Agility Robotics, Boston Dynamics en Enchanted Tools, om de toekomstige ontwikkeling van Gemini Robotics-ER te begeleiden.
Door robots in staat te stellen complexe taken met grotere nauwkeurigheid en aanpassingsvermogen te begrijpen en uit te voeren, effent Google DeepMind de weg voor een toekomst waarin robots naadloos kunnen worden geïntegreerd in veel aspecten van ons leven.