Home
» Wiki
»
Google beweert dat Gemini 2.5 beter presteert dan de beste modellen van OpenAI, DeepSeek en andere AI-techgiganten
Google beweert dat Gemini 2.5 beter presteert dan de beste modellen van OpenAI, DeepSeek en andere AI-techgiganten
Google heeft zojuist Gemini 2.5 geïntroduceerd, dat het bedrijf zijn ‘slimste AI-model tot nu toe’ noemt. De eerste versie van het model was de Gemini 2.5 Pro, die in veel tests indrukwekkende scores behaalde.
Google beweert dat Gemini 2.5 beter presteert dan de beste modellen van OpenAI, DeepSeek en andere AI-techgiganten
Gemini 2.5 Pro is nu beschikbaar via Google AI Studio en in de Gemini-app als u een Gemini Advanced- gebruiker bent . De Gemini 2.5 Pro zal in de nabije toekomst ook via Vertex AI verkrijgbaar zijn.
Google heeft op dit moment nog geen prijzen bekendgemaakt voor de Gemini 2.5 Pro of andere Gemini 2.5-modellen.
Alle modellen die Gemini 2.5 gebruiken, zijn 'denkmodellen'. Dat wil zeggen dat ze het denkproces kunnen verwerken voordat ze een reactie genereren. Deze ‘redeneermodellen’ zijn de volgende grote stap in de AI-wereld, omdat ze complexere en vaak nauwkeurigere antwoorden genereren.
"Nu, met Gemini 2.5, hebben we een nieuw prestatieniveau bereikt door een aanzienlijk verbeterd basismodel te combineren met verbeterde na-training ", aldus Google.
“In de toekomst zullen we deze denkcapaciteiten rechtstreeks in al onze modellen inbouwen, zodat ze complexere problemen kunnen aanpakken en agenten kunnen ondersteunen met nog beter contextbewustzijn . ”
Hoe verhoudt Gemini 2.5 zich tot OpenAI-modellen?
Google Gemini 2.5 Benchmark
De Gemini 2.5 Pro-modellen van Google presteren beter dan eerdere topmodellen van OpenAI en DeepSeek.
De benchmarkscores voor Gemini 2.5 die Google deelt, zijn behoorlijk indrukwekkend. Gemini 2.5 Pro Experimental behaalde een score van 18,5% bij Humanity's Last Exam.
Die score betekent dat de Gemini 2.5 Pro Experimental, op dit moment in ieder geval, het beste model is op basis van die maatstaf. De score is hoger dan die van OpenAI 03-mini (14%) en DeepSeek R1 (8,6%).
Deze specifieke test wordt als moeilijk beschouwd, hoewel het niet de enige manier is om de prestaties van een AI-model te meten.
Google benadrukte ook de programmeermogelijkheden van de Gemini 2.5 Pro en de benchmarks van het model op het gebied van wiskunde en wetenschap. Gemini 2.5 Pro staat momenteel bovenaan in wiskunde- en wetenschapsbenchmarks, gemeten via GPQA en AIME 2025.
Is het mogelijk om te programmeren in Gemini 2.5?
Programmeren staat centraal in Gemini 2.5. Google claimt “een enorme stap voorwaarts ten opzichte van 2.0” en hint op meer verbeteringen.
Met het nieuwe model van Google kunnen web-apps en agentcodetoepassingen worden gemaakt. Een demo van Google laat zien hoe de Gemini 2.5 Pro wordt gebruikt om een spel te maken op basis van een prompt met één regel.
4 redenen waarom Google's Gemini 2.5 Pro belangrijk is voor zakelijke AI
Hier zijn vier belangrijke punten waar bedrijfsteams rekening mee moeten houden bij het evalueren van de Gemini 2.5 Pro.
1. Gestructureerd, transparant redeneren – een nieuwe standaard voor helderheid van denken
Wat de Gemini 2.5 Pro uniek maakt, is niet alleen zijn intelligentie. Het is ook de manier waarop die intelligentie duidelijk tot uiting komt in het werk dat hij verricht. De stapsgewijze trainingsmethode van Google zorgt voor een gestructureerde gedachtegang die niet lijkt op omhaal of giswerk, zoals we dat kennen van modellen als DeepSeek . Deze CoT's zijn niet beperkt tot oppervlakkige samenvattingen zoals de modellen van OpenAI. Het nieuwe Gemini-model presenteert ideeën in genummerde stappen, met sub-opsommingstekens en een uiterst heldere en transparante interne logica.
In praktische zin is dit een doorbraak op het gebied van betrouwbaarheid en navigeerbaarheid. Zakelijke gebruikers die de output van cruciale taken evalueren – zoals het beoordelen van beleidsconsequenties, het coderen van logica of het samenvatten van complex onderzoek – kunnen nu zien hoe het model tot het antwoord heeft geleid. Dat betekent dat ze antwoorden met meer vertrouwen kunnen valideren, corrigeren of omleiden. Dit is een grote stap voorwaarts ten opzichte van het 'black box'-gevoel dat nog steeds aanwezig is in de uitkomsten van veel grote taalmodellen (LLM) .
Voor een uitgebreidere uitleg over de prestaties van dit model kunt u de video bekijken waarin de Gemini 2.5 Pro live wordt getest. Een voorbeeld dat wordt besproken: Toen Gemini 2.5 Pro werd gevraagd naar de beperkingen van grote taalmodellen, bleek dat ze zich daar opmerkelijk goed van bewust waren. Het schetst veelvoorkomende zwakheden en categoriseert deze in gebieden zoals 'fysieke intuïtie', 'synthese van nieuwe concepten', 'langetermijnplanning' en 'ethische nuances'. Het biedt een raamwerk dat gebruikers helpt te begrijpen wat het model weet en hoe ze het probleem moeten aanpakken.
Bedrijfstechnische teams kunnen deze mogelijkheid benutten om:
Debug complexe logische ketens in bedrijfskritische applicaties
Beter begrip van modelbeperkingen in specifieke domeinen
Het bieden van transparantere, op AI gebaseerde beslissingen aan belanghebbenden
Verbeter hun eigen kritisch denkvermogen door de aanpak van het model te bestuderen
Eén opvallende beperking is dat deze gestructureerde redenering weliswaar beschikbaar is in de Gemini-app en Google AI Studio, maar dat deze momenteel niet toegankelijk is via API. Dit is een tekortkoming voor ontwikkelaars die deze mogelijkheid willen integreren in zakelijke applicaties.
2. Een echte kanshebber voor geavanceerde technologie – niet alleen in theorie
Het model staat momenteel met ruime voorsprong bovenaan het Chatbot Arena-klassement: meer dan 35 Elo-punten meer dan het op één na beste model, met name de OpenAI 4o-update die een dag na de lancering van Gemini 2.5 Pro werd gelanceerd. Hoewel benchmarkdominantie vaak maar kort duurt (wekelijks worden er nieuwe modellen gelanceerd), voelt de Gemini 2.5 Pro echt anders aan.
Het programma blinkt uit in taken waarbij diepgaand redeneren nodig is: coderen, genuanceerd probleemoplossen, samenvatten in documenten en zelfs abstracte planning. Bij interne tests presteerde het programma bijzonder goed op eerder moeilijke benchmarks zoals 'Humanity's Last Exam', een populaire benchmark voor het detecteren van LLM-zwakheden op abstracte en genuanceerde gebieden.
Het kan bedrijven niet schelen welk model welke academische ranglijst wint. Maar ze willen wel dat dit model kan denken - en laten zien hoe het denkt. De trillingstest is erg belangrijk.
Zoals de gerespecteerde AI-ingenieur Nathan Lambert opmerkte: "Google heeft weer de beste modellen, omdat zij deze hele AI-hausse hadden moeten starten. De grote fout is hersteld." Zakelijke gebruikers moeten hiermee niet alleen zien dat Google zijn concurrenten inhaalt, maar dat het hen mogelijk voorbijstreeft op het gebied van mogelijkheden die belangrijk zijn voor zakelijke toepassingen.
3. Ten slotte is het encryptiespel van Google sterk
Traditioneel gezien loopt Google achter op OpenAI en Anthropic als het gaat om de ondersteuning van code voor ontwikkelaars. De Gemini 2.5 Pro verandert dat.
Tijdens praktische tests bleek dat het programma sterke one-shot-mogelijkheden biedt bij programmeeruitdagingen, waaronder het bouwen van een werkend Tetris-spel dat in één keer werkte toen het werd geëxporteerd naar Replit. Er was geen debugfunctie nodig. Wat nog opmerkelijker is, is dat de codestructuur helder wordt uitgelegd, variabelen en stappen op een doordachte manier worden gelabeld en de aanpak wordt gepresenteerd voordat er ook maar één regel code is geschreven.
Dit model concurreert met Claude 3.7 Sonnet van Anthropic, dat wordt gezien als marktleider op het gebied van codegeneratie en een belangrijke reden is voor het succes van Anthropic in de zakelijke sector. Maar Gemini 2.5 biedt één belangrijk voordeel: een enorm tokencontextvenster van maximaal 1 miljoen. Claude 3.7 Sonnet biedt momenteel slechts 500.000 tokens aan.
Dit grote contextvenster opent nieuwe mogelijkheden voor het redeneren over de volledige codebase, het lezen van onlinedocumentatie en het werken met meerdere onderling afhankelijke bestanden. De ervaring van softwareontwikkelaar Simon Willison bewijst dit voordeel.
Bij het implementeren van een nieuwe functie in onze codebase met Gemini 2.5 Pro identificeerde het model de benodigde wijzigingen in 18 verschillende bestanden en voltooide het gehele project in ongeveer 45 minuten, met een gemiddelde van minder dan 3 minuten per gewijzigd bestand. Dit is een serieus hulpmiddel voor bedrijven die experimenteren met agentframeworks of op AI gebaseerde ontwikkelomgevingen.
4. Multi-method integratie met agent-achtig gedrag
Hoewel sommige modellen, zoals de nieuwste 4o van OpenAI, misschien meer flitsende beelden laten zien, lijkt het erop dat de Gemini 2.5 Pro stilletjes aan een nieuwe definitie geeft aan wat gefundeerd multimodaal redeneren inhoudt.
In een praktisch experiment van Ben Dickson voor VentureBeat werd bijvoorbeeld aangetoond dat het model belangrijke informatie uit een technisch artikel over zoekalgoritmen kan halen en een bijbehorend SVG-stroomdiagram kan genereren. Vervolgens kan het stroomdiagram worden verbeterd door een gerenderde versie met visuele fouten te tonen. Dankzij dit niveau van multimodaal redeneren kunnen nieuwe workflows worden gecreëerd die voorheen niet mogelijk waren met modellen die alleen uit tekst bestonden.
In een ander voorbeeld uploadde ontwikkelaar Sam Witteveen een eenvoudige schermafbeelding van een kaart van Las Vegas en vroeg hij welke Google-evenementen er op 9 april in de buurt plaatsvonden. Het model identificeerde de locatie, leidde de intentie van de gebruiker af, zocht online en leverde nauwkeurige informatie over Google Cloud Next op, inclusief datum, locatie en bronvermelding. Dit alles gebeurt zonder een aangepast agentframework, alleen het kernmodel en de ingebouwde zoekfunctie.
Dit multimodale input-redeneringsmodel gaat eigenlijk verder dan er alleen naar kijken. Het geeft een beeld van hoe een bedrijfsproces er over 6 maanden uit zou kunnen zien: upload documenten, diagrammen en dashboards en laat het model de inhoud synthetiseren, plannen of zinvolle acties ondernemen op basis van de inhoud.