Google beweert dat Gemini 2.5 beter presteert dan de beste modellen van OpenAI, DeepSeek en andere AI-techgiganten

Google heeft zojuist Gemini 2.5 geïntroduceerd, dat het bedrijf zijn ‘slimste AI-model tot nu toe’ noemt. De eerste versie van het model was de Gemini 2.5 Pro, die in veel tests indrukwekkende scores behaalde.

Google beweert dat Gemini 2.5 beter presteert dan de beste modellen van OpenAI, DeepSeek en andere AI-techgiganten

Gemini 2.5 Pro is nu beschikbaar via Google AI Studio en in de Gemini-app als u een Gemini Advanced- gebruiker bent . De Gemini 2.5 Pro zal in de nabije toekomst ook via Vertex AI verkrijgbaar zijn.

Google heeft op dit moment nog geen prijzen bekendgemaakt voor de Gemini 2.5 Pro of andere Gemini 2.5-modellen.

Alle modellen die Gemini 2.5 gebruiken, zijn 'denkmodellen'. Dat wil zeggen dat ze het denkproces kunnen verwerken voordat ze een reactie genereren. Deze ‘redeneermodellen’ zijn de volgende grote stap in de AI-wereld, omdat ze complexere en vaak nauwkeurigere antwoorden genereren.

"Nu, met Gemini 2.5, hebben we een nieuw prestatieniveau bereikt door een aanzienlijk verbeterd basismodel te combineren met verbeterde na-training ", aldus Google.

“In de toekomst zullen we deze denkcapaciteiten rechtstreeks in al onze modellen inbouwen, zodat ze complexere problemen kunnen aanpakken en agenten kunnen ondersteunen met nog beter contextbewustzijn . ”

Hoe verhoudt Gemini 2.5 zich tot OpenAI-modellen?

Google beweert dat Gemini 2.5 beter presteert dan de beste modellen van OpenAI, DeepSeek en andere AI-techgiganten
Google Gemini 2.5 Benchmark

De Gemini 2.5 Pro-modellen van Google presteren beter dan eerdere topmodellen van OpenAI en DeepSeek.

De benchmarkscores voor Gemini 2.5 die Google deelt, zijn behoorlijk indrukwekkend. Gemini 2.5 Pro Experimental behaalde een score van 18,5% bij Humanity's Last Exam.

Die score betekent dat de Gemini 2.5 Pro Experimental, op dit moment in ieder geval, het beste model is op basis van die maatstaf. De score is hoger dan die van OpenAI 03-mini (14%) en DeepSeek R1 (8,6%).

Deze specifieke test wordt als moeilijk beschouwd, hoewel het niet de enige manier is om de prestaties van een AI-model te meten.

Google benadrukte ook de programmeermogelijkheden van de Gemini 2.5 Pro en de benchmarks van het model op het gebied van wiskunde en wetenschap. Gemini 2.5 Pro staat momenteel bovenaan in wiskunde- en wetenschapsbenchmarks, gemeten via GPQA en AIME 2025.

Is het mogelijk om te programmeren in Gemini 2.5?

Programmeren staat centraal in Gemini 2.5. Google claimt “een enorme stap voorwaarts ten opzichte van 2.0” en hint op meer verbeteringen.

Met het nieuwe model van Google kunnen web-apps en agentcodetoepassingen worden gemaakt. Een demo van Google laat zien hoe de Gemini 2.5 Pro wordt gebruikt om een ​​spel te maken op basis van een prompt met één regel.

4 redenen waarom Google's Gemini 2.5 Pro belangrijk is voor zakelijke AI

Hier zijn vier belangrijke punten waar bedrijfsteams rekening mee moeten houden bij het evalueren van de Gemini 2.5 Pro.

1. Gestructureerd, transparant redeneren – een nieuwe standaard voor helderheid van denken

Wat de Gemini 2.5 Pro uniek maakt, is niet alleen zijn intelligentie. Het is ook de manier waarop die intelligentie duidelijk tot uiting komt in het werk dat hij verricht. De stapsgewijze trainingsmethode van Google zorgt voor een gestructureerde gedachtegang die niet lijkt op omhaal of giswerk, zoals we dat kennen van modellen als DeepSeek . Deze CoT's zijn niet beperkt tot oppervlakkige samenvattingen zoals de modellen van OpenAI. Het nieuwe Gemini-model presenteert ideeën in genummerde stappen, met sub-opsommingstekens en een uiterst heldere en transparante interne logica.

In praktische zin is dit een doorbraak op het gebied van betrouwbaarheid en navigeerbaarheid. Zakelijke gebruikers die de output van cruciale taken evalueren – zoals het beoordelen van beleidsconsequenties, het coderen van logica of het samenvatten van complex onderzoek – kunnen nu zien hoe het model tot het antwoord heeft geleid. Dat betekent dat ze antwoorden met meer vertrouwen kunnen valideren, corrigeren of omleiden. Dit is een grote stap voorwaarts ten opzichte van het 'black box'-gevoel dat nog steeds aanwezig is in de uitkomsten van veel grote taalmodellen (LLM) .

Voor een uitgebreidere uitleg over de prestaties van dit model kunt u de video bekijken waarin de Gemini 2.5 Pro live wordt getest. Een voorbeeld dat wordt besproken: Toen Gemini 2.5 Pro werd gevraagd naar de beperkingen van grote taalmodellen, bleek dat ze zich daar opmerkelijk goed van bewust waren. Het schetst veelvoorkomende zwakheden en categoriseert deze in gebieden zoals 'fysieke intuïtie', 'synthese van nieuwe concepten', 'langetermijnplanning' en 'ethische nuances'. Het biedt een raamwerk dat gebruikers helpt te begrijpen wat het model weet en hoe ze het probleem moeten aanpakken.

Bedrijfstechnische teams kunnen deze mogelijkheid benutten om:

  • Debug complexe logische ketens in bedrijfskritische applicaties
  • Beter begrip van modelbeperkingen in specifieke domeinen
  • Het bieden van transparantere, op AI gebaseerde beslissingen aan belanghebbenden
  • Verbeter hun eigen kritisch denkvermogen door de aanpak van het model te bestuderen

Eén opvallende beperking is dat deze gestructureerde redenering weliswaar beschikbaar is in de Gemini-app en Google AI Studio, maar dat deze momenteel niet toegankelijk is via API. Dit is een tekortkoming voor ontwikkelaars die deze mogelijkheid willen integreren in zakelijke applicaties.

2. Een echte kanshebber voor geavanceerde technologie – niet alleen in theorie

Het model staat momenteel met ruime voorsprong bovenaan het Chatbot Arena-klassement: meer dan 35 Elo-punten meer dan het op één na beste model, met name de OpenAI 4o-update die een dag na de lancering van Gemini 2.5 Pro werd gelanceerd. Hoewel benchmarkdominantie vaak maar kort duurt (wekelijks worden er nieuwe modellen gelanceerd), voelt de Gemini 2.5 Pro echt anders aan.

Google beweert dat Gemini 2.5 beter presteert dan de beste modellen van OpenAI, DeepSeek en andere AI-techgiganten

Het programma blinkt uit in taken waarbij diepgaand redeneren nodig is: coderen, genuanceerd probleemoplossen, samenvatten in documenten en zelfs abstracte planning. Bij interne tests presteerde het programma bijzonder goed op eerder moeilijke benchmarks zoals 'Humanity's Last Exam', een populaire benchmark voor het detecteren van LLM-zwakheden op abstracte en genuanceerde gebieden.

Het kan bedrijven niet schelen welk model welke academische ranglijst wint. Maar ze willen wel dat dit model kan denken - en laten zien hoe het denkt. De trillingstest is erg belangrijk.

Zoals de gerespecteerde AI-ingenieur Nathan Lambert opmerkte: "Google heeft weer de beste modellen, omdat zij deze hele AI-hausse hadden moeten starten. De grote fout is hersteld." Zakelijke gebruikers moeten hiermee niet alleen zien dat Google zijn concurrenten inhaalt, maar dat het hen mogelijk voorbijstreeft op het gebied van mogelijkheden die belangrijk zijn voor zakelijke toepassingen.

3. Ten slotte is het encryptiespel van Google sterk

Traditioneel gezien loopt Google achter op OpenAI en Anthropic als het gaat om de ondersteuning van code voor ontwikkelaars. De Gemini 2.5 Pro verandert dat.

Tijdens praktische tests bleek dat het programma sterke one-shot-mogelijkheden biedt bij programmeeruitdagingen, waaronder het bouwen van een werkend Tetris-spel dat in één keer werkte toen het werd geëxporteerd naar Replit. Er was geen debugfunctie nodig. Wat nog opmerkelijker is, is dat de codestructuur helder wordt uitgelegd, variabelen en stappen op een doordachte manier worden gelabeld en de aanpak wordt gepresenteerd voordat er ook maar één regel code is geschreven.

Dit model concurreert met Claude 3.7 Sonnet van Anthropic, dat wordt gezien als marktleider op het gebied van codegeneratie en een belangrijke reden is voor het succes van Anthropic in de zakelijke sector. Maar Gemini 2.5 biedt één belangrijk voordeel: een enorm tokencontextvenster van maximaal 1 miljoen. Claude 3.7 Sonnet biedt momenteel slechts 500.000 tokens aan.

Dit grote contextvenster opent nieuwe mogelijkheden voor het redeneren over de volledige codebase, het lezen van onlinedocumentatie en het werken met meerdere onderling afhankelijke bestanden. De ervaring van softwareontwikkelaar Simon Willison bewijst dit voordeel.

Bij het implementeren van een nieuwe functie in onze codebase met Gemini 2.5 Pro identificeerde het model de benodigde wijzigingen in 18 verschillende bestanden en voltooide het gehele project in ongeveer 45 minuten, met een gemiddelde van minder dan 3 minuten per gewijzigd bestand. Dit is een serieus hulpmiddel voor bedrijven die experimenteren met agentframeworks of op AI gebaseerde ontwikkelomgevingen.

4. Multi-method integratie met agent-achtig gedrag

Hoewel sommige modellen, zoals de nieuwste 4o van OpenAI, misschien meer flitsende beelden laten zien, lijkt het erop dat de Gemini 2.5 Pro stilletjes aan een nieuwe definitie geeft aan wat gefundeerd multimodaal redeneren inhoudt.

In een praktisch experiment van Ben Dickson voor VentureBeat werd bijvoorbeeld aangetoond dat het model belangrijke informatie uit een technisch artikel over zoekalgoritmen kan halen en een bijbehorend SVG-stroomdiagram kan genereren. Vervolgens kan het stroomdiagram worden verbeterd door een gerenderde versie met visuele fouten te tonen. Dankzij dit niveau van multimodaal redeneren kunnen nieuwe workflows worden gecreëerd die voorheen niet mogelijk waren met modellen die alleen uit tekst bestonden.

In een ander voorbeeld uploadde ontwikkelaar Sam Witteveen een eenvoudige schermafbeelding van een kaart van Las Vegas en vroeg hij welke Google-evenementen er op 9 april in de buurt plaatsvonden. Het model identificeerde de locatie, leidde de intentie van de gebruiker af, zocht online en leverde nauwkeurige informatie over Google Cloud Next op, inclusief datum, locatie en bronvermelding. Dit alles gebeurt zonder een aangepast agentframework, alleen het kernmodel en de ingebouwde zoekfunctie.

Dit multimodale input-redeneringsmodel gaat eigenlijk verder dan er alleen naar kijken. Het geeft een beeld van hoe een bedrijfsproces er over 6 maanden uit zou kunnen zien: upload documenten, diagrammen en dashboards en laat het model de inhoud synthetiseren, plannen of zinvolle acties ondernemen op basis van de inhoud.

Sign up and earn $1000 a day ⋙

Leave a Comment

Google kondigt Android XR aan, een nieuw besturingssysteemplatform voor AR- en VR-brillen

Google kondigt Android XR aan, een nieuw besturingssysteemplatform voor AR- en VR-brillen

Na jaren van verwaarlozing heeft Google eindelijk besloten om zijn investeringen weer te richten op Extended Reality (XR)-apparaten zoals headsets en brillen.

5 redenen om Google Gemini te proberen

5 redenen om Google Gemini te proberen

Hoewel Gemini AI van Google minder vaak wordt besproken dan sommige concurrenten, heeft het veel te bieden. Hier zijn vijf redenen waarom Gemini uw aandacht verdient.

Welke smartphonefabrikant heeft de beste Android-updates?

Welke smartphonefabrikant heeft de beste Android-updates?

Er zijn veel Android-fabrikanten, maar niet allemaal besteden ze aandacht aan software-updates. Hoewel de situatie de afgelopen tien jaar is verbeterd, bieden nog niet alle smartphonefabrikanten geweldige softwareondersteuning.

Googles Gemini reageert met vreemde, herhaalde onzinwoorden op sommige gebruikers

Googles Gemini reageert met vreemde, herhaalde onzinwoorden op sommige gebruikers

Onlangs merkten sommige gebruikers op dat Google Gemini in sommige reacties herhalende tekst, vreemde tekens en complete onzin gaf.

Google verwijdert Gemini Access uit de Google-app voor iPhone

Google verwijdert Gemini Access uit de Google-app voor iPhone

De Google-app voor de iPhone wordt binnenkort wat minder nuttig, omdat Google onlangs de toegang tot Gemini AI via die app heeft ingetrokken.

Wat gebeurt er als u uw Google-account verliest?

Wat gebeurt er als u uw Google-account verliest?

Als u geen toegang meer hebt tot uw Google-account, kan dat ernstige gevolgen hebben. Dat gaat verder dan het niet meer kunnen versturen en ontvangen van e-mail.

Google lanceert AI-videocreatiefunctie op Gemini

Google lanceert AI-videocreatiefunctie op Gemini

Google heeft zojuist aangekondigd dat gebruikers nu video's kunnen maken met behulp van kunstmatige intelligentie via de Gemini-chatbot en de onlangs gelanceerde experimentele tool Whisk.

Google lanceert Career Dreamer, de nieuwste AI-tool die helpt bij het kiezen van de perfecte carrière

Google lanceert Career Dreamer, de nieuwste AI-tool die helpt bij het kiezen van de perfecte carrière

Of u nu uw eerste stappen op de arbeidsmarkt zet of de overstap naar een nieuwe sector maakt, de experimentele Career Dreamer van Google is ontworpen om u in contact te brengen met geschikte functies.

Google ontwikkelt AI-winkeltool waarmee gebruikers thuis jurken en shirts kunnen passen

Google ontwikkelt AI-winkeltool waarmee gebruikers thuis jurken en shirts kunnen passen

Vorig jaar introduceerde Google een op AI gebaseerde winkelassistent in Search waarmee gebruikers een visueel idee kunnen krijgen van hoe een kledingstuk staat op een specifiek lichaamstype.

Google ontwikkelt AI-algoritme dat huidziekten en tuberculose kan diagnosticeren

Google ontwikkelt AI-algoritme dat huidziekten en tuberculose kan diagnosticeren

Google toont steeds meer interesse in de toepassingen van kunstmatige intelligentie in de geneeskunde.

Google bevestigt probleem met tweede generatie Chromecast en Chromecast Audio

Google bevestigt probleem met tweede generatie Chromecast en Chromecast Audio

Na een paar dagen van verwarring heeft Google officieel bevestigd dat er een probleem is met zowel de tweede generatie Chromecast als de Chromecast Audio.

Google heeft per ongeluk documentatie gepubliceerd over hoe zoeken werkt

Google heeft per ongeluk documentatie gepubliceerd over hoe zoeken werkt

Maandag lekten interne documenten uit waarin de factoren worden beschreven die Google Zoeken overweegt bij het rangschikken en weergeven van webresultaten.

Google Assistent inschakelen en gebruiken op Chrome Android

Google Assistent inschakelen en gebruiken op Chrome Android

Google is de oude spraakherkenningstechnologie geleidelijk aan het afschaffen en vervangen door zijn virtuele assistent Assistant.

Samsung lanceert 3D Eclipsa Audio-geluidstechnologie, die direct concurreert met Dolby Atmos

Samsung lanceert 3D Eclipsa Audio-geluidstechnologie, die direct concurreert met Dolby Atmos

Samsung Electronics heeft plannen aangekondigd om Eclipsa Audio, een gloednieuwe 3D-audiotechnologie die is ontwikkeld in samenwerking met Google, te integreren in zijn assortiment tv's en soundbars voor 2025.

Google kondigt 6 nieuwe functies aan voor Android-telefoons

Google kondigt 6 nieuwe functies aan voor Android-telefoons

Google heeft vandaag zes nieuwe functies aangekondigd voor Android-smartphones.

Laatste Code van Drie Koninkrijken Rennen Rennen Rennen

Laatste Code van Drie Koninkrijken Rennen Rennen Rennen

Code Tam Quoc Run Run Run is een onmisbare procedure voor het uitwisselen van geschenken voordat je deelneemt aan hardloopwedstrijden om de agressieve menigte om je heen te verslaan.

Laatste Long Ngu Suong Thanh-code en hoe u de code kunt inwisselen

Laatste Long Ngu Suong Thanh-code en hoe u de code kunt inwisselen

Wissel hieronder de Long Ngu Suong Thanh-cadeaubon in om waardevolle beloningen te ontvangen, zoals helden, eten, diamanten kisten...

Vissimulatorcode, Viskoortscode en hoe deel te nemen

Vissimulatorcode, Viskoortscode en hoe deel te nemen

De Fishing Simulator Code kan verlopen zonder dat de vervaldatum bekend is. Controleer daarom regelmatig de Fishing Simulator-code in dit artikel.

13 mooie en stijlvolle korte vrouwelijke kapsels

13 mooie en stijlvolle korte vrouwelijke kapsels

Hieronder vindt u de mooiste, individuele korte dameskapsels die ook helpen om de leeftijd te "hacken" en die tegenwoordig het meest geliefd zijn bij vrouwen.

Zonnestormen zorgen over de hele wereld voor adembenemend poollicht

Zonnestormen zorgen over de hele wereld voor adembenemend poollicht

De periode van 6 tot en met 13 oktober is een spannende week voor sterrenkijkers, aangezien er op veel plekken ter wereld prachtig poollicht te zien is.

Wat te doen als u moeite heeft met slapen?

Wat te doen als u moeite heeft met slapen?

Door prioriteit te geven aan een consistent slaapschema en een routine voor het slapengaan in de avond, kunt u de kwaliteit van uw slaap verbeteren. Dit moet u weten om te voorkomen dat u 's nachts ligt te woelen.

7 manieren om paginas in Word te nummeren die u moet kennen

7 manieren om paginas in Word te nummeren die u moet kennen

Er zijn veel manieren om pagina's in Word te nummeren waaruit u kunt kiezen, afhankelijk van de vereisten voor paginanummering in Word.

Hoe pas je het buitenste scherm van de Galaxy Z Flip3 aan?

Hoe pas je het buitenste scherm van de Galaxy Z Flip3 aan?

Op het Galaxy Z-apparaat is er een functie om het buitenste scherm aan te passen. Hierbij kunt u een willekeurige afbeelding kiezen als achtergrond voor het buitenste scherm van de Galaxy Z Flip3.

Hoe je snelkoppelingen voor muziek-apps op Samsung-telefoons maakt

Hoe je snelkoppelingen voor muziek-apps op Samsung-telefoons maakt

Op Samsung-telefoons is er een optie om snelkoppelingen te maken voor muziekluisterapps op de telefoon, zoals Zing, Spotify of podcast-apps.

Tekenen dat je echt klaar bent voor een serieuze relatie

Tekenen dat je echt klaar bent voor een serieuze relatie

Als je je afvraagt ​​of je klaar bent voor de serieuze relatie die je wilt, bekijk dan dit lijstje met manieren om erachter te komen of je er klaar voor bent of dat je nog meer werk te doen hebt:

Moeten deuren in de winter open blijven?

Moeten deuren in de winter open blijven?

Door het koude weer zijn veel mensen bang om in de winter de ramen open te zetten. Maar is het wel goed om in de winter de deuren altijd gesloten te houden? Moeten ramen in de winter openstaan? Laten we het samen ontdekken!

Hoe je 1 maand Discord Nitro gratis krijgt met Opera GX

Hoe je 1 maand Discord Nitro gratis krijgt met Opera GX

Opera GX, de op gaming gerichte webbrowser, is een interessante samenwerking aangegaan met Discord. Gebruikers krijgen nu een gratis proefperiode van een maand voor Discord Nitro.

Hoe u snel een Windows 10-computerscherm kunt opnemen

Hoe u snel een Windows 10-computerscherm kunt opnemen

Er zijn momenteel veel programma's beschikbaar waarmee u uw computerscherm kunt opnemen, die Windows 10 ondersteunen. Hiermee kunt u eenvoudig uw computerscherm opnemen, vooral als u gamet.

Hoe je reacties uitschakelt tijdens livestreaming op Facebook

Hoe je reacties uitschakelt tijdens livestreaming op Facebook

Wanneer u via Facebook live kijkt, worden de reacties automatisch op het online videoscherm weergegeven. Dan weten de kijkers ook welke opmerkingen andere mensen hebben gemaakt.

15 dingen die je met ChatGPT kunt doen

15 dingen die je met ChatGPT kunt doen

Sinds de lancering in november 2022 heeft ChatGPT veel aandacht gekregen vanwege de vele toepassingsmogelijkheden. Om u te helpen het maximale uit deze tool te halen, vindt u hier 15 manieren waarop u ChatGPT kunt gebruiken.