Google beweert dat Gemini 2.5 beter presteert dan de beste modellen van OpenAI, DeepSeek en andere AI-techgiganten

Google heeft zojuist Gemini 2.5 geïntroduceerd, dat het bedrijf zijn ‘slimste AI-model tot nu toe’ noemt. De eerste versie van het model was de Gemini 2.5 Pro, die in veel tests indrukwekkende scores behaalde.

Google beweert dat Gemini 2.5 beter presteert dan de beste modellen van OpenAI, DeepSeek en andere AI-techgiganten

Gemini 2.5 Pro is nu beschikbaar via Google AI Studio en in de Gemini-app als u een Gemini Advanced- gebruiker bent . De Gemini 2.5 Pro zal in de nabije toekomst ook via Vertex AI verkrijgbaar zijn.

Google heeft op dit moment nog geen prijzen bekendgemaakt voor de Gemini 2.5 Pro of andere Gemini 2.5-modellen.

Alle modellen die Gemini 2.5 gebruiken, zijn 'denkmodellen'. Dat wil zeggen dat ze het denkproces kunnen verwerken voordat ze een reactie genereren. Deze ‘redeneermodellen’ zijn de volgende grote stap in de AI-wereld, omdat ze complexere en vaak nauwkeurigere antwoorden genereren.

"Nu, met Gemini 2.5, hebben we een nieuw prestatieniveau bereikt door een aanzienlijk verbeterd basismodel te combineren met verbeterde na-training ", aldus Google.

“In de toekomst zullen we deze denkcapaciteiten rechtstreeks in al onze modellen inbouwen, zodat ze complexere problemen kunnen aanpakken en agenten kunnen ondersteunen met nog beter contextbewustzijn . ”

Hoe verhoudt Gemini 2.5 zich tot OpenAI-modellen?

Google beweert dat Gemini 2.5 beter presteert dan de beste modellen van OpenAI, DeepSeek en andere AI-techgiganten
Google Gemini 2.5 Benchmark

De Gemini 2.5 Pro-modellen van Google presteren beter dan eerdere topmodellen van OpenAI en DeepSeek.

De benchmarkscores voor Gemini 2.5 die Google deelt, zijn behoorlijk indrukwekkend. Gemini 2.5 Pro Experimental behaalde een score van 18,5% bij Humanity's Last Exam.

Die score betekent dat de Gemini 2.5 Pro Experimental, op dit moment in ieder geval, het beste model is op basis van die maatstaf. De score is hoger dan die van OpenAI 03-mini (14%) en DeepSeek R1 (8,6%).

Deze specifieke test wordt als moeilijk beschouwd, hoewel het niet de enige manier is om de prestaties van een AI-model te meten.

Google benadrukte ook de programmeermogelijkheden van de Gemini 2.5 Pro en de benchmarks van het model op het gebied van wiskunde en wetenschap. Gemini 2.5 Pro staat momenteel bovenaan in wiskunde- en wetenschapsbenchmarks, gemeten via GPQA en AIME 2025.

Is het mogelijk om te programmeren in Gemini 2.5?

Programmeren staat centraal in Gemini 2.5. Google claimt “een enorme stap voorwaarts ten opzichte van 2.0” en hint op meer verbeteringen.

Met het nieuwe model van Google kunnen web-apps en agentcodetoepassingen worden gemaakt. Een demo van Google laat zien hoe de Gemini 2.5 Pro wordt gebruikt om een ​​spel te maken op basis van een prompt met één regel.

4 redenen waarom Google's Gemini 2.5 Pro belangrijk is voor zakelijke AI

Hier zijn vier belangrijke punten waar bedrijfsteams rekening mee moeten houden bij het evalueren van de Gemini 2.5 Pro.

1. Gestructureerd, transparant redeneren – een nieuwe standaard voor helderheid van denken

Wat de Gemini 2.5 Pro uniek maakt, is niet alleen zijn intelligentie. Het is ook de manier waarop die intelligentie duidelijk tot uiting komt in het werk dat hij verricht. De stapsgewijze trainingsmethode van Google zorgt voor een gestructureerde gedachtegang die niet lijkt op omhaal of giswerk, zoals we dat kennen van modellen als DeepSeek . Deze CoT's zijn niet beperkt tot oppervlakkige samenvattingen zoals de modellen van OpenAI. Het nieuwe Gemini-model presenteert ideeën in genummerde stappen, met sub-opsommingstekens en een uiterst heldere en transparante interne logica.

In praktische zin is dit een doorbraak op het gebied van betrouwbaarheid en navigeerbaarheid. Zakelijke gebruikers die de output van cruciale taken evalueren – zoals het beoordelen van beleidsconsequenties, het coderen van logica of het samenvatten van complex onderzoek – kunnen nu zien hoe het model tot het antwoord heeft geleid. Dat betekent dat ze antwoorden met meer vertrouwen kunnen valideren, corrigeren of omleiden. Dit is een grote stap voorwaarts ten opzichte van het 'black box'-gevoel dat nog steeds aanwezig is in de uitkomsten van veel grote taalmodellen (LLM) .

Voor een uitgebreidere uitleg over de prestaties van dit model kunt u de video bekijken waarin de Gemini 2.5 Pro live wordt getest. Een voorbeeld dat wordt besproken: Toen Gemini 2.5 Pro werd gevraagd naar de beperkingen van grote taalmodellen, bleek dat ze zich daar opmerkelijk goed van bewust waren. Het schetst veelvoorkomende zwakheden en categoriseert deze in gebieden zoals 'fysieke intuïtie', 'synthese van nieuwe concepten', 'langetermijnplanning' en 'ethische nuances'. Het biedt een raamwerk dat gebruikers helpt te begrijpen wat het model weet en hoe ze het probleem moeten aanpakken.

Bedrijfstechnische teams kunnen deze mogelijkheid benutten om:

  • Debug complexe logische ketens in bedrijfskritische applicaties
  • Beter begrip van modelbeperkingen in specifieke domeinen
  • Het bieden van transparantere, op AI gebaseerde beslissingen aan belanghebbenden
  • Verbeter hun eigen kritisch denkvermogen door de aanpak van het model te bestuderen

Eén opvallende beperking is dat deze gestructureerde redenering weliswaar beschikbaar is in de Gemini-app en Google AI Studio, maar dat deze momenteel niet toegankelijk is via API. Dit is een tekortkoming voor ontwikkelaars die deze mogelijkheid willen integreren in zakelijke applicaties.

2. Een echte kanshebber voor geavanceerde technologie – niet alleen in theorie

Het model staat momenteel met ruime voorsprong bovenaan het Chatbot Arena-klassement: meer dan 35 Elo-punten meer dan het op één na beste model, met name de OpenAI 4o-update die een dag na de lancering van Gemini 2.5 Pro werd gelanceerd. Hoewel benchmarkdominantie vaak maar kort duurt (wekelijks worden er nieuwe modellen gelanceerd), voelt de Gemini 2.5 Pro echt anders aan.

Google beweert dat Gemini 2.5 beter presteert dan de beste modellen van OpenAI, DeepSeek en andere AI-techgiganten

Het programma blinkt uit in taken waarbij diepgaand redeneren nodig is: coderen, genuanceerd probleemoplossen, samenvatten in documenten en zelfs abstracte planning. Bij interne tests presteerde het programma bijzonder goed op eerder moeilijke benchmarks zoals 'Humanity's Last Exam', een populaire benchmark voor het detecteren van LLM-zwakheden op abstracte en genuanceerde gebieden.

Het kan bedrijven niet schelen welk model welke academische ranglijst wint. Maar ze willen wel dat dit model kan denken - en laten zien hoe het denkt. De trillingstest is erg belangrijk.

Zoals de gerespecteerde AI-ingenieur Nathan Lambert opmerkte: "Google heeft weer de beste modellen, omdat zij deze hele AI-hausse hadden moeten starten. De grote fout is hersteld." Zakelijke gebruikers moeten hiermee niet alleen zien dat Google zijn concurrenten inhaalt, maar dat het hen mogelijk voorbijstreeft op het gebied van mogelijkheden die belangrijk zijn voor zakelijke toepassingen.

3. Ten slotte is het encryptiespel van Google sterk

Traditioneel gezien loopt Google achter op OpenAI en Anthropic als het gaat om de ondersteuning van code voor ontwikkelaars. De Gemini 2.5 Pro verandert dat.

Tijdens praktische tests bleek dat het programma sterke one-shot-mogelijkheden biedt bij programmeeruitdagingen, waaronder het bouwen van een werkend Tetris-spel dat in één keer werkte toen het werd geëxporteerd naar Replit. Er was geen debugfunctie nodig. Wat nog opmerkelijker is, is dat de codestructuur helder wordt uitgelegd, variabelen en stappen op een doordachte manier worden gelabeld en de aanpak wordt gepresenteerd voordat er ook maar één regel code is geschreven.

Dit model concurreert met Claude 3.7 Sonnet van Anthropic, dat wordt gezien als marktleider op het gebied van codegeneratie en een belangrijke reden is voor het succes van Anthropic in de zakelijke sector. Maar Gemini 2.5 biedt één belangrijk voordeel: een enorm tokencontextvenster van maximaal 1 miljoen. Claude 3.7 Sonnet biedt momenteel slechts 500.000 tokens aan.

Dit grote contextvenster opent nieuwe mogelijkheden voor het redeneren over de volledige codebase, het lezen van onlinedocumentatie en het werken met meerdere onderling afhankelijke bestanden. De ervaring van softwareontwikkelaar Simon Willison bewijst dit voordeel.

Bij het implementeren van een nieuwe functie in onze codebase met Gemini 2.5 Pro identificeerde het model de benodigde wijzigingen in 18 verschillende bestanden en voltooide het gehele project in ongeveer 45 minuten, met een gemiddelde van minder dan 3 minuten per gewijzigd bestand. Dit is een serieus hulpmiddel voor bedrijven die experimenteren met agentframeworks of op AI gebaseerde ontwikkelomgevingen.

4. Multi-method integratie met agent-achtig gedrag

Hoewel sommige modellen, zoals de nieuwste 4o van OpenAI, misschien meer flitsende beelden laten zien, lijkt het erop dat de Gemini 2.5 Pro stilletjes aan een nieuwe definitie geeft aan wat gefundeerd multimodaal redeneren inhoudt.

In een praktisch experiment van Ben Dickson voor VentureBeat werd bijvoorbeeld aangetoond dat het model belangrijke informatie uit een technisch artikel over zoekalgoritmen kan halen en een bijbehorend SVG-stroomdiagram kan genereren. Vervolgens kan het stroomdiagram worden verbeterd door een gerenderde versie met visuele fouten te tonen. Dankzij dit niveau van multimodaal redeneren kunnen nieuwe workflows worden gecreëerd die voorheen niet mogelijk waren met modellen die alleen uit tekst bestonden.

In een ander voorbeeld uploadde ontwikkelaar Sam Witteveen een eenvoudige schermafbeelding van een kaart van Las Vegas en vroeg hij welke Google-evenementen er op 9 april in de buurt plaatsvonden. Het model identificeerde de locatie, leidde de intentie van de gebruiker af, zocht online en leverde nauwkeurige informatie over Google Cloud Next op, inclusief datum, locatie en bronvermelding. Dit alles gebeurt zonder een aangepast agentframework, alleen het kernmodel en de ingebouwde zoekfunctie.

Dit multimodale input-redeneringsmodel gaat eigenlijk verder dan er alleen naar kijken. Het geeft een beeld van hoe een bedrijfsproces er over 6 maanden uit zou kunnen zien: upload documenten, diagrammen en dashboards en laat het model de inhoud synthetiseren, plannen of zinvolle acties ondernemen op basis van de inhoud.

Sign up and earn $1000 a day ⋙

Leave a Comment

Gmail voegt blauw vinkje toe om betrouwbare afzenders te verifiëren

Gmail voegt blauw vinkje toe om betrouwbare afzenders te verifiëren

Door de ontwikkeling en populariteit van sociale media is het "blauwe vinkje" al geruime tijd een van de machtigste figuren in de internetwereld.

Chromecast is officieel dood

Chromecast is officieel dood

De Chromecast-lijn van Google is al lang een populaire keuze als u uw smart-tv-ervaring wilt vervangen of van elke tv een smart-tv wilt maken.

Google voegt functie toe om apps automatisch te openen na installatie in de Play Store

Google voegt functie toe om apps automatisch te openen na installatie in de Play Store

Google voegt een kleine maar langverwachte nieuwe functie toe aan de Play Store.

Google kondigt Android XR aan, een nieuw besturingssysteemplatform voor AR- en VR-brillen

Google kondigt Android XR aan, een nieuw besturingssysteemplatform voor AR- en VR-brillen

Na jaren van verwaarlozing heeft Google eindelijk besloten om zijn investeringen weer te richten op Extended Reality (XR)-apparaten zoals headsets en brillen.

5 redenen om Google Gemini te proberen

5 redenen om Google Gemini te proberen

Hoewel Gemini AI van Google minder vaak wordt besproken dan sommige concurrenten, heeft het veel te bieden. Hier zijn vijf redenen waarom Gemini uw aandacht verdient.

Welke smartphonefabrikant heeft de beste Android-updates?

Welke smartphonefabrikant heeft de beste Android-updates?

Er zijn veel Android-fabrikanten, maar niet allemaal besteden ze aandacht aan software-updates. Hoewel de situatie de afgelopen tien jaar is verbeterd, bieden nog niet alle smartphonefabrikanten geweldige softwareondersteuning.

Googles Gemini reageert met vreemde, herhaalde onzinwoorden op sommige gebruikers

Googles Gemini reageert met vreemde, herhaalde onzinwoorden op sommige gebruikers

Onlangs merkten sommige gebruikers op dat Google Gemini in sommige reacties herhalende tekst, vreemde tekens en complete onzin gaf.

Google verwijdert Gemini Access uit de Google-app voor iPhone

Google verwijdert Gemini Access uit de Google-app voor iPhone

De Google-app voor de iPhone wordt binnenkort wat minder nuttig, omdat Google onlangs de toegang tot Gemini AI via die app heeft ingetrokken.

Wat gebeurt er als u uw Google-account verliest?

Wat gebeurt er als u uw Google-account verliest?

Als u geen toegang meer hebt tot uw Google-account, kan dat ernstige gevolgen hebben. Dat gaat verder dan het niet meer kunnen versturen en ontvangen van e-mail.

Google lanceert AI-videocreatiefunctie op Gemini

Google lanceert AI-videocreatiefunctie op Gemini

Google heeft zojuist aangekondigd dat gebruikers nu video's kunnen maken met behulp van kunstmatige intelligentie via de Gemini-chatbot en de onlangs gelanceerde experimentele tool Whisk.

Google lanceert Career Dreamer, de nieuwste AI-tool die helpt bij het kiezen van de perfecte carrière

Google lanceert Career Dreamer, de nieuwste AI-tool die helpt bij het kiezen van de perfecte carrière

Of u nu uw eerste stappen op de arbeidsmarkt zet of de overstap naar een nieuwe sector maakt, de experimentele Career Dreamer van Google is ontworpen om u in contact te brengen met geschikte functies.

Google ontwikkelt AI-winkeltool waarmee gebruikers thuis jurken en shirts kunnen passen

Google ontwikkelt AI-winkeltool waarmee gebruikers thuis jurken en shirts kunnen passen

Vorig jaar introduceerde Google een op AI gebaseerde winkelassistent in Search waarmee gebruikers een visueel idee kunnen krijgen van hoe een kledingstuk staat op een specifiek lichaamstype.

Google ontwikkelt AI-algoritme dat huidziekten en tuberculose kan diagnosticeren

Google ontwikkelt AI-algoritme dat huidziekten en tuberculose kan diagnosticeren

Google toont steeds meer interesse in de toepassingen van kunstmatige intelligentie in de geneeskunde.

Google bevestigt probleem met tweede generatie Chromecast en Chromecast Audio

Google bevestigt probleem met tweede generatie Chromecast en Chromecast Audio

Na een paar dagen van verwarring heeft Google officieel bevestigd dat er een probleem is met zowel de tweede generatie Chromecast als de Chromecast Audio.

Google heeft per ongeluk documentatie gepubliceerd over hoe zoeken werkt

Google heeft per ongeluk documentatie gepubliceerd over hoe zoeken werkt

Maandag lekten interne documenten uit waarin de factoren worden beschreven die Google Zoeken overweegt bij het rangschikken en weergeven van webresultaten.

De beste laptops voor studenten in 2025

De beste laptops voor studenten in 2025

Studenten hebben een specifiek type laptop nodig voor hun studie. Deze moet niet alleen krachtig genoeg zijn om goed te presteren in hun studierichting, maar ook compact en licht genoeg om de hele dag mee te nemen.

Een printer toevoegen aan Windows 10

Een printer toevoegen aan Windows 10

Het toevoegen van een printer aan Windows 10 is eenvoudig, hoewel het proces voor bekabelde apparaten anders is dan voor draadloze apparaten.

Hoe u het RAM-geheugen en RAM-fouten op uw computer met de hoogste nauwkeurigheid kunt controleren

Hoe u het RAM-geheugen en RAM-fouten op uw computer met de hoogste nauwkeurigheid kunt controleren

Zoals u weet, is RAM een zeer belangrijk hardwareonderdeel van een computer. Het fungeert als geheugen voor de verwerking van gegevens en is de factor die de snelheid van een laptop of pc bepaalt. In het onderstaande artikel laat WebTech360 u zien hoe u met behulp van software in Windows RAM-fouten kunt opsporen.

Verschil tussen gewone tv en smart-tv

Verschil tussen gewone tv en smart-tv

Smart-tv's hebben de wereld veroverd. Dankzij zoveel geweldige functies en internetverbinding heeft technologie de manier waarop we televisiekijken veranderd.

Waarom heeft de vriezer geen lampje, maar de koelkast wel?

Waarom heeft de vriezer geen lampje, maar de koelkast wel?

Koelkasten zijn vertrouwde apparaten in huishoudens. Koelkasten hebben meestal twee compartimenten. Het koelvak is ruim en heeft verlichting die automatisch aangaat wanneer de gebruiker het vak opent. Het vriesvak is smal en heeft geen verlichting.

2 manieren om netwerkcongestie te verhelpen die wifi vertraagt

2 manieren om netwerkcongestie te verhelpen die wifi vertraagt

Wi-Fi-netwerken worden niet alleen beïnvloed door routers, bandbreedte en interferentie, maar er zijn een aantal slimme manieren om uw netwerk te versterken.

Hoe u kunt downgraden van iOS 17 naar iOS 16 zonder gegevensverlies met Tenorshare Reiboot

Hoe u kunt downgraden van iOS 17 naar iOS 16 zonder gegevensverlies met Tenorshare Reiboot

Als u terug wilt naar de stabiele iOS 16 op uw telefoon, vindt u hier de basisgids voor het verwijderen van iOS 17 en downgraden van iOS 17 naar 16.

Wat gebeurt er met je lichaam als je elke dag yoghurt eet?

Wat gebeurt er met je lichaam als je elke dag yoghurt eet?

Yoghurt is een heerlijk voedingsmiddel. Is het goed om elke dag yoghurt te eten? Hoe verandert je lichaam als je elke dag yoghurt eet? Laten we het samen ontdekken!

Welk type rijst is het beste voor de gezondheid?

Welk type rijst is het beste voor de gezondheid?

In dit artikel worden de meest voedzame rijstsoorten besproken en hoe u de gezondheidsvoordelen van de rijst die u kiest, optimaal kunt benutten.

Hoe word je s ochtends op tijd wakker?

Hoe word je s ochtends op tijd wakker?

Een slaapschema en bedtijdroutine opstellen, uw wekker verzetten en uw dieet aanpassen zijn enkele maatregelen die u kunnen helpen om beter te slapen en 's ochtends op tijd wakker te worden.

Tips voor het spelen van Rent Please! Verhuurder Sim voor beginners

Tips voor het spelen van Rent Please! Verhuurder Sim voor beginners

Huren alstublieft! Landlord Sim is een simulatiespel voor mobiel op iOS en Android. Je speelt als verhuurder van een appartementencomplex en begint met het verhuren van een appartement. Je doel is om het interieur van je appartement te verbeteren en het gereed te maken voor huurders.

De nieuwste badkamertorenverdedigingscodes en hoe u deze invoert

De nieuwste badkamertorenverdedigingscodes en hoe u deze invoert

Ontvang de Roblox-gamecode voor Bathroom Tower Defense en wissel deze in voor geweldige beloningen. Ze helpen je bij het upgraden of ontgrendelen van torens met hogere schade.

Structuur, symbolen en werkingsprincipes van transformatoren

Structuur, symbolen en werkingsprincipes van transformatoren

Laten we op de meest nauwkeurige manier de structuur, symbolen en werkingsprincipes van transformatoren leren kennen.

4 manieren waarop AI smart-tvs beter maakt

4 manieren waarop AI smart-tvs beter maakt

Van betere beeld- en geluidskwaliteit tot spraakbesturing en meer: ​​deze AI-functies maken smart-tv's zoveel beter!

Waarom ChatGPT beter is dan DeepSeek

Waarom ChatGPT beter is dan DeepSeek

Aanvankelijk hadden mensen hoge verwachtingen van DeepSeek. Deze AI-chatbot wordt op de markt gebracht als sterke concurrent van ChatGPT en belooft intelligente chatmogelijkheden en -ervaringen.