Is Gemma 2 of Llama 3 het beste open source model?

Tijdens I/O 2024 kondigde Google zijn volgende lijn Gemma 2-modellen aan en nu brengt het bedrijf eindelijk de lichtgewicht modellen uit onder een open source-licentie. Het nieuwe model Gemma 2 27B schijnt veelbelovend te zijn en beter te presteren dan grotere modellen, zoals de Llama 3 70B en de Qwen 1.5 32B. Om deze bewering te testen, vergelijken we Gemma 2 en Llama 3: twee van de beste open source-modellen van dit moment.

Creatief schrijven

Laten we eerst eens kijken hoe goed Gemma 2 en Llama 3 zijn als het om creatief schrijven gaat. De auteur van het artikel vroeg beide modellen om een ​​kort verhaal te schrijven over de relatie tussen de maan en de zon. Beide programma's zijn geweldig, maar het Gemma 2-model van Google valt op door het boeiende proza ​​en het goede verhaal.

Is Gemma 2 of Llama 3 het beste open source model?
Is Gemma 2 of Llama 3 het beste open source model?

Llama 3 ziet er daarentegen wat saai en robotachtig uit. Google is altijd goed geweest in het genereren van tekst met Gemini-modellen en de kleinere Gemma 2 27B is daarop geen uitzondering.

Winnende optie: Gemma 2

Meertalige tests

In de volgende ronde gaan we kijken hoe goed beide modellen omgaan met niet-Engelstalige talen. Omdat Google adverteert dat Gemma 2 meerdere talen goed kan begrijpen, vergeleek de auteur het met het Llama 3-model van Meta. De auteur vroeg beide modellen om een ​​passage in het Hindi te vertalen. Zowel Gemma 2 als Llama 3 presteerden zeer goed.

Is Gemma 2 of Llama 3 het beste open source model?
Is Gemma 2 of Llama 3 het beste open source model?

De auteur probeerde ook een andere taal, Bengaals, en de modellen gaven vergelijkbare goede resultaten. Wat de Indiaanse talen betreft, kan gezegd worden dat Gemma 2 en Llama 3 goed getraind zijn in een groot corpus. De Gemma 2 27B is echter bijna 2,5 keer kleiner dan de Llama 3 70B, wat hem nog indrukwekkender maakt.

Winnende opties: Gemma 2 en Llama 3

Controleer de logica

Hoewel de Gemma 2 en Llama 3 niet de slimste modellen zijn, kunnen ze net als veel grotere modellen een aantal veelvoorkomende redeneertests uitvoeren. Bij de vorige vergelijking tussen Llama 3 en GPT-4 was het 70B-model van Meta indrukwekkend, omdat het zelfs bij zijn kleinere formaat over een behoorlijke intelligentie beschikte.

Is Gemma 2 of Llama 3 het beste open source model?
Is Gemma 2 of Llama 3 het beste open source model?

In deze ronde versloeg Llama 3 Gemma 2 met een groot puntenverschil. Lama 3 beantwoordde 2 van de 3 vragen correct, terwijl Gemma 2 moeite had om er ook maar één correct te beantwoorden. Gemma 2 is eenvoudigweg niet getraind om complexe redeneervragen op te lossen.

Llama 3 heeft daarentegen een solide basis van redeneringen, wat hoogstwaarschijnlijk kan worden afgeleid uit de gecodeerde dataset. Ondanks zijn kleine formaat – in ieder geval vergeleken met modellen met een biljoen parameters zoals GPT-4 – vertoont het een meer dan behoorlijk niveau van intelligentie. Uiteindelijk resulteert het gebruiken van meer tokens om het model te trainen in een krachtiger model.

Winnende optie: Lama 3

Volg de instructies

In de volgende ronde vroeg de auteur aan Gemma 2 en Lama 3 om 10 woorden te bedenken die eindigen op het woord “NPU”. En Llama 3 had 10/10 goede antwoorden. Daarentegen produceerde Gemma 2 slechts 7 van de 10 zinnen correct. In veel eerdere releases volgden Google-modellen, waaronder Gemini, de gebruikersinstructies niet goed. En dezelfde trend zet zich voort met Gemma 2.

Is Gemma 2 of Llama 3 het beste open source model?
Is Gemma 2 of Llama 3 het beste open source model?

Het opvolgen van gebruikersinstructies is cruciaal voor AI-modellen. Het garandeert betrouwbaarheid en genereert nauwkeurige feedback over wat u hebt opgedragen. Ook op het gebied van veiligheid zorgt het ervoor dat het model geaard blijft en er beter voldaan kan worden aan de veiligheidsprotocollen.

Winnende optie: Lama 3

Informatie vinden

Zowel Gemma 2 als Llama 3 hebben een contextlengte van 8K tokens. De auteur heeft een groot tekstblok toegevoegd, rechtstreeks afkomstig uit het boek Pride and Prejudice, met meer dan 17.000 tekens en 3.800 tokens. Zoals altijd plaatst de auteur een willekeurig citaat ergens in de tekst en vraagt ​​beide modellen om het te vinden.

Is Gemma 2 of Llama 3 het beste open source model?

Gemma 2 had de informatie snel door en merkte op dat het citaat willekeurig was ingevoegd. Ook Llama 3 vond en suggereerde dat deze bewering onjuist leek. Wat betreft het lange contextgeheugen zijn beide modellen behoorlijk sterk, hoewel ze beperkt zijn tot 8K tokens.

Houd er rekening mee dat de auteur deze test op HuggingChat (web) heeft uitgevoerd omdat meta.ai weigerde deze prompt uit te voeren, hoogstwaarschijnlijk vanwege auteursrechtelijk beschermde inhoud.

Winnende opties: Gemma 2 en Llama 3

Controleer op hallucinaties

Kleinere modellen hebben vaak last van AI-hallucinaties vanwege de beperkte trainingsgegevens. Vaak verzinnen ze dan informatie wanneer het model onbekende onderwerpen tegenkomt. Daarom bedacht de auteur de naam van zijn land om te testen of Gemma 2 en Lama 3 hallucineerden. En verrassend genoeg deden ze dat niet, wat betekent dat zowel Google als Meta een behoorlijk goede basis voor hun modellen hebben.

Is Gemma 2 of Llama 3 het beste open source model?
Is Gemma 2 of Llama 3 het beste open source model?
Is Gemma 2 of Llama 3 het beste open source model?

De auteur stelde ook nog een andere (valse) vraag om de geldigheid van de modellen te testen, maar wederom waren ze niet hallucinogeen. Overigens heeft de auteur Llama 3 getest op HuggingChat terwijl meta.ai op internet zocht naar actuele informatie over relevante onderwerpen.

Winnende opties: Gemma 2 en Llama 3

Besluiten

Hoewel het Gemma 2 27B-model van Google niet goed presteert bij redeneerproeven, is het wel geschikt voor een aantal andere taken. Het is geweldig voor creatief schrijven, ondersteunt meerdere talen, heeft een goed geheugen en is bovenal niet zo hallucinogeen als voorgaande modellen.

Llama 3 is uiteraard beter, maar is ook een aanzienlijk groter model, getraind op 70 miljard parameters. Ontwikkelaars vinden het Gemma 2 27B-model nuttig voor een breed scala aan use cases. En als kers op de taart is ook de Gemma 2 9B verkrijgbaar.

Daarnaast moeten gebruikers ook eens kijken naar de Gemini 1.5 Flash. Dit is een veel kleiner model en ondersteunt eveneens multimodale invoer. En bovendien is het ongelooflijk snel en efficiënt.

Sign up and earn $1000 a day ⋙

Leave a Comment

De beste laptops voor studenten in 2025

De beste laptops voor studenten in 2025

Studenten hebben een specifiek type laptop nodig voor hun studie. Deze moet niet alleen krachtig genoeg zijn om goed te presteren in hun studierichting, maar ook compact en licht genoeg om de hele dag mee te nemen.

Een printer toevoegen aan Windows 10

Een printer toevoegen aan Windows 10

Het toevoegen van een printer aan Windows 10 is eenvoudig, hoewel het proces voor bekabelde apparaten anders is dan voor draadloze apparaten.

Hoe u het RAM-geheugen en RAM-fouten op uw computer met de hoogste nauwkeurigheid kunt controleren

Hoe u het RAM-geheugen en RAM-fouten op uw computer met de hoogste nauwkeurigheid kunt controleren

Zoals u weet, is RAM een zeer belangrijk hardwareonderdeel van een computer. Het fungeert als geheugen voor de verwerking van gegevens en is de factor die de snelheid van een laptop of pc bepaalt. In het onderstaande artikel laat WebTech360 u zien hoe u met behulp van software in Windows RAM-fouten kunt opsporen.

Verschil tussen gewone tv en smart-tv

Verschil tussen gewone tv en smart-tv

Smart-tv's hebben de wereld veroverd. Dankzij zoveel geweldige functies en internetverbinding heeft technologie de manier waarop we televisiekijken veranderd.

Waarom heeft de vriezer geen lampje, maar de koelkast wel?

Waarom heeft de vriezer geen lampje, maar de koelkast wel?

Koelkasten zijn vertrouwde apparaten in huishoudens. Koelkasten hebben meestal twee compartimenten. Het koelvak is ruim en heeft verlichting die automatisch aangaat wanneer de gebruiker het vak opent. Het vriesvak is smal en heeft geen verlichting.

2 manieren om netwerkcongestie te verhelpen die wifi vertraagt

2 manieren om netwerkcongestie te verhelpen die wifi vertraagt

Wi-Fi-netwerken worden niet alleen beïnvloed door routers, bandbreedte en interferentie, maar er zijn een aantal slimme manieren om uw netwerk te versterken.

Hoe u kunt downgraden van iOS 17 naar iOS 16 zonder gegevensverlies met Tenorshare Reiboot

Hoe u kunt downgraden van iOS 17 naar iOS 16 zonder gegevensverlies met Tenorshare Reiboot

Als u terug wilt naar de stabiele iOS 16 op uw telefoon, vindt u hier de basisgids voor het verwijderen van iOS 17 en downgraden van iOS 17 naar 16.

Wat gebeurt er met je lichaam als je elke dag yoghurt eet?

Wat gebeurt er met je lichaam als je elke dag yoghurt eet?

Yoghurt is een heerlijk voedingsmiddel. Is het goed om elke dag yoghurt te eten? Hoe verandert je lichaam als je elke dag yoghurt eet? Laten we het samen ontdekken!

Welk type rijst is het beste voor de gezondheid?

Welk type rijst is het beste voor de gezondheid?

In dit artikel worden de meest voedzame rijstsoorten besproken en hoe u de gezondheidsvoordelen van de rijst die u kiest, optimaal kunt benutten.

Hoe word je s ochtends op tijd wakker?

Hoe word je s ochtends op tijd wakker?

Een slaapschema en bedtijdroutine opstellen, uw wekker verzetten en uw dieet aanpassen zijn enkele maatregelen die u kunnen helpen om beter te slapen en 's ochtends op tijd wakker te worden.

Tips voor het spelen van Rent Please! Verhuurder Sim voor beginners

Tips voor het spelen van Rent Please! Verhuurder Sim voor beginners

Huren alstublieft! Landlord Sim is een simulatiespel voor mobiel op iOS en Android. Je speelt als verhuurder van een appartementencomplex en begint met het verhuren van een appartement. Je doel is om het interieur van je appartement te verbeteren en het gereed te maken voor huurders.

De nieuwste badkamertorenverdedigingscodes en hoe u deze invoert

De nieuwste badkamertorenverdedigingscodes en hoe u deze invoert

Ontvang de Roblox-gamecode voor Bathroom Tower Defense en wissel deze in voor geweldige beloningen. Ze helpen je bij het upgraden of ontgrendelen van torens met hogere schade.

Structuur, symbolen en werkingsprincipes van transformatoren

Structuur, symbolen en werkingsprincipes van transformatoren

Laten we op de meest nauwkeurige manier de structuur, symbolen en werkingsprincipes van transformatoren leren kennen.

4 manieren waarop AI smart-tvs beter maakt

4 manieren waarop AI smart-tvs beter maakt

Van betere beeld- en geluidskwaliteit tot spraakbesturing en meer: ​​deze AI-functies maken smart-tv's zoveel beter!

Waarom ChatGPT beter is dan DeepSeek

Waarom ChatGPT beter is dan DeepSeek

Aanvankelijk hadden mensen hoge verwachtingen van DeepSeek. Deze AI-chatbot wordt op de markt gebracht als sterke concurrent van ChatGPT en belooft intelligente chatmogelijkheden en -ervaringen.