Home
» Wiki
»
Is Gemma 2 of Llama 3 het beste open source model?
Is Gemma 2 of Llama 3 het beste open source model?
Tijdens I/O 2024 kondigde Google zijn volgende lijn Gemma 2-modellen aan en nu brengt het bedrijf eindelijk de lichtgewicht modellen uit onder een open source-licentie. Het nieuwe model Gemma 2 27B schijnt veelbelovend te zijn en beter te presteren dan grotere modellen, zoals de Llama 3 70B en de Qwen 1.5 32B. Om deze bewering te testen, vergelijken we Gemma 2 en Llama 3: twee van de beste open source-modellen van dit moment.
Creatief schrijven
Laten we eerst eens kijken hoe goed Gemma 2 en Llama 3 zijn als het om creatief schrijven gaat. De auteur van het artikel vroeg beide modellen om een kort verhaal te schrijven over de relatie tussen de maan en de zon. Beide programma's zijn geweldig, maar het Gemma 2-model van Google valt op door het boeiende proza en het goede verhaal.
Llama 3 ziet er daarentegen wat saai en robotachtig uit. Google is altijd goed geweest in het genereren van tekst met Gemini-modellen en de kleinere Gemma 2 27B is daarop geen uitzondering.
Winnende optie: Gemma 2
Meertalige tests
In de volgende ronde gaan we kijken hoe goed beide modellen omgaan met niet-Engelstalige talen. Omdat Google adverteert dat Gemma 2 meerdere talen goed kan begrijpen, vergeleek de auteur het met het Llama 3-model van Meta. De auteur vroeg beide modellen om een passage in het Hindi te vertalen. Zowel Gemma 2 als Llama 3 presteerden zeer goed.
De auteur probeerde ook een andere taal, Bengaals, en de modellen gaven vergelijkbare goede resultaten. Wat de Indiaanse talen betreft, kan gezegd worden dat Gemma 2 en Llama 3 goed getraind zijn in een groot corpus. De Gemma 2 27B is echter bijna 2,5 keer kleiner dan de Llama 3 70B, wat hem nog indrukwekkender maakt.
Winnende opties: Gemma 2 en Llama 3
Controleer de logica
Hoewel de Gemma 2 en Llama 3 niet de slimste modellen zijn, kunnen ze net als veel grotere modellen een aantal veelvoorkomende redeneertests uitvoeren. Bij de vorige vergelijking tussen Llama 3 en GPT-4 was het 70B-model van Meta indrukwekkend, omdat het zelfs bij zijn kleinere formaat over een behoorlijke intelligentie beschikte.
In deze ronde versloeg Llama 3 Gemma 2 met een groot puntenverschil. Lama 3 beantwoordde 2 van de 3 vragen correct, terwijl Gemma 2 moeite had om er ook maar één correct te beantwoorden. Gemma 2 is eenvoudigweg niet getraind om complexe redeneervragen op te lossen.
Llama 3 heeft daarentegen een solide basis van redeneringen, wat hoogstwaarschijnlijk kan worden afgeleid uit de gecodeerde dataset. Ondanks zijn kleine formaat – in ieder geval vergeleken met modellen met een biljoen parameters zoals GPT-4 – vertoont het een meer dan behoorlijk niveau van intelligentie. Uiteindelijk resulteert het gebruiken van meer tokens om het model te trainen in een krachtiger model.
Winnende optie: Lama 3
Volg de instructies
In de volgende ronde vroeg de auteur aan Gemma 2 en Lama 3 om 10 woorden te bedenken die eindigen op het woord “NPU”. En Llama 3 had 10/10 goede antwoorden. Daarentegen produceerde Gemma 2 slechts 7 van de 10 zinnen correct. In veel eerdere releases volgden Google-modellen, waaronder Gemini, de gebruikersinstructies niet goed. En dezelfde trend zet zich voort met Gemma 2.
Het opvolgen van gebruikersinstructies is cruciaal voor AI-modellen. Het garandeert betrouwbaarheid en genereert nauwkeurige feedback over wat u hebt opgedragen. Ook op het gebied van veiligheid zorgt het ervoor dat het model geaard blijft en er beter voldaan kan worden aan de veiligheidsprotocollen.
Winnende optie: Lama 3
Informatie vinden
Zowel Gemma 2 als Llama 3 hebben een contextlengte van 8K tokens. De auteur heeft een groot tekstblok toegevoegd, rechtstreeks afkomstig uit het boek Pride and Prejudice, met meer dan 17.000 tekens en 3.800 tokens. Zoals altijd plaatst de auteur een willekeurig citaat ergens in de tekst en vraagt beide modellen om het te vinden.
Gemma 2 had de informatie snel door en merkte op dat het citaat willekeurig was ingevoegd. Ook Llama 3 vond en suggereerde dat deze bewering onjuist leek. Wat betreft het lange contextgeheugen zijn beide modellen behoorlijk sterk, hoewel ze beperkt zijn tot 8K tokens.
Houd er rekening mee dat de auteur deze test op HuggingChat (web) heeft uitgevoerd omdat meta.ai weigerde deze prompt uit te voeren, hoogstwaarschijnlijk vanwege auteursrechtelijk beschermde inhoud.
Winnende opties: Gemma 2 en Llama 3
Controleer op hallucinaties
Kleinere modellen hebben vaak last van AI-hallucinaties vanwege de beperkte trainingsgegevens. Vaak verzinnen ze dan informatie wanneer het model onbekende onderwerpen tegenkomt. Daarom bedacht de auteur de naam van zijn land om te testen of Gemma 2 en Lama 3 hallucineerden. En verrassend genoeg deden ze dat niet, wat betekent dat zowel Google als Meta een behoorlijk goede basis voor hun modellen hebben.
De auteur stelde ook nog een andere (valse) vraag om de geldigheid van de modellen te testen, maar wederom waren ze niet hallucinogeen. Overigens heeft de auteur Llama 3 getest op HuggingChat terwijl meta.ai op internet zocht naar actuele informatie over relevante onderwerpen.
Winnende opties: Gemma 2 en Llama 3
Besluiten
Hoewel het Gemma 2 27B-model van Google niet goed presteert bij redeneerproeven, is het wel geschikt voor een aantal andere taken. Het is geweldig voor creatief schrijven, ondersteunt meerdere talen, heeft een goed geheugen en is bovenal niet zo hallucinogeen als voorgaande modellen.
Llama 3 is uiteraard beter, maar is ook een aanzienlijk groter model, getraind op 70 miljard parameters. Ontwikkelaars vinden het Gemma 2 27B-model nuttig voor een breed scala aan use cases. En als kers op de taart is ook de Gemma 2 9B verkrijgbaar.
Daarnaast moeten gebruikers ook eens kijken naar de Gemini 1.5 Flash. Dit is een veel kleiner model en ondersteunt eveneens multimodale invoer. En bovendien is het ongelooflijk snel en efficiënt.