Llama 3 en GPT-4 zijn twee van de meest geavanceerde grote taalmodellen (LLM's) die voor het publiek beschikbaar zijn. Laten we eens kijken welke LLM beter is door beide modellen te vergelijken op het gebied van multimodaliteit, contextlengte, prestaties en kosten.
Inhoudsopgave
Wat is GPT-4?
GPT-4 is het nieuwste grote taalmodel (LLM) dat door OpenAI is ontwikkeld. Het bouwt voort op de basis van oudere GPT-3-modellen, maar gebruikt daarbij andere trainings- en optimalisatietechnieken en een veel grotere dataset. Hierdoor werd de parametergrootte van GPT-4 aanzienlijk vergroot. Er gaan geruchten dat de kleinere expertmodellen in totaal 1,7 biljoen parameters bevatten. Dankzij nieuwe trainingen, optimalisaties en een groter aantal parameters levert GPT-4 verbeteringen op in redeneren, probleemoplossing, contextbegrip en betere verwerking van genuanceerde instructies.
Er zijn momenteel 3 varianten van het model:
- GPT-4 : een evolutie van GPT-3 met aanzienlijke verbeteringen op het gebied van snelheid, nauwkeurigheid en kennisbank.
- GPT-4 Turbo : een geoptimaliseerde versie van GPT-4, ontworpen om snellere prestaties te leveren en tegelijkertijd de bedrijfskosten te verlagen.
- GPT-4o (Omni) : breidt de mogelijkheden van GPT-4 uit door integratie van multimodale invoer en uitvoer, inclusief tekst, afbeeldingen en audio.
U hebt nu toegang tot alle drie de GPT-4-modellen door u te abonneren op de API-service van OpenAI, door te communiceren met ChatGPT of via services zoals Descript, Perplexity AI en vele andere aanvullende services van Microsoft.
Wat is Llama 3?
Llama 3 is een open-source LLM die is ontwikkeld door Meta AI (het moederbedrijf van Facebook, Instagram en WhatsApp). De LLM is getraind met behulp van een combinatie van begeleide fine-tuning, sampling en beleidsoptimalisatie met een diverse dataset, waaronder miljoenen menselijke annotaties. Het trainingsprogramma richt zich bijvoorbeeld op hoogwaardige prompts en prioriteitsrangschikking, met als doel een flexibel en capabel AI-model te creëren.
Je hebt toegang tot Llama 3 via Meta AI, de Generative AI-chatbot. U kunt LLM ook lokaal op uw computer uitvoeren door Llama 3-modellen te downloaden en deze te laden via Ollama, Open WebUI of LM Studio.
Multimodaal
De release van GPT-4o leverde eindelijk de eerste informatie op die aantoonde dat GPT-4 multimodaal is. U kunt nu toegang krijgen tot deze multimodale functies door met ChatGPT te communiceren via het GPT-4o-model. Vanaf juni 2024 heeft GPT-4o geen ingebouwde manier om video en audio te genereren. Het kan echter wel tekst en afbeeldingen genereren op basis van video- en audio-input.
Llama 3 is ook van plan om een multimodaal model aan te bieden voor de aankomende Llama 3 400B. Waarschijnlijk zal het vergelijkbare technologieën integreren met CLIP (Contrast Language-Imager Pre-Training) om afbeeldingen te genereren met behulp van Zero-shot Learning-technieken. Maar omdat de Llama 400B nog in ontwikkeling is, kunnen de modellen 8B en 70B alleen afbeeldingen genereren met behulp van extensies als LLaVa, Visual-LLaMA en LLaMA-VID. Momenteel is Llama 3 een puur taalgebaseerd model dat tekst, afbeeldingen en audio als invoer kan gebruiken om tekst te genereren.
Contextlengte
Contextlengte verwijst naar de hoeveelheid tekst die een model in één keer kan verwerken. Dit is een belangrijke factor bij het beoordelen van de mogelijkheden van een LLM, omdat het de mate van context bepaalt waarin het model kan werken bij interactie met de gebruiker. Over het algemeen geldt dat een langere context de kwaliteit van LLM verbetert, omdat het zorgt voor een hogere mate van samenhang en continuïteit en het aantal herhaalde fouten tijdens interactie kan verminderen.
Model
|
Beschrijving van trainingsgegevens
|
Parameters
|
Contextlengte
|
GQA
|
Aantal tokens
|
Beperkte kennis
|
Lama 3
|
Combineer openbaar beschikbare online gegevens
|
8B
|
8k
|
Hebben
|
15T+
|
Maart 2023
|
Lama 3
|
Combineer openbaar beschikbare online gegevens
|
70B
|
8k
|
Hebben
|
15T+
|
December 2023
|
De Llama 3-modellen hebben een effectieve contextlengte van 8.000 tokens (ongeveer 6.400 woorden). Dit betekent dat het Llama 3-model een contextueel geheugen heeft van ongeveer 6.400 woorden in interactie. Elk woord dat de limiet van 8.000 tokens overschrijdt, wordt genegeerd en biedt geen aanvullende context tijdens de interactie.
Model
|
Beschrijven
|
Contextvenster
|
Trainingsgegevens
|
GPT-4o
|
Multimodaal model, goedkoper en sneller dan GPT-4 Turbo
|
128.000 tokens (API)
|
Tot oktober 2023
|
GPT-4-Turbo
|
Het GPT-4 Turbo-model is gestroomlijnd en biedt beter zicht.
|
128.000 tokens (API)
|
Tot december 2023
|
GPT-4
|
Het eerste GPT-4-model
|
8.192 tokens
|
Tot september 2021
|
Daarentegen ondersteunt GPT-4 nu aanzienlijk grotere contextlengtes van 32.000 tokens (ongeveer 25.600 woorden) voor ChatGPT-gebruikers en 128.000 tokens (ongeveer 102.400 woorden) voor gebruikers die het API-eindpunt gebruiken. Hierdoor heeft het GPT-4-model een voordeel bij langdurige gesprekken en kan het lange documenten of zelfs hele boeken lezen.
Efficiëntie
Laten we de prestaties vergelijken door te kijken naar het Llama 3 benchmarkrapport van 18 april 2024 van Meta AI en GPT-4 van 14 mei 2024, het GitHub-rapport van OpenAI. Hier zijn de resultaten:
Model
|
MMLU
|
GPQA
|
WISKUNDE
|
HumanEval
|
DRUPPEL
|
GPT-4o
|
88,7
|
53.6
|
76.6
|
90.2
|
83.4
|
GPT-4 Turbo
|
86,5
|
49.1
|
72.2
|
87,6
|
85.4
|
Lama3 8B
|
68,4
|
34.2
|
30.0
|
62.2
|
58.4
|
Llama3 70B
|
82.0
|
39,5
|
50.4
|
81.7
|
79,7
|
Llama3 400B
|
86.1
|
48.0
|
57,8
|
84.1
|
83,5
|
Dit is wat elk criterium meet:
- MMLU (Massive Multitask Language Understanding) : beoordeelt het vermogen van het model om vragen over uiteenlopende academische onderwerpen te begrijpen en te beantwoorden.
- GPTQA (General Purpose Question Answering) : beoordeelt het vermogen van het model om echte vragen in een open domein te beantwoorden
- WISKUNDE : Test het probleemoplossend vermogen van het model.
- HumanEval : meet het vermogen van het model om correcte code te genereren op basis van gegeven menselijke programmeringsaanwijzingen.
- DROP (Discrete Reasoning Over Paragraphs) : Evalueert het vermogen van het model om discreet te redeneren en vragen te beantwoorden op basis van tekstpassages.
Recente benchmarks benadrukken de prestatieverschillen tussen de GPT-4 en Llama 3-modellen. Hoewel het model Llama 3 8B aanzienlijk achter lijkt te lopen, presteren de modellen 70B en 400B weliswaar lager, maar ze zijn vergelijkbaar met de GPT-4o en GPT-4 Turbo qua academische en algemene kennis, lezen en begrijpen, redeneren en logica, en coderen. Er is echter nog geen enkel Llama 3-model dat de prestaties van GPT-4 in puur wiskundige termen kan evenaren.
Prijs
Voor veel gebruikers zijn de kosten een belangrijke factor. Het GPT-4o-model van OpenAI is gratis beschikbaar voor alle ChatGPT-gebruikers met een limiet van 16 berichten per 3 uur. Als u meer nodig hebt, moet u zich abonneren op ChatGPT Plus voor $ 20/maand. Daarmee verhoogt u de berichtlimiet van GPT-4o naar 80 en krijgt u toegang tot extra GPT-4-modellen.
Aan de andere kant zijn zowel de Llama 3 8B als de 70B open source en gratis, wat een groot voordeel kan zijn voor ontwikkelaars en onderzoekers die op zoek zijn naar een kosteneffectieve oplossing zonder in te leveren op prestaties.
Toegankelijkheid
GPT-4-modellen zijn breed toegankelijk via de generatieve AI-chatbot ChatGPT van OpenAI en via de API. U kunt GPT-4 ook gebruiken op Microsoft Copilot, een manier om GPT-4 gratis te gebruiken . Deze brede beschikbaarheid zorgt ervoor dat gebruikers de mogelijkheden ervan in verschillende use cases eenvoudig kunnen benutten. Llama 3 is daarentegen een open sourceproject dat modelflexibiliteit biedt en bredere experimenten en samenwerking binnen de AI-gemeenschap aanmoedigt. Deze open access-aanpak kan AI-technologie democratiseren en voor een breder publiek beschikbaar maken.
Hoewel beide modellen beschikbaar zijn, is GPT-4 veel gebruiksvriendelijker omdat het is geïntegreerd in populaire productiviteitshulpmiddelen en -services. Llama 3 is daarentegen voornamelijk geïntegreerd in onderzoeks- en bedrijfsplatformen als Amazon Bedrock, Ollama en DataBricks (met uitzondering van de Meta AI chatondersteuning), wat niet aantrekkelijk is voor een grotere markt van niet-technische gebruikers.
GPT-4 of Llama 3, welke is beter?
Welke LLM is beter? GPT-4 is een betere LLM. GPT-4 blinkt uit in multimodaliteit met geavanceerde mogelijkheden voor het verwerken van tekst-, beeld- en audio-invoer, terwijl vergelijkbare functies van Llama 3 nog in ontwikkeling zijn. GPT-4 biedt bovendien een veel grotere contextlengte en betere prestaties, en is breed toegankelijk via populaire tools en services, waardoor GPT-4 gebruiksvriendelijker is.
Het is echter belangrijk om te benadrukken dat de Llama 3-modellen zeer goed hebben gepresteerd voor een gratis en open source-project. Llama 3 blijft dan ook een populaire LLM, geliefd bij onderzoekers en bedrijven vanwege het gratis en open source karakter ervan, terwijl het indrukwekkende prestaties, flexibiliteit en betrouwbare beveiligingsfuncties biedt. Hoewel de gemiddelde consument de Llama 3 misschien niet meteen zal gebruiken, blijft het voor veel onderzoekers en bedrijven de meest haalbare optie.
Samenvattend kan gesteld worden dat GPT-4 zich onderscheidt door zijn geavanceerde multimodale mogelijkheden, grotere contextlengte en naadloze integratie in veelgebruikte tools. Llama 3 biedt met zijn open-source karakter een waardevol alternatief, dat meer maatwerk en kostenbesparingen mogelijk maakt. Qua toepassing is GPT-4 dus ideaal voor mensen die op zoek zijn naar gebruiksgemak en uitgebreide functies in één model, terwijl Llama 3 juist geschikt is voor ontwikkelaars en onderzoekers die op zoek zijn naar flexibiliteit en aanpasbaarheid.