OpenAI lanceert GPT-4o, een groot multimodaal taalmodel dat realtimegesprekken, vragen en antwoorden, tekstgeneratie en meer ondersteunt.
OpenAI is een van de leveranciers die het tijdperk van generatieve AI vormgaf . De basis voor het succes en de populariteit van OpenAI is de GPT-familie van grote taalmodellen (LLM's) van het bedrijf , waaronder GPT-3 en GPT-4, samen met de ChatGPT- conversatie-AI-service van het bedrijf .
Op 13 mei 2024 kondigde OpenAI tijdens het Spring Updates-evenement van het bedrijf GPT-4 Omni (GPT-4o) aan als het nieuwe multimodale taalmodel van het bedrijf. Als onderdeel van het evenement publiceerde OpenAI meerdere video's waarin de intuïtieve spraakfeedback en uitvoermogelijkheden van het model werden gedemonstreerd.
In juli 2024 bracht OpenAI een kleinere versie van GPT-4o uit: GPT-4o mini . Dit is het meest geavanceerde kleine model van het bedrijf.
Wat is GPT-4o?
GPT-4o is het vlaggenschipmodel in het LLM-technologieportfolio van OpenAI. O staat voor Omni en is niet zomaar een vorm van marketinghype, maar verwijst naar de verschillende modaliteiten van het model voor tekst, afbeeldingen en audio.
Het GPT-4o-model markeert een nieuwe evolutie van de GPT-4 LLM die OpenAI voor het eerst uitbracht in maart 2023. Dit is overigens niet de eerste update van GPT-4, aangezien het model voor het eerst werd gelanceerd in november 2023, met de release van GPT-4 Turbo. De afkorting GPT staat voor Generative Pre-Trained Transformer. Het transformatormodel is een fundamenteel element van generatieve AI en biedt een neurale netwerkarchitectuur die nieuwe uitkomsten kan begrijpen en genereren.
De GPT-4o overtreft ruimschoots wat de GPT-4 Turbo te bieden heeft, zowel qua mogelijkheden als prestaties. Net als zijn voorganger GPT-4 kan GPT-4o worden gebruikt voor gevallen waarbij tekstgeneratie nodig is, zoals samenvattingen en kennisgebaseerde vragen en antwoorden. Dit model kan ook redeneren, complexe problemen oplossen en programmeren.
Het GPT-4o-model introduceert een nieuwe snelle respons op audio-invoer die – volgens OpenAI – vergelijkbaar is met die van mensen, met een gemiddelde responstijd van 320 milliseconden. Het model kan ook reageren met een door AI gegenereerde stem die menselijk klinkt.
In plaats van aparte modellen die audio, afbeeldingen (OpenAI noemt dit visie) en tekst begrijpen, combineert GPT-4o deze modaliteiten in één model. Hierdoor kan GPT-4o elke combinatie van tekst-, beeld- en audio-invoer begrijpen en met uitvoer in al deze vormen reageren.
De belofte van GPT-4o en de mogelijkheden voor multimodale feedback op het gebied van audio met hoge snelheid is dat het model op een natuurlijkere en intuïtievere manier met gebruikers kan communiceren.
De GPT-4o mini is het snelste model van OpenAI en maakt toepassingen tegen lagere kosten mogelijk. De GPT-4o mini is slimmer dan de GPT-3.5 Turbo en 60% goedkoper. De trainingsgegevens lopen tot en met oktober 2023. GPT-4o mini is beschikbaar in tekst- en visiemodellen voor ontwikkelaars via de Assistants API, Chat Completions API en Batch API. De miniversie is ook beschikbaar op ChatGPT, Free, Plus en Team voor gebruikers.
Wat kan GPT-4o doen?
Bij de introductie was de GPT-4o het meest capabele OpenAI-model van allemaal, zowel qua functionaliteit als prestaties.
GPT-4o kan onder meer het volgende doen:
- Interactie in realtime . Het GPT-4o-model kan realtime verbale gesprekken voeren zonder merkbare vertragingen.
- Kennisgebaseerde vragen en antwoorden . Net als alle voorgaande GPT-4-modellen is de GPT-4o getraind met behulp van een kennisbank en kan hij vragen beantwoorden.
- Tekst samenvatten en genereren . Net als alle voorgaande GPT-4-modellen kan de GPT-4o algemene LLM-teksttaken uitvoeren, waaronder het samenvatten en genereren van tekst.
- Multimodaal redeneren en genereren . GPT-4o integreert tekst, spraak en afbeeldingen in één model, waardoor gecombineerde verwerking en respons van gegevenstypen mogelijk is. Het model kan audio, afbeeldingen en tekst met dezelfde snelheid begrijpen. Het kan ook feedback genereren via audio, beelden en tekst.
- Taal- en audioverwerking . GPT-4o beschikt over geavanceerde mogelijkheden voor de verwerking van meer dan 50 verschillende talen.
- Sentimentanalyse . Het model begrijpt de gevoelens van gebruikers over verschillende vormen van tekst, audio en video.
- Stemtoon . GPT-4o kan stemmen met emotionele nuances genereren. Dit maakt het effectief voor toepassingen waarbij gevoelige en genuanceerde communicatie vereist is.
- Analyse van audio-inhoud . Het model kan gesproken taal genereren en begrijpen, wat kan worden toegepast in spraakgestuurde systemen, analyse van audio-inhoud en interactief vertellen van verhalen.
- Realtime vertaling. De multimodale mogelijkheden van GPT-4o ondersteunen realtime vertalingen van de ene taal naar de andere.
- Begrijp afbeeldingen en video's. Het model kan afbeeldingen en video's analyseren, waardoor gebruikers visuele content kunnen uploaden die GPT-4o kan begrijpen, interpreteren en analyseren.
- Gegevensanalyse . Dankzij het denkvermogen en het visuele vermogen kunnen gebruikers gegevens in datatabellen analyseren. GPT-4o kan ook gegevensdiagrammen genereren op basis van analyses of prompts.
- Bestand uploaden. Naast kennisdrempels ondersteunt GPT-4o het uploaden van bestanden, waardoor gebruikers specifieke gegevens voor analyse kunnen aanleveren.
- Contextueel bewustzijn en geheugen. GPT-4o kan zich eerdere interacties herinneren en de context behouden in lange gesprekken
- Groot contextvenster . Met een contextvenster dat maximaal 128.000 tokens ondersteunt, kan GPT-4o consistentie behouden tijdens lange gesprekken of documenten, waardoor het geschikt is voor gedetailleerde analyses.
- Verminder hallucinaties en verbeter de veiligheid . Het model is ontworpen om het creëren van onjuiste of misleidende informatie tot een minimum te beperken. GPT-4o bevat geavanceerde beveiligingsprotocollen om consistente en veilige uitvoer voor gebruikers te garanderen.
Hoe GPT-4o te gebruiken
Er zijn verschillende manieren waarop gebruikers en organisaties GPT-4o kunnen gebruiken.
- ChatGPT is gratis. Het GPT-4o-model wordt gratis beschikbaar gesteld aan gebruikers van de ChatGPT-chatbot van OpenAI. Wanneer GPT-4o beschikbaar is, zal het de huidige standaard voor ChatGPT Free-gebruikers vervangen. ChatGPT Free-gebruikers hebben beperkte toegang tot berichten en hebben geen toegang tot enkele geavanceerde functies, waaronder het uploaden van bestanden en gegevensanalyses.
- ChatGPT Plus . Gebruikers van de betaalde ChatGPT-service van OpenAI krijgen volledige toegang tot GPT-4o, zonder de functiebeperkingen die gratis gebruikers wel hebben.
- API-toegang . Ontwikkelaars hebben toegang tot GPT-4o via de API van OpenAI. Dit maakt integratie in applicaties mogelijk om optimaal te profiteren van de taken die GPT-4o kan uitvoeren.
- Bureaubladtoepassing. OpenAI heeft GPT-4o geïntegreerd in desktoptoepassingen, waaronder een nieuwe app voor Apple's macOS die ook op 13 mei werd uitgebracht.
- Aangepaste GPT. Organisaties kunnen aangepaste GPT-versies van GPT-4o maken die voldoen aan specifieke bedrijfs- of afdelingsbehoeften. Aangepaste modellen worden waarschijnlijk beschikbaar gesteld aan gebruikers via de GPT Store van OpenAI.
- Microsoft OpenAI-services. Gebruikers kunnen de mogelijkheden van GPT-4o verkennen in de preview-modus in Microsoft Azure OpenAI Studio, die speciaal is ontworpen om multimodale invoer, waaronder tekst en beeld, te verwerken. Met deze eerste release kunnen Azure OpenAI Service-klanten experimenteren met de mogelijkheden van GPT-4o in een gecontroleerde omgeving. Er zijn plannen om de mogelijkheden in de toekomst uit te breiden.
Daarnaast kunnen lezers het volgende lezen: Verschillen tussen GPT-4, GPT-4 Turbo en GPT-4o .