Nvidia heeft zojuist de release aangekondigd van een open-source groot taalmodel (LLM) dat naar verluidt even goed presteert als toonaangevende, gepatenteerde modellen van OpenAI, Anthropic, Meta en Google.
Dit nieuwe model heet NVLM-D-72B, heeft 72 miljard parameters en maakt deel uit van de grote NVLM 1.0-familie van taalmodellen die onlangs door Nvidia is uitgebracht. NVLM 1.0 is in essentie een familie van grote, grensoverschrijdende multimodale taalmodellen die state-of-the-art resultaten opleveren bij visuele taaltaken, en die concurreren met toonaangevende, gepatenteerde modellen (bijv. GPT-4o) en open access-modellen.
Deze nieuwe familie van grote taalmodellen beschikt naar verluidt over ‘multimodale mogelijkheden van industriële kwaliteit’, met superieure prestaties bij uiteenlopende visuele en taaltaken, en bovendien aanzienlijk verbeterde tekstuele feedback. "Om dit te bereiken, creëren en integreren we een hoogwaardige dataset, uitsluitend bestaande uit tekst, in het multimodale trainingsproces, samen met een grote hoeveelheid multimodale wiskundige en redeneergegevens. Dit resulteert in verbeterde wiskundige en coderingsmogelijkheden in meerdere modaliteiten", leggen onderzoekers van Nvidia uit in een verklaring.
Het resultaat is een hoogwaardige LLM die taken kan uitvoeren van simpele taken zoals uitleggen waarom een meme grappig is, tot complexe wiskundige vergelijkingen, stap voor stap. Nvidia is er bovendien in geslaagd om de tekstnauwkeurigheid van het model met gemiddeld 4,3 punten boven de industriële benchmarks te verbeteren, dankzij de multimodale trainingsstijl.

Nvidia lijkt het serieus te nemen met het garanderen dat dit model voldoet aan de nieuwste definitie van "open source" van het Open Source Initiative. Dat doet het niet alleen door de trainingsgewichten openbaar te maken voor beoordeling door de community, maar ook door te beloven de broncode van het model in de nabije toekomst vrij te geven. Dit wijkt aanzienlijk af van de aanpak van concurrenten als OpenAI en Google, die zeer terughoudend zijn geweest over het geheimhouden van details over de gewichten en broncode van hun LLM-modellen. Daarmee positioneert Nvidia NVLM niet per se als een directe concurrent van ChatGPT-4o en Gemini 1.5 Pro, maar als een platform voor externe ontwikkelaars om hun eigen chatbots en AI-applicaties te bouwen.