Home
» Wiki
»
Cerebras lanceert s werelds snelste AI-inferentietechnologie, 20x sneller dan NVIDIA
Cerebras lanceert s werelds snelste AI-inferentietechnologie, 20x sneller dan NVIDIA
Cerebras Systems heeft zojuist officieel Cerebras Inference aangekondigd, dat wordt beschouwd als de snelste AI-inferentieoplossing ter wereld. Deze Cerebras Inference levert prestaties tot wel 1.800 tokens per seconde voor Llama 3.1 8B-modellen (8 miljard parameters) en 450 tokens per seconde voor Llama 3.1 70B. Dit is tot wel 20 keer sneller dan NVIDIA GPU-gebaseerde AI-inferentieoplossingen die momenteel beschikbaar zijn in de hyperscale clouds wereldwijd, waaronder Microsoft Azure.
Naast de ongelofelijke prestaties is de serviceprijs van deze nieuwe inferentieoplossing ook nog eens heel laag: een fractie van de prijs van populaire GPU-cloudplatforms. Zo kan een klant bijvoorbeeld een miljoen tokens krijgen voor slechts 10 cent, wat een 100 keer hogere prijs/prestatieverhouding voor AI-workloads oplevert.
De 16-bits precisie van Cerebras en de 20x hogere inferentiesnelheid zorgen ervoor dat ontwikkelaars hoogwaardige AI-toepassingen van de volgende generatie kunnen bouwen zonder dat dit ten koste gaat van de snelheid of de kosten. Deze baanbrekende prijs-/prestatieverhouding wordt mogelijk gemaakt door het Cerebras CS-3-systeem en de AI-processor Wafer Scale Engine 3 (WSE-3). De CS-3 biedt 7.000 keer meer geheugenbandbreedte dan de Nvidia H100 en is daarmee de oplossing voor de technische uitdaging van geheugenbandbreedte voor generatieve AI.
Cerebras Inference is momenteel beschikbaar op de volgende drie niveaus:
De Free Tier biedt iedereen die zich aanmeldt gratis API-toegang en ruime gebruikslimieten.
De Developer Tier is ontworpen voor flexibele, serverloze implementaties en biedt gebruikers API-eindpunten voor een fractie van de kosten van bestaande alternatieven op de markt. De Llama 3.1 8B- en 70B-modellen kosten respectievelijk slechts 10 cent en 60 cent per miljoen tokens.
Enterprise Tier-abonnementen bieden verfijnde modellen, op maat gemaakte serviceniveauovereenkomsten en speciale ondersteuning. Ideaal voor aanhoudende workloads: bedrijven kunnen Cerebras Inference benaderen via de door Cerebras beheerde privécloud of on-premises.
Met recordprestaties, concurrerende prijzen en open API-toegang zet Cerebras Inference een nieuwe standaard voor open LLM-ontwikkeling en -implementatie. Cerebras is de enige oplossing die zowel snelle training als gevolgtrekking kan bieden en biedt daarmee geheel nieuwe mogelijkheden voor AI.
Nu AI-trends zich razendsnel ontwikkelen en NVIDIA momenteel een dominante positie in de markt inneemt, signaleert de opkomst van bedrijven als Cerebras en Groq een mogelijke verschuiving in de dynamiek van de gehele sector. Naarmate de vraag naar snellere en kosteneffectievere AI-inferentieoplossingen toeneemt, zijn oplossingen zoals Cerebras Inference goed gepositioneerd om de dominante positie van NVIDIA te bedwingen, met name op het gebied van inferentie.