Amazon introduceerde vandaag Nova Sonic, een geavanceerd spraak-naar-spraakmodel waarmee ontwikkelaars apps kunnen bouwen die in realtime met menselijke stemmen kunnen communiceren. Volgens Amazon biedt dit nieuwe audiomodel de beste prijs-kwaliteitverhouding en een lage latentie.
Normaal gesproken moeten ontwikkelaars voor de ontwikkeling van een spraakgestuurde toepassing met meerdere modellen tegelijk werken:
- Spraakherkenningsmodel voor het omzetten van audio naar tekst.
- Large Language Model (LLM) voor het begrijpen en genereren van reacties.
- Tekst-naar-spraakmodel.
Deze aanpak is niet alleen complex, maar laat ook vaak belangrijke akoestische contexten zoals toon, prosodie en spreektrant over het hoofd.

Nova Sonic pakt deze uitdaging aan door het begrijpen en genereren van geluid te integreren in één model. Dankzij de uniforme aanpak kan het model toon, stijl en audio-invoer vastleggen, waardoor dialogen natuurlijker klinken. Het bepaalt ook de juiste reactietijd en kan beter omgaan met binnendringende meldingen.
Nova Sonic ondersteunt zowel mannelijke als vrouwelijke stemmen met veel Engelse accenten, zoals Amerikaans en Brits. Ontwikkelaars kunnen via Amazon Bedrock toegang krijgen tot modellen met behulp van een bidirectionele streaming-API die functieaanroepen ondersteunt. Dit model beschikt bovendien over ingebouwde beveiligingsfuncties, zoals inhoudsmoderatie en watermerken.
In dit verband kondigde OpenAI vorige maand een nieuwe generatie spraak-naar-tekstmodellen aan: gpt-4o-transcribe en gpt-4o-mini-transcribe. Deze modellen bieden aanzienlijke verbeteringen op het gebied van woordfouten, taalherkenning en nauwkeurigheid ten opzichte van eerdere Whisper-modellen.