OpenAI komt met nieuwe audiomodellen die kunnen transcriberen, vertalen en meer
In dit artikel:
OpenAI heeft drie nieuwe audiomodellen uitgebracht die ontwikkelaars direct via de Realtime‑API kunnen inzetten om spraakfuncties in apps te bouwen. De modellen bedienen elk een eigen taak: GPT‑Realtime‑2 is bedoeld voor vloeiende gesprekken en complexere vraag‑antwoordsessies, met een contextvenster dat viermaal groter is dan dat van GPT‑Realtime‑1.5, waardoor langere dialogen en lastigere opdrachten beter worden afgehandeld. Het model kan ook de toon aanpassen en korte tussenzinnen gebruiken om aan te geven dat het iets nakijkt voordat het uitgebreider antwoordt.
GPT‑Realtime‑Translate levert realtime vertalingen tussen twee sprekers, geschikt voor toepassingen zoals klantenservice, onderwijs en evenementen. GPT‑Realtime‑Whisper zet gesproken taal direct om in tekst, bijvoorbeeld voor automatische transcripties in vergadersoftware.
De modellen zijn per direct beschikbaar: GPT‑Realtime‑2 kost 32 dollar per miljoen tokens, GPT‑Realtime‑Translate 0,034 dollar per minuut en GPT‑Realtime‑Whisper 0,017 dollar per minuut. Hiermee richt OpenAI zich op het versnellen van integratie van geavanceerde spraakfuncties in commerciële en educatieve diensten.