GPT-Realtime-2 : OpenAI quadruple la fenêtre de contexte et ajoute le raisonnement GPT-5 à la voix IA
Tous les articles du blog
128 000 tokens de contexte, un raisonnement de niveau GPT-5, et deux modèles compagnons pour la traduction et la transcription en temps réel. Avec GPT-Realtime-2, OpenAI ne se contente pas d'une mise à jour : c'est un repositionnement complet de sa stratégie vocale.
GPT-Realtime-2 : ce que le nouveau modèle vocal change
Le bond le plus concret : la fenêtre de contexte passe de 32 000 à 128 000 tokens. Pour les développeurs qui construisent des agents vocaux, cela signifie des conversations plus longues et plus complexes sans perte de mémoire. OpenAI annonce 11 % de gains de performance par rapport à GPT-Realtime-1.5, sorti en février dernier.
Sur le benchmark MultiChallenge, le modèle atteint 30,5 % contre 20,6 % pour la version précédente. Sur ComplexFuncBench, qui mesure la précision des appels de fonctions, le score grimpe à 66,5 % (contre 49,7 %). Des chiffres qui parlent aux équipes techniques.
Trois modèles vocaux, pas un seul
OpenAI lance en parallèle GPT-Realtime-Translate pour la traduction simultanée (0,034 $/min) et GPT-Realtime-Whisper pour la transcription en streaming (0,017 $/min). Deux nouvelles voix, Cedar et Marin, rejoignent aussi le catalogue de l'API.
Le modèle principal conserve les tarifs de la version 1.5 : 32 $ par million de tokens audio en entrée, 64 $ en sortie. Le vrai levier d'économie reste le cache de prompts, qui réduit les coûts d'entrée d'environ 80×.
GPT-Realtime-2 face à la concurrence vocale
Cette sortie place OpenAI loin devant sur le marché des API vocales speech-to-speech. Google propose des capacités similaires via Gemini, mais sans modèle dédié aussi abouti. xAI a lancé le clonage vocal par API récemment, mais vise un usage différent.
Le vrai message ici : les agents vocaux ne sont plus un gadget. Avec le support SIP natif pour la téléphonie, le support MCP et les appels d'outils parallèles, OpenAI construit l'infrastructure complète pour remplacer les centres d'appels humains. Vous trouverez difficile de distinguer GPT-Realtime-2 d'un agent humain au téléphone, et c'est précisément l'objectif.
Ce qu'il faut retenir sur GPT-Realtime-2
L'API Realtime sort officiellement de la bêta et entre en production (GA). Pour les développeurs, c'est le signal qu'OpenAI considère la voix comme un pilier stratégique à part entière, au même titre que le texte et le code.