5月7日、OpenAIは、GPT-5クラスの推論能力を備える音声モデル「GPT-Realtime-2」をはじめとした3つの新しいAPIを発表した。
それぞれの音声モデルは、リアルタイムの音声対話や70以上の言語に対応したライブ翻訳、低遅延の文字起こし機能に対応している。
新しいリアルタイム翻訳モデルを発表できることをうれしく思います。ぜひ本日よりAPIでお試しください。 pic.twitter.com/pi3uIhm2xA
— jason liu (@jxnlco) May 7, 2026
「GPT-Realtime-Translate」は、ユーザーの発話ペースにあわせて70以上の入力言語から13の出力言語へライブ翻訳を実行する。カスタマーサポートや教育現場、グローバル向けのメディア配信などにおいて、各ユーザーが好みの言語で話しながら多言語での自然な音声対話を可能にしている。
本モデルは自然な発話や文脈の切り替わりに対応しているほか、地域特有の発音や専門用語を保持しつつ言葉の意味を正確に捉えて低遅延で処理できる。
Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice agents.
— OpenAI (@OpenAI) May 7, 2026
Voice agents are now real-time collaborators that can listen, reason, and solve complex problems as conversations unfold.
Now available in the API… pic.twitter.com/2DY1LU2vO8
また、「GPT-Realtime-2」は複雑な要求を処理して自然に会話を継続する能力を備えており、128Kに拡張されたコンテキストウィンドウや5段階で推論のレベルを調整できる機能を利用できる。OpenAI公式サイトでは、会話セッションのデモも体験可能だ。
くわえて、「GPT-Realtime-Whisper」は文字起こしに特化したモデル。会議の議事録作成やライブ配信の字幕生成といった用途でワークフローを高速化する。
