いま読まれている記事

OpenAI、GPT-5クラスの推論能力を備えた音声AIモデル3種類を発表。70以上の言語をリアルタイム翻訳する可能な「GPT-Realtime-Translate」などを、APIを通じて提供

2026年5月8日 13:32

反応

5月7日、OpenAIは、GPT-5クラスの推論能力を備える音声モデル「GPT-Realtime-2」をはじめとした3つの新しいAPIを発表した。

それぞれの音声モデルは、リアルタイムの音声対話や70以上の言語に対応したライブ翻訳、低遅延の文字起こし機能に対応している。

新しいリアルタイム翻訳モデルを発表できることをうれしく思います。ぜひ本日よりAPIでお試しください。 pic.twitter.com/pi3uIhm2xA
— jason liu (@jxnlco) May 7, 2026

「GPT-Realtime-Translate」は、ユーザーの発話ペースにあわせて70以上の入力言語から13の出力言語へライブ翻訳を実行する。カスタマーサポートや教育現場、グローバル向けのメディア配信などにおいて、各ユーザーが好みの言語で話しながら多言語での自然な音声対話を可能にしている。

本モデルは自然な発話や文脈の切り替わりに対応しているほか、地域特有の発音や専門用語を保持しつつ言葉の意味を正確に捉えて低遅延で処理できる。

Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice agents.

Voice agents are now real-time collaborators that can listen, reason, and solve complex problems as conversations unfold.

Now available in the API… pic.twitter.com/2DY1LU2vO8
— OpenAI (@OpenAI) May 7, 2026

また、「GPT-Realtime-2」は複雑な要求を処理して自然に会話を継続する能力を備えており、128Kに拡張されたコンテキストウィンドウや5段階で推論のレベルを調整できる機能を利用できる。OpenAI公式サイトでは、会話セッションのデモも体験可能だ。

くわえて、「GPT-Realtime-Whisper」は文字起こしに特化したモデル。会議の議事録作成やライブ配信の字幕生成といった用途でワークフローを高速化する。

OpenAI公式サイトのリリース記事はこちら

ライター

Grezzz

物心ついたころからFFとドラクエと共に育ち、The Elder Scrolls IV: オブリビオンで洋ゲーの沼にハマる。ゲームのやりすぎでセミより長い地下生活を送っていたが、最近社会にリスポーンした。ローグライクTCG「Slay the Spire」の有志翻訳者。
Twitter：@Gre_zzz

反応

この記事に関するタグ

本ページはアフィリエイトプログラムによる収益を得ている場合がございます

いま読まれている記事

OpenAI、GPT-5クラスの推論能力を備えた音声AIモデル3種類を発表。70以上の言語をリアルタイム翻訳する可能な「GPT-Realtime-Translate」などを、APIを通じて提供

この記事に関するタグ

新着記事

新着記事

ピックアップ

連載・特集一覧

カテゴリ

その他

ランキング

SNSで更新情報をお届け！

カテゴリーピックアップ

インタビュー

ゲームの企画書

若ゲのいたり〜ゲームクリエイターの青春〜