いま読まれている記事

OpenAI、GPT-5クラスの推論能力を備えた音声AIモデル3種類を発表。70以上の言語をリアルタイム翻訳する可能な「GPT-Realtime-Translate」などを、APIを通じて提供

article-thumbnail-260508z

5月7日、OpenAIは、GPT-5クラスの推論能力を備える音声モデル「GPT-Realtime-2」をはじめとした3つの新しいAPIを発表した。

それぞれの音声モデルは、リアルタイムの音声対話や70以上の言語に対応したライブ翻訳、低遅延の文字起こし機能に対応している。

「GPT-Realtime-Translate」は、ユーザーの発話ペースにあわせて70以上の入力言語から13の出力言語へライブ翻訳を実行する。カスタマーサポートや教育現場、グローバル向けのメディア配信などにおいて、各ユーザーが好みの言語で話しながら多言語での自然な音声対話を可能にしている。

本モデルは自然な発話や文脈の切り替わりに対応しているほか、地域特有の発音や専門用語を保持しつつ言葉の意味を正確に捉えて低遅延で処理できる。

また、「GPT-Realtime-2」は複雑な要求を処理して自然に会話を継続する能力を備えており、128Kに拡張されたコンテキストウィンドウや5段階で推論のレベルを調整できる機能を利用できる。OpenAI公式サイトでは、会話セッションのデモも体験可能だ。

くわえて、「GPT-Realtime-Whisper」は文字起こしに特化したモデル。会議の議事録作成やライブ配信の字幕生成といった用途でワークフローを高速化する。

ライター
物心ついたころからFFとドラクエと共に育ち、The Elder Scrolls IV: オブリビオンで洋ゲーの沼にハマる。 ゲームのやりすぎでセミより長い地下生活を送っていたが、最近社会にリスポーンした。 ローグライクTCG「Slay the Spire」の有志翻訳者。
Twitter:@Gre_zzz

この記事に関するタグ

本ページはアフィリエイトプログラムによる収益を得ている場合がございます

新着記事

新着記事

ピックアップ

連載・特集一覧

カテゴリ

その他

若ゲのいたり

カテゴリーピックアップ