OpenAIは2月15日、入力したテキストから最長1分の動画を生成するAIモデル「Sora」を発表した。
発表にあわせてAIで生成された『Minecraft』の映像が公開されており、その再現性の高さがXなどのSNS上で大きな話題を呼んでいる。
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
「Sora」は「GPT-4」などを手掛けたOpenAIが開発し、テキストプロンプトから動画を生成できるAIモデルだ。
発表に際してOpenAIの公式X(旧Twitter)アカウントや公式ウェブサイト上に複数の生成された映像が公開されており、3DCGのアニメや実写映像風の高精細な映像を視聴できる。
文字などが変形していたりと部分的に違和感のある描写を確認できるが、いずれもAIで生成したと判別できない品質になっている。また、ドローン撮影風の映像など、複雑な挙動のカメラワークを伴う映像もも見事に生成されている。
いっぽう、物理的なシミュレーションを再現することが不得意であるといった弱点があり、現時点で悪用されるリスクも高い。そういった問題から「Sora 」は執筆時点で一般公開されておらず、フィードバックを得るために一部のレッド・チームやビジュアルアーティスト、デザイナー、映像作家などにアクセスを許可しているという。
Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6
— OpenAI (@OpenAI) February 15, 2024
また、あわせて「sora」の技術レポートが公開されており、同レポートには「sora」で生成された『Minecraft』の映像が公開されている。
映像はもちろん、すべてにおいてオリジナルの『Minecraft』を再現できている訳ではなく、部分的に存在しないアイテムやクリーチャーの存在が確認できる。
とはいえ『Minecraft』らしいボクセルの世界やGUI、プレイヤーが所持する武器などはかなり特徴を捉えており、ふと映像を見ただけではオリジナルの『Mincraft』であるように思わせるクオリティだ。
さらに、技術レポートによると映像は「Minecraft 」というキャプションのみで生成されている。
この映像は大きな話題を呼んでおり、NVIDIAにおけるAI技術の研究者であるJim Fan氏など、近しい領域で活躍する専門家もリアクションをしている。
Minecraft has been achieved internally
— Jim Fan (@DrJimFan) February 16, 2024
Yes this is Sora's hallucination of Minecraft. It can't resist the urge to make the sky look less pixelated 😅 pic.twitter.com/otTr9dnqf4
めまぐるしい生成AI技術の発展を知らしめる「Sora」。公式サイトでは本記事に掲載していない映像や詳細情報などが多数掲載されているため、興味がある読者は公式の技術レポートなどをチェックしよう。