ゲーム内でコマンドに従うだけでなく、ゲームの世界を理解し、パズルを解き、さらにはボスを倒すこともできる AI コンパニオンが欲しいと思ったことはありませんか? これはもはやSFではありません。最近、次のような名前の AI モデルが登場しました。 ルミネエージェント はインターネットに旋風を巻き起こし、原神のような複雑な 3D オープンワールド ゲームを何時間も続けてプレイできる能力を披露しました。 しかし、これは単なる洗練されたボットではありません;これは、複雑なデジタル世界で認識、推論、行動できる汎用 AI エージェントの作成に向けた画期的な一歩です。
ルミネエージェントとは一体何なのか?
ライト は、ByteDance の Seed チームによって開発されたジェネラリスト AI エージェントです。その中心的な使命は、人間のような方法で 3D オープンワールド環境と対話することです。強力な 70 億パラメータの視覚言語モデル (Qwen2-VL) に基づいて構築された Lumine は、純粋に視覚入力 (画面からの生のピクセル) を通じてゲームを処理し、正確なキーボードとマウスのアクションを出力することでゲームを制御します。

それを特徴づけているのは、その統一された「知覚-理由-行為」パラダイムです。 ただ反応するだけではありません。それは考えます。ルミネは「ハイブリッド思考」戦略を採用しており、行動を実行する前に現在の状況を推論し、次の動きを計画するために内部独白を適応的に生成します。これにより、計画と適応が必要な長期的なタスクを処理できるようになります。


何ができるの?
熟練度と一般化を実証する
主に原神内で訓練を受けたルミネは、オープンワールドの探索に不可欠な驚くべき幅広いスキルを学びました。
コアゲームプレイのマスタリング: 幅広いタスクを確実に完了できます。 含む:
戦闘: 敵を動的に追跡し、キャラクターを切り替えてコンボ攻撃を実行し、強力な攻撃を回避して弱点を突くためのボスの仕組みを理解することもできます。

パズルを解く: エレメンタルモニュメントを起動し、タイムトライアルを完了し、風の流れに乗って空中でアイテムを収集します。
ナビゲーションとインタラクション: 視覚的なガイドに従い、複雑な地形を横断し、群衆の中の特定の NPC と確実に会話します。

GUIの操作: 3D 世界と 2D メニューをシームレスに切り替えて、料理を作ったり、テレポートしたり、機器を変更したりできます。

数時間にわたるミッションを完了する: 最も驚くべき成果は、原神モントシュタット地域の 5 時間、3 幕のメイン ストーリー全体を自律的に完了し、熟練した人間のプレイヤーと同等の効率を達成できることです。

例外的な「ゼロショット」の一般化: ルミネの能力はトレーニングデータだけに限定されません。これは印象的な一般化を示しています。
- 見たことのない地域へ: まったく新しい地域である Liyue への移動に成功し、これまでの経験がなかったにもかかわらず、メイン ストーリーを進めました。
- まったく新しいゲームへ: Lumine は微調整せずに他のゲームに導入されました。本作は、Wuthering Waves (アクション RPG) のメイン ストーリー コンテンツの約 7 時間 100 分で Honkai: Star Rail (ターンベース RPG) の第 1 章を完了し、コア スキルを馴染みのない仕組みやビジュアルに適応させました。

ルミネはどのようにしてできたのか?
Lumine のようなエージェントを作成するには、洗練されたリソースを大量に消費するレシピが必要です。
拡張可能なトレーニング カリキュラム: チームは 3 段階のトレーニング プロセスを使用しました。
事前トレーニング (1,731 時間のゲームプレイ): このモデルは、膨大な量の人間のゲームプレイを観察することによって、移動、ジャンプ、インタラクションの方法などの基本的なアクションのプリミティブを学習し、基本的なスキルを自然に習得できるようにしました。
指示に従ってください (200 時間のデータ): エージェントは自然言語での行動を基礎づけることを学習し、「前方の敵を倒して宝箱を開けて」などの特定のプレイヤーのコマンドに従うことができるようになりました。
推論 (15 時間のデータ): 最終段階では、モデルに独自の内部推論を生成するよう学習させました。これは、人間の指導なしに長く複雑なミッションを計画し、完了するために重要です。

巨額の計算投資: この取り組みは決して安くはありませんでした。レポートによると、Lumine モデルのトレーニングには 64 個の H100 GPU が必要で、計算コストだけでも 200 万ドル以上と見積もられています。この驚異的な投資は、プロジェクトの規模と AI 研究の限界を押し上げるために必要なリソースを強調しています。
意義
ルミネのゲームパフォーマンスに驚嘆した後、私たちは根本的な疑問を深く考えるかもしれません。AI にゲームをプレイしてもらうこと以上に、このテクノロジーの本当の実用的意義は何でしょうか?実際、その価値は表面をはるかに超えて広がっており、産業と未来の両方の観点からそれを調べることができます。
ゲーム業界に革命を起こす
現在、ゲーム会社からはリアリティの高いAIに対する需要が非常に高まっています。 Honor of Kings から Justice Online Mobile のインテリジェント NPC まで、開発者は巨額の資金を投資してきました。前者のトレーニング費用は数十億元に達し、後者は AI クラウド コンピューティングに年間数億ドルを費やしています。

この文脈において、ルミネは 2 つの破壊的な利点を実証しています。
- 卓越した多用途性: ゲーム内データに依存する従来の特化型 AI とは異なり、ルミネは「視覚的推論」を通じてあらゆるゲームと対話します。ゲーム開発者が内部 API を提供する必要がなく、「ボット」として識別される可能性が低く、単一のモデルで複数のゲームに適応できます。参入障壁が低く、リアリズムが高く、プライバシーが保護されているため、競争力の高いソリューションとなります。
- 驚くべき費用対効果:ルミネのトレーニングには数億ドルの費用がかかりましたが、「Juewu」などのプロジェクトへの天文学的な投資と比較すると「費用対効果が高い」と考えられています。さらに重要なことは、ゲーム開発者は将来モデルをゼロからトレーニングする必要がなくなるかもしれないということです。成熟した Lumine API を直接利用できるため、コストとリスクが大幅に削減されます。
これらの利点を活用して、Lumine は次の 2 つの主要なアプリケーションをゲーム開発に直接導入できます。
- 自動化されたゲーム テスト: 実際のプレイヤーの複雑な操作を 24 時間 365 日シミュレートし、広大なオープンワールドをナビゲートして人間が再現するのが難しい極端なバグを効率的に発見し、テストの範囲と効率を大幅に向上させることができます。
- リバース ゲーム デザイン: AI がゲーム インタラクション ロジックを理解できるようになると、クリエイティブ プロセスをリバース エンジニアリングできるようになります。将来的には、目標とルールを設定することで、AI が自律的に推論してマップ、レベル、ミッション レイアウトの生成を支援し、強力なゲーム デザイン アシスタントになる可能性があります。
しかし、視野を広げると、ルミネの重要性はゲーム業界へのサービスをはるかに超えています。当時の AlphaGo のように、その価値は「ゲームをマスターする」ことではなく、汎用人工知能 (AGI) への道を検証することにあります。
複雑な 3D オープンワールドは AI の完璧な訓練場です。ここで、AI は知覚、推論、計画、意思決定、および長期記憶の維持を学習する必要があります。この能力は、現実世界のロボットやインテリジェント アシスタントに必要な能力と基本的に似ています。ルミネの成功は、複雑な環境に適応して理解できる汎用エージェントを作成できる可能性を示し、さまざまなソフトウェアをシームレスに操作したり、物理世界を理解したりできる将来の AI の基礎を築きます。
確かに、このテクノロジーには懸念もあります。AI がゲームをプレイできるとしたら、何が楽しいのでしょうか?ゲームバランスを崩壊させる“究極のチート”となるのか?これらの問題は、テクノロジーの進化に合わせて継続的な検討と規制が必要です。
しかし、歴史を振り返ると、ディープ ブルーからアルファ碁に至るまで、あらゆる画期的な AI テクノロジーは最終的には初期のゲーム領域を超え、私たちの社会に大きな影響を与えています。ルミネエージェントも例外ではありません。
将来への影響
誇大広告を超えて
「AI がビデオゲームをプレイ」は刺激的な見出しですが、ルミネの意味はさらに深いものです。
- 汎用 AI のベンチマーク: 原神のような複雑な 3D オープンワールドは、汎用人工知能 (AGI) の完璧なテスト場として機能します。これらには、知覚、空間推論、長期計画、およびスキルの構成が必要であり、これらの課題は現実世界でロボットが直面するものと同様です。
- ゲームへの実用的な応用: ゲーム開発者にとって、Lumine のようなテクノロジーは、ゲームのテストを自動化し、大規模なオープンワールド全体で効率的にバグを発見することで、品質保証に革命を起こす可能性があります。また、よりインテリジェントで適応力のある NPC を強化したり、ゲーム デザインを支援したりすることもできます。
- ユニバーサルエージェントへの一歩: ルミネは、単一のモデルが、ナビゲーションや GUI 操作など、さまざまなデジタル環境で機能する移転可能なスキルを学習できることを実証しました。これにより、あらゆるソフトウェアやデジタル インターフェイスを操作できる将来の AI アシスタントへの道が開かれ、デジタル世界と物理世界の間の境界線が曖昧になります。
