【解説AI】世界モデル派（世界をシミュレートして賢くなる）vs GEN-1派（世界に直接さわって賢くなる）｜物理AIの本命はどっちだ

2026年5月11日

本編動画

2026年5月11日に、以下の目次で「ほぼ週刊、AI動向のイマとミライ」動画を配信しました。

0:00 本日のアジェンダ
3:25 GEN-1の何が異端なのか
6:56 「物理常識」を、行動データから直接学ばせる
10:08 世界モデル派 vs GEN-1派
12:12 まとめ：物理AGIへのレース、手段はまだ決まっていない

ロボット向けAIの世界では、2026年初頭から「世界モデル」が完全な流行になっている。半導体大手の米NVIDIAのCosmos（70〜140億パラメータ、H100を1万基使って訓練）、Google DeepMindのGenie 3（約110億パラメータ）、米Meta（旧Facebook）のV-JEPA 2（12億パラメータ）など、各社がこぞって「ロボットの行動結果を予測するモデル」の開発に巨額を投じる。米Metaを離れたYann LeCun氏が立ち上げたAMI Labsに至っては、創業4カ月で10.3億ドル（約1545億円）のシード調達を発表したほどだ。ところが、世界モデル派には実用上の壁がある。米VC ベッセマー・ベンチャー・パートナーズの2026年3月のレポートによれば、V-JEPA 2は1アクションを予測するのに約16秒かかる。リアルタイム制御に必要なのは、この100倍の速度だ。長期予測になれば誤差も累積する。「賢く見えるが、遅すぎ・高すぎ・脆すぎる」。これが現状である。そんな中、米サンマテオ拠点のロボットAI新興企業ジェネラリストAIが2026年4月2日に発表したGEN-1は、世界モデル派とは真逆の道を行く。共同創業者のPete Florence氏（Google DeepMind出身でPaLM-EとRT-2を率いた人物）は公式ブログで「GEN-1は、ロボット動作を後付けで貼り付けたVision-Languageモデルでもなければ、単なる世界モデルでもない」と明言した。パラメータの99%をスクラッチで訓練し、人間が手作業デバイスで集めた50万時間以上の物理相互作用データから、「物理常識」と呼ぶ暗黙知を行動方策の重みに直接埋め込む。世界モデルを内蔵しないにもかかわらず、GEN-1搭載ロボットは複数の物理タスクで成功率99%、箱の組み立てを12.1秒（従来比2.8倍）で完了し、未知の状況でも自分で対処法を選ぶ。共同創業者のAndy Zeng氏が言うように、「物理常識が言葉で記述しにくいのは、それが言語的なものではないからだ。命題の中に存在するのではなく、感知と行動のループの中に存在する」。世界モデル派が「世界をシミュレートして賢くなる」道を行くなら、GEN-1派は「世界に直接さわって賢くなる」道を行く。物理AGIへのレースは、まだ手段が決まっていない。

登壇者情報

遠藤太一郎

株式会社カナメプロジェクト取締役
国立大学法人東京学芸大学教育AI研究プログラム教授

AI歴25年。18歳からAIプログラミングを始め、米国ミネソタ大学大学院在学中に起業し、AIを用いたサービス提供を開始。AIに関する実装、論文調査、システム設計、ビジネスコンサル、教育等幅広く手がけた後、AIスタートアップのエクサウィザーズに参画し、技術専門役員としてAI部門を統括。上場後、独立し、現在は株式会社カナメプロジェクトCEOとして様々なAI/DAO/データ活用/DX関連のプロジェクトを支援する。国際コーチング連盟ACC／DAO総研 Founder等

https://kaname-prj.co.jp/

湯川鶴章

株式会社エクサウィザーズ AI新聞編集長

米カリフォルニア州立大学サンフランシスコ校経済学部卒業。サンフランシスコの地元紙記者を経て、時事通信社米国法人に入社。シリコンバレーの黎明期から米国のハイテク産業を中心に取材を続ける。通算20年間の米国生活を終え2000年5月に帰国。時事通信編集委員を経て2010年独立。2017年12月から現職。主な著書に『人工知能、ロボット、人の心。』（2015年）、『次世代マーケティングプラットフォーム』（2007年）、『ネットは新聞を殺すのか』（2003年）などがある。趣味はヨガと瞑想。妻が美人なのが自慢。

https://community.exawizards.com/aishinbun