本編動画
2026年5月11日に、以下の目次で「ほぼ週刊、AI動向のイマとミライ」動画を配信しました。
0:00 本日のアジェンダ
3:25 GEN-1の何が異端なのか
6:56 「物理常識」を、行動データから直接学ばせる
10:08 世界モデル派 vs GEN-1派
12:12 まとめ:物理AGIへのレース、手段はまだ決まっていない
ロボット向けAIの世界では、2026年初頭から「世界モデル」が完全な流行になっている。半導体大手の米NVIDIAのCosmos(70〜140億パラメータ、H100を1万基使って訓練)、Google DeepMindのGenie 3(約110億パラメータ)、米Meta(旧Facebook)のV-JEPA 2(12億パラメータ)など、各社がこぞって「ロボットの行動結果を予測するモデル」の開発に巨額を投じる。米Metaを離れたYann LeCun氏が立ち上げたAMI Labsに至っては、創業4カ月で10.3億ドル(約1545億円)のシード調達を発表したほどだ。ところが、世界モデル派には実用上の壁がある。米VC ベッセマー・ベンチャー・パートナーズの2026年3月のレポートによれば、V-JEPA 2は1アクションを予測するのに約16秒かかる。リアルタイム制御に必要なのは、この100倍の速度だ。長期予測になれば誤差も累積する。「賢く見えるが、遅すぎ・高すぎ・脆すぎる」。これが現状である。 そんな中、米サンマテオ拠点のロボットAI新興企業ジェネラリストAIが2026年4月2日に発表したGEN-1は、世界モデル派とは真逆の道を行く。共同創業者のPete Florence氏(Google DeepMind出身でPaLM-EとRT-2を率いた人物)は公式ブログで「GEN-1は、ロボット動作を後付けで貼り付けたVision-Languageモデルでもなければ、単なる世界モデルでもない」と明言した。パラメータの99%をスクラッチで訓練し、人間が手作業デバイスで集めた50万時間以上の物理相互作用データから、「物理常識」と呼ぶ暗黙知を行動方策の重みに直接埋め込む。世界モデルを内蔵しないにもかかわらず、GEN-1搭載ロボットは複数の物理タスクで成功率99%、箱の組み立てを12.1秒(従来比2.8倍)で完了し、未知の状況でも自分で対処法を選ぶ。共同創業者のAndy Zeng氏が言うように、「物理常識が言葉で記述しにくいのは、それが言語的なものではないからだ。命題の中に存在するのではなく、感知と行動のループの中に存在する」。世界モデル派が「世界をシミュレートして賢くなる」道を行くなら、GEN-1派は「世界に直接さわって賢くなる」道を行く。物理AGIへのレースは、まだ手段が決まっていない。
登壇者情報

遠藤 太一郎
株式会社カナメプロジェクト 取締役
国立大学法人東京学芸大学 教育AI研究プログラム 教授
AI歴25年。18歳からAIプログラミングを始め、米国ミネソタ大学大学院在学中に起業し、AIを用いたサービス提供を開始。AIに関する実装、論文調査、システム設計、ビジネスコンサル、教育等幅広く手がけた後、AIスタートアップのエクサウィザーズに参画し、技術専門役員としてAI部門を統括。上場後、独立し、現在は株式会社カナメプロジェクトCEOとして様々なAI/DAO/データ活用/DX関連のプロジェクトを支援する。国際コーチング連盟ACC/DAO総研 Founder等

湯川 鶴章
株式会社エクサウィザーズ AI新聞 編集長
米カリフォルニア州立大学サンフランシスコ校経済学部卒業。サンフランシスコの地元紙記者を経て、時事通信社米国法人に入社。シリコンバレーの黎明期から米国のハイテク産業を中心に取材を続ける。通算20年間の米国生活を終え2000年5月に帰国。時事通信編集委員を経て2010年独立。2017年12月から現職。主な著書に『人工知能、ロボット、人の心。』(2015年)、『次世代マーケティングプラットフォーム』(2007年)、『ネットは新聞を殺すのか』(2003年)などがある。趣味はヨガと瞑想。妻が美人なのが自慢。


