AIは既に次のフェーズへ!AIベンチマーク開発者の講演から《知能の仕組み》を紐解き、「エージェントの時代」から「イノベーターの時代」への移行の真価を理解した一週間(2025年7月12日配信版_後編)

目次

本編動画

2025年7月12日に、以下の目次で「ほぼ週刊、AI動向のイマとミライ」動画を配信しました。

1:05 (1)仕事を通じて、AIにエンパワーされている話
3:32 (2)生成AIの次のフェーズに既に入ってるって気づいてました?
9:32 (3)論理的思考のベンチマーク開発者の講演動画より
12:02 (4)テスト時適応(Test-Time Adaptation: TTA)」の登場
21:50 (5)ようやく分かってきた、エージェント(レベル3)とイノベーター(レベル4)の違い
29:52 (6)ARCベンチマークの進化を理解すれば、AIが次にどう進化するのかが分かる
39:11 (7)知能とは、「再利用できる抽象」を発掘して、即興で組み替え続ける力
41:25 (8)AGIへの道:二つの抽象化の融合
51:49 (9)AIは今、広範囲に対応可能な高知能システムへと進化しはじめている

各チャプターの概要は以下の通りです。

(1)仕事を通じて、AIにエンパワーされている話  

(2)生成AIの次のフェーズに既に入ってるって気づいてました?
・最近のAI進化のフェーズ:目を持ったAI(2012年にDeep Learning)、言語を持ったAI(2017年にTransformer)、思考を持ったAI(2024年9月にOpenAI o1 論理思考、リーズニングモデル)→全部Ilya Sutskever氏発の動き
・「目を持ったAI」「言語を持ったAI」「思考を持ったAI」、それぞれの仕組みの簡単な解説  

(3)論理的思考のベンチマーク開発者の講演動画より
・François Chollet(フランソワ・ショレ)氏の見る次の進化
https://youtu.be/5QcCeSsNRks?si=ZNc–fiR1Rm6Jc96
・計算能力の進歩とスケーリングへの過信
・「流動的汎用知能(fluid general intelligence)の欠如:「記憶されたスキル」(静的でタスク固有)と「流動的汎用知能」(初めて見るものを即座に理解する能力)とは違う。違いを明確に示すため、2019年にAIベンチマーク「Abstraction Reasoning Corpus (ARC-1)」を設計。GPT-4.5は、2019年ごろのモデルよりも5万倍にスケールアップしたが、それでもARC-1での精度は約10%程度。(人間は95%以上)。これは、「流動的知能は事前学習のスケールアップからは生まれない」という決定的な結論  

(4)テスト時適応(Test-Time Adaptation: TTA)」の登場
・2024年に入り全てが変わった。AI研究コミュニティは「テスト時適応」という新しいパラダイムに移行
・TTAは、モデルが推論時に遭遇する特定のデータに基づいて、自身の振る舞いを動的に変更する能力に焦点を当てている。これは、事前に読み込まれた知識を問い合わせるのではなく、推論時に学習し適応する能力を意味する。TTAの登場によりARC-1で目覚ましい進歩が見られ、2024年12月にはOpenAIのo3モデルがARCに特化してファインチューニングされたバージョンで人間レベルの性能を達成
・現在(2025年)は完全にテスト時適応の時代に入っており、ARCで優れた性能を発揮するすべてのAIアプローチがTTA技術を使用
・TTAのワークフロー:粗い仮説を考える(chain-of-thought synthesis)→プログラム候補を具体化・検証(symbolic program synthesis)→モデル自体も微調整(test time training)→最終プログラムでテスト入力を変換  

(5)ようやく分かってきた、エージェント(レベル3)とイノベーター(レベル4)の違い
・知能の2つの定義:マーヴィン・ミンスキー 「人間が行うタスクを機械で実行できるようにする」—タスク固有のスキル重視、ジョン・マッカーシー「あらかじめ用意されていない新しい問題を機械が解決できるようにする」—汎化・学習能力重視
・知能はプロセスであり、スキルはそのプロセスの結果。試験のようなベンチマークは、タスク固有のスキルや知識を測るものであり、知能自体を測るのには不適切
・知能レベルを示す3つの特徴:静的スキルと流動的知能の区別、操作領域、情報効率
・AIコミュニティは長年、タスク固有のスキルを追求してきたが、これは自動化にしか繋がらない。真に目指すべきは、自律的な発明を可能にし、科学的進歩を加速すること
・エージェントは自動化の話だが、イノベーターは自律的な発明の話。知能をタスクと定義すれば全自動システムを目指す。知能を学ぶ力と定義すれば、科学の発明・発見に繋がる。これがロードマップのエージェントの時代からイノベーターの時代へのパラダイムシフトか?  

(6)ARCベンチマークの進化を理解すれば、AIが次にどう進化するのかが分かる
・エンジニアは、ベンチマークで高得点を取るようにAIモデルを改良するので、ベンチマークの設計が重要。またショレ氏が次にどのようなベンチマークを開発しているのかが分かれば、AIが次にどう進化するのかが分かる
・ARC-1:2019年にリリース。機械と人間向けのIQテストとして設計。全くできないか、ほとんど全部できるかの二極化してしまうので、もっと進化具合が分かるテストが必要ということでARC-2をリリース
・ARC-1は、Deep Learing時代のテスト。巨大・固定 なパターン認識回路でどこまで解けるのかを計測
・ARC-2は、リーズニングモデル時代のテスト。動的に推論しプログラムを合成するシステムでなければ解けない課題を投げ、考える能力そのものを計測
・ベンチマークの形式(入出力グリッドを数個だけ見せて推論させる方式)は ARC-1 と同じまま。だが ARC-2 では 構成的汎化(compositional generalization)をどれだけ測れるかに、より重点を置いた。 人間でもARC-1はすぐに解けるけど、ARC-2は少し考えないと解けない
・構成的汎化(compositional generalization)能力:既に知っている “小さなルール” を、新しい組み合わせ・順序・文脈で即興合成し、 初見の課題を解く力
・ARC-2:2025年3月にリリース。推論システムとテスト時適応パターンに挑戦。タスクはより洗練されており、熟慮が必要だが、人間にとっては依然として簡単(400人のテストで確認)。GPT-4.5やLlama 4のような基本モデルは0%、静的推論システム(1回の思考の連鎖だけで推論する)でも1〜2%しか達成できない。ARC-2を解決するにはテスト時適応(TTA)が必要だけど、それでも今のTTAは人間レベルには程遠い。
・人間にとって簡単なタスクを解けないAIは、AGIとは呼べない。人間にとって簡単なタスクでAIにとっては難しいタスクを見つけるのが難しくなってくれば、AGIに近づいている証拠。まだその領域ではない。
・ARC-3:開発中。ARC-1およびARC-2の入力-出力ペア形式から大きく離れ、「エージェンシー(主体性)」、つまり探索、対話的な学習、目標設定、自律的な目標達成の能力を評価する。2025年7月に開発者向けプレビュー版、2026年初頭に正式版リリース予定  

(7)知能とは、「再利用できる抽象」を発掘して、即興で組み替え続ける力
・万華鏡仮説:世界は無限に新しく複雑に見えるが、それを記述する 「意味の最小単位(原子)」 は驚くほど少ない。身の回りのすべては、その少数の原子の組み合わせにすぎない
・知能とは、経験を採掘(マイニング)し、繰り返し現れるパターン・不変の構造・共通原理 を見つける。それらを 抽象概念(=意味の原子) として手持ちの道具にする。新しい状況に出会ったら、その抽象概念を その場で組み合わせ直し て意味づけを行う能力のこと
・つまり、知能とは、「再利用できる抽象」を発掘して、即興で組み替え続ける力  

(8)AGIへの道:二つの抽象化の融合
・AGIに足りないもの:抽象の再結合能力。最新のAIモデルでも、推論のために膨大な計算資源が必要。それでもARC-2で高得点をゲットできない。なぜなら「構成的汎化(compositional generalization)」能力が足りないから。既に知っている “小さなルール” を、新しい組み合わせ・順序・文脈で即興合成し、 初見の課題を解く力
・二種類の抽象化:タイプ 1(value-centric / value-analogy)直感的な「パッと見で分かる」認識・感覚、タイプ 2(program-centric / program-analogy)頭の中で手順を分解→再構成して問題を解く論理思考
・すべての認知はこれら二つの形式の抽象化の組み合わせから生まれる
・今のAIは、右脳的能力(直感的なパッと見で分かる認識・感覚)は得意だが、左脳的能力(頭の中で手順を分解→再構成して問題を解く論理思考)が不得意
・タイプ2の抽象化能力を得るためには?
・AGIへの道:二つの抽象化の融合。人間は両方の形式の抽象化を組み合わせるのが得意(例:チェスで直感(タイプ1)を使って候補を絞り、計算(タイプ2)を行う)  

(9)AIは今、広範囲に対応可能な高知能システムへと進化しはじめている
・AIは、経済的価値のある仕事のほとんどが可能なシステムから、見たこともないような課題も解けるようなシステムへと進化しようとしている
・抽象化の課題が解決し、再結合が効率よくできるようになれば、エージェントの時代からイノベーターの時代へと移行する
・AIは今、過去のデータのパターンをベースにしながらも広範囲に対応可能な高知能システムへと進化しはじめている
・「人間が得意なこと、AIが得意なこと」が次々と変化する。「AIにはこれができない」と決めつけるのは危険。2年先以上の未来を予測することも、注意が必要

個別テーマ解説動画

また、各テーマに分割した動画も配信しました。興味のあるトピックに応じてご覧ください。

[切抜解説]「テスト時適応(TTA)」というパラダイムを理解しておこう

0:00 計算能力の進歩とスケーリングへの過信
1:01 流動的汎用知能(fluid general intelligence)の欠如
2:16 AI研究コミュニティは「テスト時適応(TTA)」という新しいパラダイムに移行
4:50 テスト時適応のワークフロー
7:16 推論時に学習し適応する能力
11:26 今ホットなテーマは?

※サムネイル画像はEric FlemingによるPixabay画像を活用

[切抜解説]エージェントは自動化の話だが、イノベーターは自律的な発明の話。いよいよパラダイムシフトが始まるか!?

0:00 知能の2つの定義
0:54 知能はプロセスであり、スキルはそのプロセスの結果
3:08 知能レベルを示す3つの特徴
6:08 エージェントの時代からイノベーターの時代へ
8:01 次なるベンチマークを知ることが、AI進化の理解につながる
8:22 ARC-1
9:34 ARC-2
14:46 ARC-3(開発中)
17:20 AGIに向け、一体何が不足しているのか?

※サムネイル画像はPublicDomainPicturesによるPixabay画像を活用

登壇者情報

遠藤 太一郎

株式会社カナメプロジェクト CEO
国立大学法人東京学芸大学 教育AI研究プログラム 教授

AI歴25年。18歳からAIプログラミングを始め、米国ミネソタ大学大学院在学中に起業し、AIを用いたサービス提供を開始。AIに関する実装、論文調査、システム設計、ビジネスコンサル、教育等幅広く手がけた後、AIスタートアップのエクサウィザーズに参画し、技術専門役員としてAI部門を統括。上場後、独立し、現在は株式会社カナメプロジェクトCEOとして様々なAI/DAO/データ活用/DX関連のプロジェクトを支援する。国際コーチング連盟ACC/DAO総研 Founder等

https://kaname-prj.co.jp/

湯川 鶴章

株式会社エクサウィザーズ AI新聞 編集長

米カリフォルニア州立大学サンフランシスコ校経済学部卒業。サンフランシスコの地元紙記者を経て、時事通信社米国法人に入社。シリコンバレーの黎明期から米国のハイテク産業を中心に取材を続ける。通算20年間の米国生活を終え2000年5月に帰国。時事通信編集委員を経て2010年独立。2017年12月から現職。主な著書に『人工知能、ロボット、人の心。』(2015年)、『次世代マーケティングプラットフォーム』(2007年)、『ネットは新聞を殺すのか』(2003年)などがある。趣味はヨガと瞑想。妻が美人なのが自慢。

https://community.exawizards.com/aishinbun

よかったらシェアしてね!

この記事を書いた人

人ひとりが自分な好きなこと、得意なことを仕事にして、豊かに生きる。 そんな社会に向けて、次なる「The WAVE」を共に探り、学び、創るメディアブランドです。

目次