本編動画
2024年8月9日に、以下の目次で「ほぼ週刊、AI動向のイマとミライ」動画を配信しました。
1:02 (1)今週のトピック紹介
3:33 (2)ここ3ヵ月で「トップAIモデル」が出揃った
7:50 (3)GoogleのGeminiがチャットボットで首位に
16:01 (4)最近のモデルは「事後学習」での差別化が進んでいる
21:52 (5)AWSが「Llama蒸留サービス」をスタート
33:03 (6)Character.AIの創業者/主要メンバーがGoogleへと移籍
37:13 (7)マイクロソフトがOpenAIを競合認定
38:13 (8)OpenAIが約50億ドルの大赤字
41:02 (9)SAM2とT-Rex2の組み合わせで最強のトラッキングが可能に
45:49 (10)AppleがLLMエージェント評価に特化したベンチマーク「MMAU」を開発
49:50 (11)Cohereのプロンプトチューナー公開でプロンプトエンジニアがいよいよ不要に!?
各チャプターの概要は以下の通りです。
(1)今週のトピック紹介
(2)ここ3ヵ月で「トップAIモデル」が出揃った
・5月にGPT-4o/Gemini 1.5 Pro、6月にClaude 3.5 Sonnet、7月にLlama 3.1/Mistral Large 2/GPT4o mini、8月にGemini 1.5 Pro Experimental 0801が、それぞれ発表
・このまとめ投稿をXにしたAlexandr Wang氏によると、各社とも同じような性能のLLMを発表した理由は、各社ともほぼ同時期にNVIDIAの「H100」チップを購入したから
・次期モデルのH200は不具合があったが、そろそろ各社がまたH200での学習を進めているはず
(3)GoogleのGeminiがチャットボットで首位に
・Googleの「Gemini 1.5 Pro Experimental 0801」がChatbot Arenaで首位に。とはいえ、ぶっちぎりというワケでもない
・数学やコーディングに関してはClaudeの方が得意、Hard Prompt(難しいプロンプト)に関してはGPT-4oが得意など、分野によって得手不得手が分かれている
・Androidやスマートグラスに搭載された場合、結構すごいことになりそう
・Gemini 1.5 Pro Experimental 0801はアウトプットがテキストのみなので、よりビジュアルでのアウトプットが欲しい場合は、アーティファクト機能が搭載されて出力が強いClaude 3.5 Sonnetが良さそう
・インプットであればGemini、アウトプットであればClaudeという切り分けで考えると、GPTがちょっと中途半端な立ち位置の印象
(4)最近のモデルは「事後学習」での差別化が進んでいる
・現状でも毎月のように最先端が変わっているので、Llama 4についてもそれくらいのインパクトになることが想定される
・事前学習(Pre-Training)と事後学習(Post-Training)の考え方
・Llama 3.1 405Bでは、事前トレーニング済みのモデルに対して、教師あり微調整(Supervised Fine-Tuning)や拒否サンプリング(Rejection Sampling)、直接選好最適化(Direct Preference Optimization)などを含む数回の調整を行って最終的なチャットモデルを作成しているとのこと
・以前は事前学習に比重が割かれる傾向が強かったが、最近は事後学習に割かれる傾向が強いと、Alexandr Wang氏が説明
・事前はあまり差がつかなくなってきているので、結果として事後学習で差をつけようとしてそういうトレンドになっているのかも
(5)AWSが「Llama蒸留サービス」をスタート
・そもそも「蒸留」とは
・企業ごとに特定ドメイン特化させた小さなモデルを作るために必要になることが想定される
・RAGとファインチューニングという2つの手法がある中で、なぜMetaはファインチューニングの方を推すのか
・Llamaはオープンソースなので、基本的にはクローズドモデルにある様々な規約の制約を受けることがない点が大きなメリットと思われる
・マルチエージェント時代を想定した小さなモデルなのかもしれない
・直感的な「システム1蒸留」と論理推論的な「システム2蒸留」
・複数ステップを経て回答するような工程の際に、最初のプロンプトと最終結果を組み合わせて学習させることで、複雑な問題に対しても一発で回答できるのではないかというシステム2蒸留の考え方がMetaから論文で発表されている
・人間も「慣れたら工程をすっ飛ばして難しい処理を進める」ので、そこから示唆を得ているらしい
(6)Character.AIの創業者/主要メンバーがGoogleへと移籍
・日本ではさほど話題になっていないが、海外では大人気サービス
・共同創設者兼CEOのNoam Shazeer氏をはじめ、一部の主要メンバーがGoogleへと移籍
・Character.AIが経営の手腕が問われるフェーズに入ったので、研究者であるCEOらは研究に専念するために移籍を承諾か
(7)マイクロソフトがOpenAIを競合認定
・130億ドル出資したのに競合認定
(8)OpenAIが約50億ドルの大赤字
・約50億ドルの負債を抱えるとのこと。2024年のサーバーレンタル費用だけで40億ドル
・AIの主戦場が軍拡競争になってきたので、「赤字は当たり前」のフェーズになってきている。赤字は驚く話ではない
(9)SAM2とT-Rex2の組み合わせで最強のトラッキングが可能に
・SAM2(Segment Anything Model 2)とT-Rex2を組み合わせることで、一つの視覚プロンプトで映像内の全てのオブジェクトがトラッキングできる
・SAM2を使うことで、簡単操作でセグメント対象のトラッキングが可能になる
・T-Rex2を使うことで、セグメント対象に類似する物体を全て選んでくれる
・魚から銃弾まで、物体の群をトラッキングするので、例えば工場の検品のようなシーンで重宝すると思われる
(10)AppleがLLMエージェント評価に特化したベンチマーク「MMAU」を開発
・MMAU(Massive Multitask Agent Understanding)
・理解力、推論力、計画力、問題解決力、自己修正能力が評価対象能力
・時代がチャットボットからエージェントへと移行してきた印象
・評価対象能力だけでなく、どこで活用できるかという「ドメイン」こそが重要になってくるので、そこまでベンチマークに載せている
(11)Cohereのプロンプトチューナー公開でプロンプトエンジニアがいよいよ不要に!?
・Anthropicと同様、プロンプトエンジニアリングの機能を実装
・評価指標もセットした上でプロンプトを移動でチューニングしてくれるので、ますますプロンプトエンジニアの仕事がなくなる予感
・見方を変えれば、エンジニア不要でプロンプトの最適化ができるようになってきた
個別テーマ解説動画
また、各テーマに分割した動画も配信しました。興味のあるトピックに応じてご覧ください。
ここ3ヵ月で「トップAIモデル」が出揃ったので、軽く時系列を紹介してみた
0:00 2024年5月〜7月で怒涛のAIモデルリリース
2:21 各社ともNVIDIA「H100」チップによる学習の成果か
3:26 次の波は「H200」活用成果のタイミング
※サムネイル画像はJean-Paul JandrainによるPixabay画像を活用
最近のモデルは「事後学習」での差別化が進んでいる
0:00 Metaの「Llama 4」は業界最先端になると言われているが…
1:10 事前学習(Pre-Training)と事後学習(Post-Training)の考え方
3:48 すでに事前学習での差別化は難しい時代
OpenAIが大赤字の中、とうとうマイクロソフトから競合認定された件
0:00 約50億ドルの大赤字だがLLM開発では「普通」のこと
2:48 マイクロソフトがOpenAIを競合認定
※サムネイル画像はLeopicturesによるPixabay画像を活用
AWSも参入。「AI蒸留」を使ったサービスがこれから続々と登場する予感
0:00 そもそも「蒸留(Distillation)」とはどんな技術なのか
3:03 なぜMetaはRAGではなくファインチューニングの方を推すのか
7:34 複雑な問題に対して一発で回答する「システム2蒸留」が面白い
もはやプロンプトエンジニア不要!?Cohereのプロンプトチューナーが有り難すぎる
0:00 カナダ拠点のCohereがプロンプトエンジニアリングの機能を実装
1:19 実際にプロンプトチューナーのデモをいじってみる
5:53 プロンプトエンジニアリングの民主化が一気に進みそう
※サムネイル画像はThis_is_EngineeringによるPixabay画像を活用
GoogleのGeminiがチャットボットで首位になったが、圧倒的というわけではなさそう
0:00 「Gemini 1.5 Pro Experimental 0801」がChatbot Arenaで首位に
1:45 数学やコーディングに関してはClaudeの方が得意
3:50 GeminiがAndroidやスマートグラスに搭載されたらスゴそう
6:08 インプットであればGemini、アウトプットであればClaude
創業者/主要メンバーがGoogleへと電撃移籍! 世界で大人気の「Character.AI」はどうなるのか
0:00 日本ではさほど話題になっていないが、海外では大人気のサービス
1:25 Inflection AIも幹部全員がマイクロソフトに引き抜かれた
2:13 Character.AIが「経営の手腕が問われるフェーズ」に入ったか
※サムネイル画像はGerd AltmannによるPixabay画像を活用
要注目技術!SAM2とT-Rex2の組み合わせで最強のトラッキングが可能に
0:00 一つの視覚プロンプトで映像内の全オブジェクトがトラッキングできる
0:55 SAM2を使うことで、セグメント対象のトラッキングが簡単にできる
2:23 T-Rex2を使うことで、セグメント対象の類似物体を全て選んでくれる
3:20 工場の検品のようなシーンで重宝すると思われる
AppleがLLMエージェント評価に特化したベンチマーク「MMAU」を開発
0:00 Massive Multitask Agent Understanding
2:05 時代がチャットボットからエージェントへと移行してきた印象
2:39 どこで活用できるかという「ドメイン」こそが重要になってくる
※サムネイル画像はGordon JohnsonによるPixabay画像を活用
登壇者情報
遠藤 太一郎
株式会社カナメプロジェクト CEO
国立大学法人東京学芸大学 教育AI研究プログラム 准教授
AI歴25年。18歳からAIプログラミングを始め、米国ミネソタ大学大学院在学中に起業し、AIを用いたサービス提供を開始。AIに関する実装、論文調査、システム設計、ビジネスコンサル、教育等幅広く手がけた後、AIスタートアップのエクサウィザーズに参画し、技術専門役員としてAI部門を統括。上場後、独立し、現在は株式会社カナメプロジェクトCEOとして様々なAI/DAO/データ活用/DX関連のプロジェクトを支援する。国際コーチング連盟ACC/DAO総研 Founder等
Lucky☆TEDDY
The WAVE フェロー
The WAVEのリサーチ責任者であり、「良心」を司る存在でもある人物。左手には様々な最先端テクノロジーが詰まった福袋を、右手には幸せと豊さを呼ぶ黄金の小槌を持ち、毎日ゴキゲンに情報の荒波をサーフィンしながら、常に2歩先の未来を見据えて鋭い切り口で世の中の動向を分析する。たまに毒づくこともあるが、それも愛ある証拠。帽子には良心の「良」の文字が刻まれている