SoftBank World 2024で孫正義さんの情報力に改めて脱帽し、OpenAI o1の仕組みや進化についてAINOW編集長“おざけん”さんと盛り上がった一週間(2024年10月11日配信版)

目次

本編動画

2024年10月11日に、以下の目次で「ほぼ週刊、AI動向のイマとミライ」動画を配信しました。

0:58 (1)特別ゲスト:おざけん(小澤 健祐)さん自己紹介!
2:59 (2)「SoftBank World 2024」で提示されたAIの「8段階」進化
9:19 (3)「Q関数」を活用した強化学習の仕組みを考える
29:54 (4)OpenAIの一人勝ちか、それとも他社もすぐに追いつくのか
40:15 (5)AIに対する「メタ認知」のすゝめ by.おざけんさん

各チャプターの概要は以下の通りです。

(1)特別ゲスト:おざけん(小澤 健祐)さん自己紹介!  

(2)「SoftBank World 2024」で提示されたAIの「8段階」進化
・孫正義が、非常に詳しくOpenAI o1の仕組み(非公開情報)を解説
・ソフトバンク(傘下のファンド)がOpenAIに5億ドル(約700億円)投資をしているので、その際に詳細は仕組みの説明を受けたか
・Google DeepMindによる段階的なAGIの定義と、OpenAIのAI開発の5段階ロードマップと、ソフトバンクによるAIの8段階進化ロードマップ
※DeepMindによる段階的なAGIの定義については以下の記事を参照
https://ainow.ai/2024/02/02/275671/#D…  

(3)「Q関数」を活用した強化学習の仕組みを考える
・数千のエージェントが同時に「試行錯誤↔︎正解したら報酬」というループ(試行錯誤)を、1エージェントごとに数億〜数十億回行っているとのこと(おそらくは世界中で初出しの情報)
・Q関数とは、どのエージェントのどの方法を採用すれば報酬が最大化するかを学習するためのもの
・LLMにおいてはこの「報酬」の考え方が難しい。囲碁や将棋のような「完全情報ゲーム」であれば報酬が明確だが、LLMの場合は正解の定義が難しく、それゆえに報酬設計のあり方が難しい
・Q*に関する(と思われる)論文から考える「強化学習」と「Q関数」の仕組みと考え方。1エージェントごとに数億〜数十億回行っている部分については、以前本チャンネルで解説した「モンテカルロ木探索(MCTS)」のことを指していると思われる
 OpenAI o1では「推論時探索」が使われているのかも。活用技術を色々と…  
・ハルシネーションは「正解があるもの」に対して起こるもの。人間は生成AIに答え(正解)を求めすぎ  

(4)OpenAIの一人勝ちか、それとも他社もすぐに追いつくのか
・ライバル社(Anthropic、Google)は、OpenAIの論理思考力にすぐに追いつけるのか
・3〜4カ月前のCohere CEOがインタビューで「論理的思考がなかなか解けない」と発言するなど、難度が高そう
・一方でXで、Combining Dynamic Chain of Thoughts、Reflection、Verbal reinforcementを組み合わせたプロンプトとすることで、Claude 3.5 SonnetでOpenAI o1のような論理的思考力が実現できるかもしれないという投稿があり、意外と早く追いつける可能性もある
参考:https://x.com/_philschmid/status/1842…
・エージェントでいかに社会が変わるのか  

(5)AIに対する「メタ認知」のすゝめ by.おざけんさん

個別テーマ解説動画

また、各テーマに分割した動画も配信しました。興味のあるトピックに応じてご覧ください。

やはり孫正義氏は情報量が違う!OpenAI o1の仕組みをここまで詳しく解説したのは世界初かも

0:00 OpenAI o1の中身まで語ったのは世界初かも!?
5:37 OpenAIとソフトバンクとGoogle、それぞれが考えるAI進化のロードマップ

※サムネイル画像はソフトバンク社のビジネスブログより

GoogleやAnthropicは「論理的思考力」でOpenAIに追いつけるのか?

0:00 OpenAIの一人勝ちか、それとも他社もすぐに追いつくのか
2:59 Claude 3.5 Sonnetでo1のような論理的思考力が実現できるかも!?
6:18 エージェントでいかに社会が変わるのか
9:25 AIに対する「メタ認知」のすゝめ by.おざけんさん

※サムネイル画像はPexelsによるPixabay画像を活用

「Q関数」って何?数億〜数十億回の試行錯誤をするエージェントの仕組みを考える

0:00 まずはソフトバンクのビジネスブログ情報を確認
2:32 LLMにおいてはこの「報酬」の考え方が難しい
6:16 Q*(キュースター)論文から考える「Q関数」を活用した強化学習の仕組み
15:31 1エージェントごとに数億〜数十億回の試行錯誤が行われるってどういうこと?

※サムネイル画像はMirosław i Joanna BucholcによるPixabay画像を活用

よかったらシェアしてね!

この記事を書いた人

人ひとりが自分な好きなこと、得意なことを仕事にして、豊かに生きる。 そんな社会に向けて、次なる「The WAVE」を共に探り、学び、創るメディアブランドです。

目次