SoftBank World 2024で孫正義さんの情報力に改めて脱帽し、OpenAI o1の仕組みや進化についてAINOW編集長“おざけん”さんと盛り上がった一週間（2024年10月11日配信版）

2024年10月11日2024年10月28日

本編動画

2024年10月11日に、以下の目次で「ほぼ週刊、AI動向のイマとミライ」動画を配信しました。

0:58 (1)特別ゲスト：おざけん（小澤健祐）さん自己紹介！
2:59 (2)「SoftBank World 2024」で提示されたAIの「8段階」進化
9:19 (3)「Q関数」を活用した強化学習の仕組みを考える
29:54 (4)OpenAIの一人勝ちか、それとも他社もすぐに追いつくのか
40:15 (5)AIに対する「メタ認知」のすゝめ by.おざけんさん

各チャプターの概要は以下の通りです。

(1)特別ゲスト：おざけん（小澤健祐）さん自己紹介！ 　

(2)「SoftBank World 2024」で提示されたAIの「8段階」進化
・孫正義が、非常に詳しくOpenAI o1の仕組み（非公開情報）を解説
・ソフトバンク（傘下のファンド）がOpenAIに5億ドル（約700億円）投資をしているので、その際に詳細は仕組みの説明を受けたか
・Google DeepMindによる段階的なAGIの定義と、OpenAIのAI開発の5段階ロードマップと、ソフトバンクによるAIの8段階進化ロードマップ
※DeepMindによる段階的なAGIの定義については以下の記事を参照
https://ainow.ai/2024/02/02/275671/#D… 　

(3)「Q関数」を活用した強化学習の仕組みを考える
・数千のエージェントが同時に「試行錯誤↔︎正解したら報酬」というループ（試行錯誤）を、1エージェントごとに数億〜数十億回行っているとのこと（おそらくは世界中で初出しの情報）
・Q関数とは、どのエージェントのどの方法を採用すれば報酬が最大化するかを学習するためのもの
・LLMにおいてはこの「報酬」の考え方が難しい。囲碁や将棋のような「完全情報ゲーム」であれば報酬が明確だが、LLMの場合は正解の定義が難しく、それゆえに報酬設計のあり方が難しい
・Q*に関する（と思われる）論文から考える「強化学習」と「Q関数」の仕組みと考え方。1エージェントごとに数億〜数十億回行っている部分については、以前本チャンネルで解説した「モンテカルロ木探索（MCTS）」のことを指していると思われる
OpenAI o1では「推論時探索」が使われているのかも。活用技術を色々と…
・ハルシネーションは「正解があるもの」に対して起こるもの。人間は生成AIに答え（正解）を求めすぎ　

(4)OpenAIの一人勝ちか、それとも他社もすぐに追いつくのか
・ライバル社（Anthropic、Google）は、OpenAIの論理思考力にすぐに追いつけるのか
・3〜4カ月前のCohere CEOがインタビューで「論理的思考がなかなか解けない」と発言するなど、難度が高そう
・一方でXで、Combining Dynamic Chain of Thoughts、Reflection、Verbal reinforcementを組み合わせたプロンプトとすることで、Claude 3.5 SonnetでOpenAI o1のような論理的思考力が実現できるかもしれないという投稿があり、意外と早く追いつける可能性もある
参考：https://x.com/_philschmid/status/1842…
・エージェントでいかに社会が変わるのか　

(5)AIに対する「メタ認知」のすゝめ by.おざけんさん

個別テーマ解説動画

また、各テーマに分割した動画も配信しました。興味のあるトピックに応じてご覧ください。

やはり孫正義氏は情報量が違う！OpenAI o1の仕組みをここまで詳しく解説したのは世界初かも

0:00 OpenAI o1の中身まで語ったのは世界初かも！？
5:37 OpenAIとソフトバンクとGoogle、それぞれが考えるAI進化のロードマップ

※サムネイル画像はソフトバンク社のビジネスブログより

GoogleやAnthropicは「論理的思考力」でOpenAIに追いつけるのか？

0:00 OpenAIの一人勝ちか、それとも他社もすぐに追いつくのか
2:59 Claude 3.5 Sonnetでo1のような論理的思考力が実現できるかも！？
6:18 エージェントでいかに社会が変わるのか
9:25 AIに対する「メタ認知」のすゝめ by.おざけんさん

※サムネイル画像はPexelsによるPixabay画像を活用

「Q関数」って何？数億〜数十億回の試行錯誤をするエージェントの仕組みを考える

0:00 まずはソフトバンクのビジネスブログ情報を確認
2:32 LLMにおいてはこの「報酬」の考え方が難しい
6:16 Q*（キュースター）論文から考える「Q関数」を活用した強化学習の仕組み
15:31 1エージェントごとに数億〜数十億回の試行錯誤が行われるってどういうこと？

※サムネイル画像はMirosław i Joanna BucholcによるPixabay画像を活用

登壇者情報

おざけん（小澤健祐）

ディップ株式会社 AINOW 編集長／株式会社Cinematorico 共同創業者 COO 他

「人間とAIが共存する社会をつくる」がビジョン。書籍「生成ＡＩ導入の教科書」。1000本以上のAI関連記事を執筆。一般社団法人生成AI活用普及協会協議員。Google「Gemini」アドバイザー。その他、AI領域で幅広く活動。ディップの生成AI活用推進プロジェクト「dip AI Force」の推進、生成AI教育事業を展開するCynthialyの顧問、日本最大のAI活用コミュニティ「SHIFT AI」のモデレーター&パートナーインフルエンサー、社長のAI化を進めるサービス「AI社長」を運営するTHA顧問、生成AIとエンターテイメントの融合を進めるAI Booster顧問、東大発AIスタートアップ Lightblue顧問、千葉県船橋市公式生成AIアンバサダー。AIに関するトークセッションのモデレーターや登壇、講演、メディア出演も多数。News Picks プロピッカー。 AI以外の領域では、2022年にCinematoricoを創業しCOOを務めるほか、ITフリーランス向け案件プラットフォームを運営するテックビズのPR、フリーカメラマン、日本大学文理学部次世代社会研究センタープロボノ。デヴィ夫人 SNSプロデューサー。

https://ainow.ai

遠藤太一郎

株式会社カナメプロジェクト CEO
国立大学法人東京学芸大学教育AI研究プログラム准教授

AI歴25年。18歳からAIプログラミングを始め、米国ミネソタ大学大学院在学中に起業し、AIを用いたサービス提供を開始。AIに関する実装、論文調査、システム設計、ビジネスコンサル、教育等幅広く手がけた後、AIスタートアップのエクサウィザーズに参画し、技術専門役員としてAI部門を統括。上場後、独立し、現在は株式会社カナメプロジェクトCEOとして様々なAI/DAO/データ活用/DX関連のプロジェクトを支援する。国際コーチング連盟ACC／DAO総研 Founder等

https://kaname-prj.co.jp/

湯川鶴章

株式会社エクサウィザーズ AI新聞編集長

米カリフォルニア州立大学サンフランシスコ校経済学部卒業。サンフランシスコの地元紙記者を経て、時事通信社米国法人に入社。シリコンバレーの黎明期から米国のハイテク産業を中心に取材を続ける。通算20年間の米国生活を終え2000年5月に帰国。時事通信編集委員を経て2010年独立。2017年12月から現職。主な著書に『人工知能、ロボット、人の心。』（2015年）、『次世代マーケティングプラットフォーム』（2007年）、『ネットは新聞を殺すのか』（2003年）などがある。趣味はヨガと瞑想。妻が美人なのが自慢。

https://community.exawizards.com/aishinbun