サム・アルトマン氏最新インタビューから「基盤モデル開発競争」の行方を追い、OpenAIの強みを再考しながら、自分の声をクローンして音声AIを検証してみた一週間(2024年11月8日配信版)

目次

本編動画

2024年11月8日に、以下の目次で「ほぼ週刊、AI動向のイマとミライ」動画を配信しました。

1:00 (1)今週の概観と、ジャーナリストの視点&エンジニアの視点
3:04 (2)サム・アルトマン氏がたぶん公で初めて言及する「OpenAIの考えるエージェントの定義」とは
10:14 (3)エージェントの時代に向けて、私たちは何をすべきか?
20:00 (4)GPTシリーズではなくo1シリーズに注力することを示唆
27:08 (5)サム・アルトマン氏が語る「OpenAIの強み」とは
31:49 (6)視覚能力は開発計画を上回る速度で進化しようとしているらしい!
38:09 (7)ChatGPT searchのChrome拡張機能は今のところ結構不便
39:19 (8)ElevenLabsを使って自分の声をクローンして英語をしゃべらせてみた

各チャプターの概要は以下の通りです。

(1)今週の概観と、ジャーナリストの視点&エンジニアの視点  

(2)サム・アルトマン氏がたぶん公で初めて言及する「OpenAIの考えるエージェントの定義」とは
・一般的なエージェントの定義は「自分で考え自律的に動くAI」だが、Sam Altman氏の定義は違い、「かなりの時間が必要な仕事を与えることができるシステムで、その間に人間がほとんど監視してなくていいシステム」と、始めて言及
・ここで言う「かなりの時間」とは、数時間ではなく“数日から数週間”レベルの話。人間の代わりをしてくれる、ということではなく、人間にはできないことをやってくれる、というのがOpenAIのエージェントの定義  

(3)エージェントの時代に向けて、私たちは何をすべきか?
・Sam Altman氏曰く「モデル側でエージェント的なタスクを実行できるようなモデルの方向にo1は向かっている」とのことで、独自開発は不要とのこと
・現在RAGがやっているようなデータ連携部分も基盤モデルのカバー範囲になるのか?カバーされるとしたら、どれくらいの時間軸で考えれば良いのか?
・実証中にモデルがアップデートされて、検証したかった内容がモデルで解決するといったことも発生している。進化の速度が今後ますます加速するので、今のモデルの問題点は未来のモデルが解決してくれることを前提に考えた方が良いかも(ChatPDFなどの例)  

(4)GPTシリーズではなくo1シリーズに注力することを示唆
・「確かにAIモデルは価値が低下し続ける資産だ。だからと言って、学習コストを上回るリターンが得られないかというと決してそんなことはない」by. Altman氏
・OpenAIの最大の差別化要因は「論理的思考」
・GPTシリーズとoシリーズでは、やはりoシリーズ注力することを示唆
・人間の論理的思考すら、これからは外付けが前提になってくるかも  

(5)サム・アルトマン氏が語る「OpenAIの強み」とは
・AIび限らず実現可能かどうかも分からない機能を研究し続けること。このような企業文化こそが、OpenAIの強み
・「どのようにこの文化を醸成できるのか、私がOpenAIの経営を通じて学んだことをいつか本に書いてみたいと思う」by. Altman氏
・人間よりもエージェントの方が、実現可能かどうかも分からない機能の研究に向いているかも  

(6)視覚能力は開発計画を上回る速度で進化しようとしているらしい!
・マルチモーダル領域での論理的思考ってどのようにして実現できるのか?
・視覚能力は、推論時間を長くすることで向上するのだろうか?
・Altman氏が過去一ヶ月で一番驚いたことは、「リサーチ結果。内容は話せないけど、息を飲むくらいすごいこと」とのこと  

(7)ChatGPT searchのChrome拡張機能は今のところ結構不便  

(8)ElevenLabsを使って自分の声をクローンして英語をしゃべらせてみた
・音声AI「ElevenLabs」で自分の声をアップデートして、日本語と英語をしゃべらせてみたら、英語の方が実用的だと感じる。日本語だと漢字を読み間違えることが多い

個別テーマ解説動画

また、各テーマに分割した動画も配信しました。興味のあるトピックに応じてご覧ください。

OpenAIが考えるエージェントの定義は、一般的な定義とはだいぶ違う!

0:00 今回のインタビューで初めてエージェントの定義に言及
3:14 人間にはできないことをやってくれるのがOpenAIの考えるエージェント像
7:10 基盤モデルでエージェント機能を実装する動き
12:21 今のモデルの小さな穴を埋めるようなビジネスは危険

※サムネイル画像はKohji AsakawaによるPixabay画像を活用

基盤モデル開発競争の行方を探る

0:00 AIモデルの価値は低下し続けるが、学習コストの回収は可能だ by. Sam Altman氏
1:44 OpenAIとして、やはりoシリーズに注力することを示唆
2:51 人間の論理的思考すら、これからは外付けが前提になってくるのかも

※サムネイル画像はInnova LabsによるPixabay画像を活用

サム・アルトマン氏が考えるマルチモーダルでの論理的思考力

0:00 マルチモーダル領域での論理的思考ってどのようにして実現できるのか?
1:55 視覚能力は、推論時間を長くすることで向上するのだろうか?
4:27 過去1ヶ月で一番驚いたことは?

※サムネイル画像はHiep hongによるPixabay画像を活用

音声AI(ElevenLabs)で自分の声をクローンして英語をしゃべらせたら、とてもいい感じだった件

0:00 音声AI「ElevenLabs」で自分の声をアップロードし、日本語をしゃべらせてみた
1:48 英語をしゃべらせるのが超便利
4:03 課金しないと使えないけど、試してみてもいいかも

※サムネイル画像はMary Theresa McLeanによるPixabay画像を活用

登壇者情報

遠藤 太一郎

株式会社カナメプロジェクト CEO
国立大学法人東京学芸大学 教育AI研究プログラム 准教授

AI歴25年。18歳からAIプログラミングを始め、米国ミネソタ大学大学院在学中に起業し、AIを用いたサービス提供を開始。AIに関する実装、論文調査、システム設計、ビジネスコンサル、教育等幅広く手がけた後、AIスタートアップのエクサウィザーズに参画し、技術専門役員としてAI部門を統括。上場後、独立し、現在は株式会社カナメプロジェクトCEOとして様々なAI/DAO/データ活用/DX関連のプロジェクトを支援する。国際コーチング連盟ACC/DAO総研 Founder等

https://kaname-prj.co.jp/

湯川 鶴章

株式会社エクサウィザーズ AI新聞 編集長

米カリフォルニア州立大学サンフランシスコ校経済学部卒業。サンフランシスコの地元紙記者を経て、時事通信社米国法人に入社。シリコンバレーの黎明期から米国のハイテク産業を中心に取材を続ける。通算20年間の米国生活を終え2000年5月に帰国。時事通信編集委員を経て2010年独立。2017年12月から現職。主な著書に『人工知能、ロボット、人の心。』(2015年)、『次世代マーケティングプラットフォーム』(2007年)、『ネットは新聞を殺すのか』(2003年)などがある。趣味はヨガと瞑想。妻が美人なのが自慢。

https://community.exawizards.com/aishinbun

よかったらシェアしてね!

この記事を書いた人

人ひとりが自分な好きなこと、得意なことを仕事にして、豊かに生きる。 そんな社会に向けて、次なる「The WAVE」を共に探り、学び、創るメディアブランドです。

目次