本編動画
2024年8月22日に、以下の目次で「ほぼ週刊、AI動向のイマとミライ」動画を配信しました。
1:00 (1)今週のトピック紹介
2:41 (2)Fireworksから考える、生成AI活用の次なるフェーズ
17:44 (3)すでにAIが同僚になる時代は始まっている
20:55 (4)「Cortex Analyst」の登場によってデータアナリストが不要になる!?
24:27 (5)Stability AIの前CEOが発表したレポート「How To Think About AI」を紐解く
38:37 (6)注目インタビュー:Emad Mostaque氏(Stability AI 前CEO)
44:24 (7)タブーをモノともしないイーロン・マスクの「Grok 2.0」
48:55 (8)Googleも自然な音声会話「Gemini Live」を発表
52:09 (9)Claudeの「プロンプトキャッシュ機能」でシステム実装が変わるかも
54:29 (10)計画と自己修復機能を備えた次世代AIエージェント「Agent Q」とは
1:02:30 (11)生成AIが100%生成したCMのクオリティがすごい件
各チャプターの概要は以下の通りです。
(1)今週のトピック紹介
(2)Fireworksから考える、生成AI活用の次なるフェーズ
・「LLMを使って生産性向上を目指す」フェーズから、「SLM(小規模言語モデル)を何個も作って繋げることでできることを拡張する」フェーズへのトレンドの変化を感じさせる
・企業向け生成AI推論プラットフォームを提供するFireworks社は、MetaでPytorch(Torchを元に作られたPythonのオープンソース機械学習ライブラリ)の責任者だったLin Qiao氏が創業した会社
・Fireworks AI のコンセプトが「汎用型から特化型へ」ということで、RAGモデルは爆速と言われるGroqの9倍速いスピード重視の推論設計となっており、1日あたり1400億以上のトークンの処理が可能で、しかもセルフでのファインチューニングサービスもある。またOpenAIとの互換性もあり
・これからのAIはAPIエコノミーを前提に構築され、また互いのシステムは自然言語をプロンプトとして繋がっていくことになる、という意見
(3)すでにAIが同僚になる時代は始まっている
・Stability AIの前CEO・Emad Mostaque氏によると、例えば米ソフトウェア会社のLindy.aiでは、AIがチームメンバーになってSlackやZoomを通じて会話をしているという。
・今後AIは、より企業の社内データと統合され、業務におけるパーソナルエージェントとしての役割を担っていくことになるだろう。すでにAmazonやMicrosoftはそのようなサービスの準備を進めている
・来年には単なる要約や翻訳などではなく、よりパーソナルエージェントとしての生成AI利用が加速していくことが想定される
(4)「Cortex Analyst」の登場によってデータアナリストが不要になる!?
・米データクラウド企業のSnowflake社が、データ分析AI「Cortex Analyst」をリリース
・自然言語での質問をデータテーブルに対するSelect文に変換してデータ抽出するという技術は昔からあるが、Cortex Analystのすごいところは、例えば「昨年最も良かった製品はなんですか?」といった質問に対して「最も良いとはどういうことか?」と聞いてくるところにある
・分析に張り付いていたデータアナリスト陣がAIで置き換わることに
(5)Stability AIの前CEOが発表したレポート「How To Think About AI」を紐解く
・Mostaque氏によるレポート「How To Think About AI」では、1,000億個のAIエージェントと10億体のロボットがすぐに現実になる旨や、今日のテクノロジーがすぐに石器時代の道具のように見えるようになるだろうがほとんどの人はまだそれに対する準備も想像もできていない、といった内容が書かれている
・「情報のファイルから情報のフローの時代になる」という。Comfy UIはその変化の初期の例とのこと
・Comfy UIとは、Stable Diffusionを利用した画像生成AIのためのユーザーインターフェースツール。様々な処理(プロンプトや画像サイズなど様々なパラメータ群)をノードとして視覚的に繋げ、処理の流れを可視化し、ユーザーが自由にワークフローをカスタマイズできる。それにより、出力される画像を細かく微調整することができる
・「情報のファイルから情報のフローの時代になる」とは、これまでは手の届かなかったペースと規模で情報を処理、理解、行動できるようになり、アイデアのための新しいツールを導入し、最終的には思考のスピードで創造できるようになるということ
・人間よりAIのほうが賢くなり、AIよりも「AIとコラボした人間」の方が賢くなる。ケンタウロスになる。人間の創造性と直感が、AIの処理能力と精度と合体する。企業も政府もケンタウロスになるべき
・経済モデルの再考が必要。雇用喪失は不可避。政府と国民はデータを基にした意思決定が必要
・「人類が直面する最も重要な決断は、AI 開発に対してオープンで協力的なアプローチを追求するか、それともAIを少数の選ばれた人々の手に委ねたままにするか、ということです」米国や同盟国が主導すべきというAltman氏らの主張とは真逆
(6)注目インタビュー:Emad Mostaque氏(Stability AI 前CEO)
・「How To Think About AI」に関して、著書「Abundance」で有名な未来学者・Peter Diamandis氏が実施したEmad Mostaque氏へのインタビューの解説
・今の生成AIの学習コストは総額で100億ドルレベル。自動運転の学習コストは1,000億ドルで、さらに5Gへの投資額は1兆ドル。だから生成AIはまだ可能性の初期段階と言える
・Diamandis氏は、2030年までに企業は大きく2つ、うまくAIを活用する企業と、倒産する企業に大別されると主張する
・これに対してMostaque氏は概ね同意しつつ、これからAI活用が広がってい木、2、3年後には企業間の競争が激化して、事業の根幹部分にAIのループ(AIぐるぐるモデル)を取り入れ、よりよい製品を安く早く作ることに成功した企業が勝ち残ると説明する
・これから何千万体のヒト型ロボットが生産されることになるが、そうなると、日本や中国の高齢化問題の解決に寄与するだろうし、タイミングとしてはピッタリだと付け加えている
(7)タブーをモノともしないイーロン・マスクの「Grok 2.0」
・今までの画像生成AIはポリコレに鑑みて基本的に実在する人物を出力しなかったが、Grok 2.0ではどんどんと出してくることで話題に。トランプ氏の画像が多くXに出回っている印象
・今までタブーとされていた機能を実装しても炎上していない
・価値判断を運営側・モデル側がしないという方針
・テキサスに世界最大級のデータセンターを構築している最中で、AI開発の先頭集団に入り込んできた印象
(8)Googleも自然な音声会話「Gemini Live」を発表
・OpenAIはChatGPT音声会話リリースまでに時間がかかったが、Gemini Liveはすぐに出したところはさすが
・全てのGoogleアプリやツールに連携できる仕様
・ライバルのOpenAIはChatGPT音声会話では、リアルさが凄まじいので、Gemini Liveよりもクオリティが上の印象
(9)Claudeの「プロンプトキャッシュ機能」でシステム実装が変わるかも
・Claude 3.5は最大20万トークンまで使えるが、長いプロンプトを入れるとコストがかかる。プロンプトキャッシュを利用すると、一度読ませたプロンプトコンテキストをサーバーに保存し、それを呼び出す時にコストが圧縮される
・社内にある大量の文章やプログラムのコードなどを最初に読み込ませ、あとは圧縮したキャッシュで読み込ませるようにすることで運用コストを低減できる
・ちなみにGoogleのGeminiに関してはコンテキストキャッシュ機能が以前から実装されていた
・これまでRAGでやっていたようなことをプロンプトキャッシュ機能と組み合わせることで、システム実装のあり方も変わってきそう
(10)計画と自己修復機能を備えた次世代AIエージェント「Agent Q」とは
・プロンプトに対して、まず複数の案を出した上で、LLMが判断のために順番にやってみて、また振り返る
・モンテカルロ木探索(主に囲碁やチェス、将棋といったゲームの次の一手を決める時に使われるアルゴリズム)を組み合わせで使っている
・Webデータ収集やリードジェネレーション、AIトレーニングデータなど、様々な用途が想定されている
・このAgent Qのような今のエージェントはルールベースで作り込んでいるが、基盤モデルにプランニング機能が入った時に、前者はどこまで残るのか
(11)生成AIが100%生成したCMのクオリティがすごい件
・完成度が相当高くなっている。クオリティの高い広告を安価に作成できるようになるので、中小企業にとっては嬉しい流れかも
・広告業界や映像業界はこのCMをどう受け止めるのか
・日本は特に画像生成アンチが多い印象
個別テーマ解説動画
また、各テーマに分割した動画も配信しました。興味のあるトピックに応じてご覧ください。
2030年までに市場はAI活用企業と倒産企業に分かれる!1,000億個のAIエージェントと10億体のロボットがすぐに現実になる時代
0:00 Stability AIの前CEOが発表したレポート 「How To Think About AI」を紐解く
2:39 Comfy UIツールから考える「情報のファイルから情報のフローへ」の時代
11:04 AIとコラボした「ケンタウロス」としての人間
14:10 2030年までに、AIを活用する企業と倒産する企業に大別されるだろう
タブーをモノともしないイーロン・マスクの「Grok 2.0」がAIの先頭集団に躍り出る
0:00 一般的な生成AIと違い、実在の人物や著作物も生成するGrok 2.0
2:38 Xの生データを使ってAI開発の先頭集団に入り込んできた!
生成AI活用の次なるフェーズとは?LLMとSLMの組み合わせでシステム構築し、AIが同僚になる世界に向けて
0:00 LLMとSLMの両方でシステム構築をする時代に移り始めている
1:15 「汎用型から特化型へ」をコンセプトとするFireworks AI
6:59 複合型のAIシステムへの進化が前提の世界観
10:15 APIで接続されたAIシステム群は自然言語で繋がっていくことになる!?
15:00 Lindy.aiではすでにAIを同僚としてSlack上でのやり取りなどをしている
データアナリストも不要になる!?データ分析AI「Cortex Analyst」の衝撃
※サムネイル画像はMohamed HassanによるPixabay画像を活用
Googleの自然な音声会話「Gemini Live」ってどんな感じ?
Claudeの「プロンプトキャッシュ機能」でシステム実装が変わるかも!?
※サムネイル画像はDmitrii BardadimによるPixabay画像を活用
話題の次世代AIエージェント「Agent Q」は何がすごいのか
0:00 計画と自己修復機能を備えた次世代型エージェント
2:58 「モンテカルロ木探索」ベースのアクションツリーで判断
6:42 もしかしたら意外と、GPT5のエージェント機能は要らないかも?
※サムネイル画像はGordon JohnsonによるPixabay画像を活用
ここまで来たか。生成AIが100%生成したCMのクオリティがすごい
登壇者情報
遠藤 太一郎
株式会社カナメプロジェクト CEO
国立大学法人東京学芸大学 教育AI研究プログラム 准教授
AI歴25年。18歳からAIプログラミングを始め、米国ミネソタ大学大学院在学中に起業し、AIを用いたサービス提供を開始。AIに関する実装、論文調査、システム設計、ビジネスコンサル、教育等幅広く手がけた後、AIスタートアップのエクサウィザーズに参画し、技術専門役員としてAI部門を統括。上場後、独立し、現在は株式会社カナメプロジェクトCEOとして様々なAI/DAO/データ活用/DX関連のプロジェクトを支援する。国際コーチング連盟ACC/DAO総研 Founder等
湯川 鶴章
株式会社エクサウィザーズ AI新聞 編集長
米カリフォルニア州立大学サンフランシスコ校経済学部卒業。サンフランシスコの地元紙記者を経て、時事通信社米国法人に入社。シリコンバレーの黎明期から米国のハイテク産業を中心に取材を続ける。通算20年間の米国生活を終え2000年5月に帰国。時事通信編集委員を経て2010年独立。2017年12月から現職。主な著書に『人工知能、ロボット、人の心。』(2015年)、『次世代マーケティングプラットフォーム』(2007年)、『ネットは新聞を殺すのか』(2003年)などがある。趣味はヨガと瞑想。妻が美人なのが自慢。