本編動画
2024年8月30日に、以下の目次で「ほぼ週刊、AI動向のイマとミライ」動画を配信しました。
1:10 (1)今週のトピック紹介
3:48 (2)MicrosoftによるSLM「Phi」から考える、軽量モデルの競争激化の流れ
15:29 (3)GPT-4oもようやくファインチューニングできるようになった!
19:29 (4)RAGか、ファインチューニングか、それともロングアウトプットでそのままか
25:10 (5)蒸留、ファインチューニングが活発になってきた理由とは
26:26 (6)さらばSEO、これからは「AEO」
31:43 (7)PerplexityとPolymarketの事業提携は、AIとWeb3の融合の兆しか
39:16 (8)注目インタビュー:Mark Zuckerberg氏(Meta Platforms CEO)
53:17 (9)画像生成AIモデル「Ideogram2.0」のクオリティが高い件
54:58 (10)GeminiがPDF1,000ページに対応
57:48 (11)動画に寄せられたコメントで分かりやすかったものをピックアップ
1:02:08 (12)ロボットやシミュレーターがなくても、世界をある程度理解できる!?
1:08:58 (告知)湯川塾55期受講生募集!「生成AIで作る少人数大企業」
各チャプターの概要は以下の通りです。
(1)今週のトピック紹介
(2)MicrosoftによるSLM「Phi」から考える、軽量モデルの競争激化の流れ
・マイクロソフトが独自に開発したSML(小規模言語モデル)の「Phi」(ファイ)シリーズ。最新のPhi-3.5ファミリーの中の「Phi-3.5-MoE」では、MoE(Mixture-of-Experts)技術が採用されている
・MoEとは、LLM(大規模言語モデル)の中に複数の小さな特化型モデルが入っている構成にすることで、より効率的に特定領域の学習・推論ができるような仕組みのこと
・オープンソースとして緩めのMITライセン(代表的なオープンソースライセンスのひとつ)が提供されている ・最先端LLMが「大学生レベル」の知能になったことで、小型軽量化した上でファインチューニングして企業や業界に特化した安価&軽量モデルを作る動きが加速している
・LLMとSLMの使い分けはどうする?例えば検品のような業務の場合、専門モデルを作っていたが、高度な推論能力は必要ないのでSLMで問題ない
・自社事業の勝負の分かれ目が「AIぐるぐるモデル」を作れるか否かになってくると考えられるので、基本的には自社モデルを作る方向に向かいそう
・PerplexityのAravind Srinivas氏による解説の解説
(3)GPT-4oもようやくファインチューニングできるようになった!
・要望の多かったGPT-4oのファインチューニングができるようになり、2024年9月23日まで、1日あたり100万トークンを無料で提供している
・楽で簡単で安い。コードを書かなくてもすぐにファインチューンできるが、必ずしもすぐに劇的な効果を感じれるとは限らない
(4)RAGか、ファインチューニングか、それともロングコンテキストの活用か
・RAG(Retrieval-augmented Generation)は、外部の知識ベースを外付けすることで言語モデルからの回答精度を向上させる手法
・OpenAI等で提供しているファインチューニングは「入力に対するアウトプット」の例を大量に提示して出力を微調整する手法
・これまでのLLMだと入力できるページ数に限りがあったが、ロングコンテキストの登場によって扱える量が多くなったので、RAGもファインチューニングもせずにそのまま情報を入れればいい時代になってきた
・選択肢としては「RAG」か「ファインチューニング」か「ロングコンテキスト活用」かの3つがあり、一回の応答あたりどれだけのコストをかけるのか、もしくはどのレイヤーでビジネスをするかというシステム/ビジネス設計での使い分けになりそう
(5)蒸留、ファインチューニングが活発になってきた理由とは
・ここ最近で蒸留やファインチューニングが活発になってきた
・GPT-2(2019)幼稚園児→GPT-3(2020)小学生→GPT-4(2023)優秀な高校生→(2024)優秀な大学生、という感じで変遷しており、仕事を教えればビジネスに使えるレベルにまで成長してきた
・蒸留やファイチューニングはLLMに仕事を教える行為。小さいモデルのほうが安くて速いし、個々の業界や企業ごとに独特なボキャブラリーがあるので、要約などのタスクは自社開発モデルのほうが優秀と言える
・小さいモデルを組み合わせることで、大きなモデルと同等の性能になるかもしれない
(6)さらばSEO、これからは「AEO」
・SEO(Search Engine Optimization)からAEO(Answer Engine Optimization)の時代へ。チャットボットの応答/表示最適化
・自社開発SLM上での消費者との対話データを学習させ、消費者が知りたい内容、消費者に刺さる文言を織り込んだマーケティングメッセージを作成して自社サイトに表示する等が考えられる
・シリコンバレーではSEOビジネスの会社が身売りを始めているとのこと
・AEOの話は、大手LLMがWeb空間の情報を常に学習しアップデートしていくことが前提になるが、一方である程度の学習/推論能力を手に入れたら、以降はWeb空間の情報をRAG的に使うことも考えられる。そうなると、Optimizationのあり方も変わってきそう
・結局はSEOと同様、AEOも事業者側とエージェント側の賢さ勝負になると思われる
(7)PerplexityとPolymarketの事業提携は、AIとWeb3の融合の兆しか
・ブロックチェーン技術を活用した透明性の高い予測市場「Polymarket」では、ステーブルコイン・USDCを使って各トピックにベットできる
・現在、米国大統領選挙関連の予測市場が注目を集めており、「トランプ候補が大統領になるか」という問いに対する「Yes」か「No」の「株(Share)」を購入し、結果に対して別途されたトークンが配分される仕組み
・多くのユーザーが自分で情報を調べて「真剣に」投票するので、街頭インタビューやネット調査などの一般のアンケート調査より、はるかに未来予測としての精度は高いと言われている
・EthereumのVitalik Buterin氏によるSoulbound Tokens(SBTs)ホワイトペーパーで言及されていた予測市場の未来の話とリンクしている。AIと予測市場の2大予測ツールの合体の未来の兆しが見えてきた
(8)注目インタビュー:Mark Zuckerberg氏(Meta Platforms CEO)
・Llamaの最新バージョン「3.1」。大きさは4050億パラメーターの405Bとそれをdistil(蒸留)させた70B(700億)と8B(80億)の三種類
・他の最先端モデルと同等の性能で、コストはGPT-4oの半分(だったが、2024年8月にGPT-4oもコストを半分位したので、個々の差別化ポイントは無くなったと見ていい)
・初の「オープンウェイト」の最先端モデルなので、任意のサイズに蒸留し、合成データ生成や教師モデルとして利用が可能
・企業が独自の特化型小規模モデルを作るのにも利用できる
・「Llama 3.1から本気で攻めていく!」Llama 3.0まではオープンソースモデルを解放して開発者/コミュニティに委ねていただけだったが、3.1からは積極的に他社と提携してエコシステムを作っていく
・Llamaを取り巻く巨大市場ができることに興奮している様子
・今後ファインチューニングのユースケースがもっと出てくるだろう
・Instagram、Facebook、WhatsApp上のすべてのビジネスにエージェントを提供する予定
(9)画像生成AIモデル「Ideogram2.0」のクオリティが高い件
・Ideogram社が、テキスト処理できる画像生成AIモデル「Ideogram 2.0」を発表
・日本語は少しおかしくなるが、英語はキレイに文字を入れ込める
・いわゆるAIっぽい不自然な顔を生成しやすいのもポイント
(10)GeminiがPDF1,000ページに対応
・ただのテキスト1,000ページだけでなく、1枚を画像として処理するので、図などが入っていてもマルチモーダルで理解してくれる
・図が入った複雑かつ1,000ページ以内のマニュアル類を読み込ませるのに適している
・RAGを構築/運用すると相応にお金がかかるので、それであれば1,000ページを読み込ませた方がコスト低く精度高い回答を得ることができるのが期待される
・GoogleとOpenAIの戦略の違いが少しずつかい見えてきた印象
(11)動画に寄せられたコメントで分かりやすかったものをピックアップ
・先週取り上げた、Stability AIの前CEOが発表したレポート「How To Think About AI」で記載された「情報のファイルから情報のフローの時代になる」件について、YouTubeに寄せられた「Webマーケティング」の例で考えたコメントが分かりやすかった件
・zbf85297bさん、分かりやすいコメントをありがとうございました!
(12)ロボットやシミュレーターがなくても、世界をある程度理解できる!?
・DeepMindのDemis Hassabis氏によるインタビュー解説
・以前はヒト型ロボットという筐体への搭載(グラウンディング)が世界の理解には必要だと言われていたが、LLMは世界の理解に「不思議なくらい有効」
個別テーマ解説動画
また、各テーマに分割した動画も配信しました。興味のあるトピックに応じてご覧ください。
軽量モデルの競争激化!LLMが大学生レベルになったことで動きが急加速
0:00 Microsoftの「Phi」シリーズに象徴される軽量モデルの流れ
0:48 MoE(Mixture-of-Experts)で効率的な学習・推論ができる
4:16 大規模言語モデルが賢くなったからこそ軽量化が進んでいる
6:07 LLMとSLMの使い分けはどうする?
8:17 「AIぐるぐるモデル」を実現するためにも、各社自社モデル構築に進むだろう
※サムネイル画像はPexelsによるPixabay画像を活用
テキスト処理できる画像生成AI「Ideogram2.0」のクオリティが高い!
GeminiがPDF1,000ページにマルチモーダル対応した件が、実は結構大きな話
※サムネイル画像はszmiki95によるPixabay画像を活用
PerplexityとPolymarketの事業提携が、「AIとWeb3の融合」の兆しだと気づけるか
0:00 予測市場「Polymarket」って何?
2:15 イーサリアム・Vitalik Buterin氏による論文の未来予測への考察に告示
4:45 AIと予測市場という2大予測ツールが合体する
※サムネイル画像はAcatXIo • So long, and thanks for all the likes!によるPixabay画像を活用
RAGか、ファインチューニングか、それともロングコンテキストの活用か
0:00 要望が多かったGPT-4oのファインチューニングがようやくできるようになった
2:02 楽で安くて簡単だが、すぐに劇的な効果を感じれるとは限らない
3:56 RAGとファインチューニングの違い
6:35 第三の選択肢としての「ロングコンテキスト」の活用
※サムネイル画像はGarik BarseghyanによるPixabay画像を活用
いよいよSEOの時代が終わって、新たに「AEO」の時代が来る!?
0:00 蒸留、ファインチューニングが活発になってきた理由とは
1:16 SEO(Search Engine Optimization)からAEO(Answer Engine Optimization)へ
4:20 Web全体をRAGとして使うこと前提のOptimizationになるか
※サムネイル画像はReza Muhammad FairuzによるPixabay画像を活用
Llamaの3.1バージョンからザッカーバーグが本気モード。巨大市場構築に向けて着々と準備を進める
0:00 初のオープンウェイトのフロンティアモデル「Llama 3.1」
3:07 Llama 3.1から本気で攻めていく!
8:29 Llamaを取り巻く巨大市場ができることに興奮するザッカーバーグ
12:08 Metaの各プラットフォームに順次エージェントを実装していく予定
※サムネイル画像はKatherine GomezによるPixabay画像を活用
ロボットやシミュレーターがなくても、世界をある程度理解できる!?
※サムネイル画像はstokpicによるPixabay画像を活用
登壇者情報
遠藤 太一郎
株式会社カナメプロジェクト CEO
国立大学法人東京学芸大学 教育AI研究プログラム 准教授
AI歴25年。18歳からAIプログラミングを始め、米国ミネソタ大学大学院在学中に起業し、AIを用いたサービス提供を開始。AIに関する実装、論文調査、システム設計、ビジネスコンサル、教育等幅広く手がけた後、AIスタートアップのエクサウィザーズに参画し、技術専門役員としてAI部門を統括。上場後、独立し、現在は株式会社カナメプロジェクトCEOとして様々なAI/DAO/データ活用/DX関連のプロジェクトを支援する。国際コーチング連盟ACC/DAO総研 Founder等
湯川 鶴章
株式会社エクサウィザーズ AI新聞 編集長
米カリフォルニア州立大学サンフランシスコ校経済学部卒業。サンフランシスコの地元紙記者を経て、時事通信社米国法人に入社。シリコンバレーの黎明期から米国のハイテク産業を中心に取材を続ける。通算20年間の米国生活を終え2000年5月に帰国。時事通信編集委員を経て2010年独立。2017年12月から現職。主な著書に『人工知能、ロボット、人の心。』(2015年)、『次世代マーケティングプラットフォーム』(2007年)、『ネットは新聞を殺すのか』(2003年)などがある。趣味はヨガと瞑想。妻が美人なのが自慢。