本編動画
2024年5月17日に、以下の目次で「ほぼ週刊、AI動向のイマとミライ」動画を配信しました。
0:38 ⓪OpenAIとGoogle I/Oの発表でお腹いっぱいの一週間
2:09 ①ChatGPT-4oの精度がすごい!でも得手不得手もありそう
12:31 ②OpenAIとAppleの急接近が意味すること
21:26 ③Gemini 1.5 Proのコンテキストウィンドウが200万トークンに
27:23 ④Gemini 1.5 ProのMulti-Step Reasoning(マルチステップ推論)
34:18 ⑤現在のパラダイムがかなり洗練されてきた印象の両社発表
42:34 ⑥教育へのAI活用が大いに期待できる
49:04 ⑦MicrosoftとOpenAIの関係は契約的に未来永劫ではない
各チャプターの概要は以下の通りです。
⓪OpenAIとGoogle I/Oの発表でお腹いっぱいの一週間
①ChatGPT-4oの精度がすごい!でも得手不得手もありそう
・PC画面をインプット情報として認識できる
・あくまで既存のアーキテクチャでパラダイムシフトではないが、AIエージェントの兆しが見える
・評判がいいし、実際に精度が高い。プロンプトエンジニアリングも必要なくできる
・他の言語モデルとの指標の比較結果が公表されていないのはなぜか
・議事録に関してはClaude 3の方が断然よかったので、得意不得意がありそう
・マルチモーダル面では良くなっている印象。検証としてポンチ絵をplaygroundで検証したら、ChatGPT-4 TurboよりもChatGPT-4oの方が圧倒的に精度が高い結果に
・ChatGPTの有料と無料で同じ言語モデルを使えるのはすごいこと
・個人で使うと無料だが、法人のAPI経由等だと一続きそれなりの金額がかかる想定
②OpenAIとAppleの急接近が意味すること
・人間らしい語り合いができるという消費者向け機能の強化は、Appleとの提携を見据えてか
・OpenAIとAppleの共通の敵はGoogleなので、敵の敵は味方という構図
・NVIDIAの研究者曰く、Siriの代わりに乗せてくるとか、カメラを使えるようにしたりとか、OSの深い部分に入ってくる可能性があるなど、がっつりと組む可能性がある
・GoogleのProject Astraによる「Gemini Live」も面白い
③Gemini 1.5 Proのコンテキストウィンドウが200万トークンに
・GeminiのGmail連携の性能が上がっている
・コンテキストウィンドウが200万トークンに(現在ウェイティングリスト登録中)
・限られた用途の場合はRAG開発よりもプロンプト入力の方がコスパがいいと思われる
④Gemini 1.5 ProのMulti-Step Reasoning(マルチステップ推論)
・まさにPerplexityがやっていることがGoogleでもできるように
・Perplexityでも同じことを試したら、Googleのデモとほぼ同じ出力の結果に。そうなると無料のGoogleには敵わないかも
・あまりにも便利なAIエージェントを作るとLLMに組み込まれる可能性が高まるので、エージェント開発会社はほどほどくらいがいいのかも
・デモとして提示された、靴の返品作業を自律的に進めてくれるところでも感じる、AIエージェント機能の短期的な未来
⑤現在のパラダイムがかなり洗練されてきた印象の両社発表
・音楽や動画などクリエイティブ領域全般への対応も活発化
・AIが作ったものは、結局は魂を感じることができない
・動画の認識技術とコンテキストウィンドウ以外は、全体的に後追い感がある
・AIチームメイトも面白い。いろんなチーム/メンバーでの議論を拾ってきて共有してくれる機能として現在開発中
・組織力がめちゃくちゃアップする可能性がある機能として期待できる
・両社の発表を見る限り、新しいパラダイムに入ったという話ではない。現在のパラダイムがかなり洗練されてきているという印象
・ポンチ絵の要約をGemini FlashとGemini Proで試してみると
⑥教育へのAI活用が大いに期待できる
・NotebookLMで特定領域に精通した教材を音声で学べるように
・元々テキストではできていたものが音声でできるようになるのがポイント
・いよいよ家庭教師がAIになるか
⑦MicrosoftとOpenAIの関係は契約的に未来永劫ではない
・MicrosoftとOpenAIの既存の関係はAGI以前の技術フェーズに関してのみ有効という契約
・デスクトップアプリもWindows版よりもMac版が優先という状況
個別テーマ解説動画
また、各テーマに分割した動画も配信しました。興味のあるトピックに応じてご覧ください。
MicrosoftとOpenAIの関係性は盤石ではない、というかかなり微妙
0:00 Microsoftとの契約はAGI以前の技術に関してのみ有効
2:41 ChatGPT-4oデスクトップアプリもWindows版よりもMac版が優先という状況
※サムネイル画像はSubham ShomeによるPixabay画像を活用
話題の「ChatGPT-4o」検証トーク! GPT4 omniが得意なこと/苦手なことは?
0:00 ChatGPT-4oデスクトップアプリで感じるちょっと先のAIエージェント時代
1:35 他の言語モデルとの指標の比較結果が公表されていないのはなぜか
6:58 無料ユーザーでもChatGPT-4oを使える。となると有料版との違いは?
対Googleに向けて、OpenAI・Apple連合がいよいよ始まるか
0:00 OpenAIが消費者向け機能に注力するのはAppleとの提携を見据えてか
1:36 自然な語り口具合が素晴らしいデモ動画
3:29 iOSの深い部分にGPTが入ってくるかもしれない
5:00 Google「Gemini Live」も負けていないが、人間らしさはChatGPT-4の方が上
※サムネイル画像はNickによるPixabay画像を活用
Gemini 1.5 Proのコンテキストウィンドウは200万トークンで最大級
0:00 GeminiのGmail連携の性能がいい感じに上がるらしい
2:44 コンテキストウィンドウがかなり大きくなることの影響
Gemini 1.5 ProのMulti-Step Reasoning(マルチステップ推論)がいい感じ
0:00 まさにPerplexityがやっていることがGoogleでもできるように
1:37 ターゲットが異なるものの、このままだとPerplexityがヤバイかも
3:55 エージェント開発会社が今後気をつけべきこと
5:16 デモ動画で解像度が高まるAIエージェント実装の未来
※サムネイル画像はstokpicによるPixabay画像を活用
ChatGPT-4oとGemini AdvancedとNotebookLMの登場で、「AI教師」時代の幕開けか
0:00 アップデートで音声に対応したGoogle「NotebookLM」
2:55 ChatGPTでもAIとの対話から数学問題が解けるように
※サムネイル画像はGerd AltmannによるPixabay画像を活用
OpenAIとGoogleの両社とも、パラダイムシフトほどではないがかなり洗練されてきている
0:00 AIはそれっぽいクリエイティブを作るが、魂を感じることができない
3:39 AIチームメイトの機能がが企業の組織力をグンと高める
5:27 現在のパラダイムがかなり洗練されてきているという印象
6:32 ポンチ絵の要約をGemini FlashとGemini Proで比べてみた
※サムネイル画像はVilius KukanauskasによるPixabay画像を活用
登壇者情報
遠藤 太一郎
株式会社カナメプロジェクト CEO
国立大学法人東京学芸大学 教育AI研究プログラム 准教授
AI歴25年。18歳からAIプログラミングを始め、米国ミネソタ大学大学院在学中に起業し、AIを用いたサービス提供を開始。AIに関する実装、論文調査、システム設計、ビジネスコンサル、教育等幅広く手がけた後、AIスタートアップのエクサウィザーズに参画し、技術専門役員としてAI部門を統括。上場後、独立し、現在は株式会社カナメプロジェクトCEOとして様々なAI/DAO/データ活用/DX関連のプロジェクトを支援する。国際コーチング連盟ACC/DAO総研 Founder等
Lucky☆TEDDY
The WAVE フェロー
The WAVEのリサーチ責任者であり、「良心」を司る存在でもある人物。左手には様々な最先端テクノロジーが詰まった福袋を、右手には幸せと豊さを呼ぶ黄金の小槌を持ち、毎日ゴキゲンに情報の荒波をサーフィンしながら、常に2歩先の未来を見据えて鋭い切り口で世の中の動向を分析する。たまに毒づくこともあるが、それも愛ある証拠。帽子には良心の「良」の文字が刻まれている。