本編動画
2024年7月12日に、以下の目次で「ほぼ週刊、AI動向のイマとミライ」動画を配信しました。
0:45 ①Magic社の思想から考える「少人数大企業」の時代
14:29 ②Kyutai Labsの爆速レスポンス音声AI「Moshi」が面白い
20:01 ③自社のパラダイムの中でのエージェント開発/実装が加速
23:50 ④ElevenLabsの技術から考える音声ビジネスの未来
29:10 ⑤Perplexityがどんどんとエージェントライクな動き方をするように
34:33 ⑥ローカル環境で動作する「GPT4ALL 3.0」の強みとは
各チャプターの概要は以下の通りです。
①Magic社の思想から考える「少人数大企業」の時代
・コード生成AIを開発する米Magic社が15億ドルの評価額を目指している。同社はエンジニアAIというよりかは「AI研究者」の開発を見据えているように思える
・AGI(汎用人工知能)はすでに前提。あと2ステップくらいで2〜3年以内にできることが有力視されている。議論の的はASIへとシフトしてきている
・Magic社のLLM「LTM-1」モデルは2023年6月時点で500万トークンのコンテキストウィンドウを持つことが公表されている
・元OpenAIのAndrej Karpathy氏が投資家として名を連ねている。同氏はコンピューティングが「LLM-OS」という新しいパラダイムに入ったと表現。今後、プログラミングを覚える必要もなくなると主張している
・組織の構成が全部LLM-OSになっている世界観。まさに「一人ユニコーン」「少人数大企業」
・Microsoftがエージェント機能の開発を推進しているので、市場開拓も進むことが想定される
②Kyutai社の爆速レスポンス音声AI「Moshi」が面白い
・フランスのKyutai Labs社がネイティブマルチモーダル基盤モデル「Moshi」をリリース。Karpathy氏もXでリポストするなど、GPT-4oライクなLLMとして話題に
・デモを使う限り、レスポンスがかなり早い。ただし、ハルシネーションも大きい印象
③自社のパラダイムの中でのエージェント開発/実装が加速
・Salceforceによるパラメータ数10億のマイクロモデル「xLab 1B」が高パフォーマンスを記録。低コストでも高効率なモデル開発を進めている
・MicrosoftもSalceforceも、各社自社のパラダイムの中でエージェントの開発と実装を進める。想定よりもペースが速い印象
・OpenAIの次期モデル(GPT5?)でエージェントが載ってくる可能性が高いので、サム・アルトマン氏は「全部踏みつぶす」と言っている
※参考:https://youtu.be/j9Z0w315rYE?si=u50rYWHrDi7i1xvl
④ElevenLabs社の技術から考える音声ビジネスの未来
・ElevenLabs社の音声除去技術が素晴らしい。一般的なノイズキャンセリング技術とはレベルが違う印象
・著名な人物の声を再現して読み上げてくれる機能をElevenLabs iOSアプリに実装することを発表。日本においては高齢者・子ども向けなどでの活用が良さそうかも
・声を管理するビジネスが今後盛んになる可能性がある
⑤Perplexityがどんどんとエージェントライクな動き方をするように
・リサーチAI「Perplexity」がいつの間にか、日本語でも日本語以外のソースをしっかりとリサーチして回答してくれるようになった
・Perplexityもエージェントライクな動き方になってきている
・実際にThe WAVE TV(当YouTubeチャンネル)についてのリサーチも問題なく回答
⑥ローカル環境で動作する「GPT4ALL 3.0」の強みとは
・1,000以上のモデルを選択できるNomic AI社の「GPT4ALL 3.0」
・4GB程度のモデルをダウンロードすることでローカル環境(ネット環境がなくても)で使うことができる
・オープンソース LLMをローカル環境で動かすことのできるツール「Ollama」との違いとは
個別テーマ解説動画
また、各テーマに分割した動画も配信しました。興味のあるトピックに応じてご覧ください。
これから「少人数大企業」の時代がやってくる!
0:00 AGI開発からASI実現を目指す米Magic社とは
5:01 2023年6月時点で500万トークンのコンテキストウィンドウを達成
6:52 コンピューティングは「LLM-OS」という新しいパラダイムに入った
10:10 組織構成が全部LLM-OSになる世界観
※サムネイル画像はJan KrohnによるPixabay画像を活用
Kyutai社の爆速レスポンス音声AI「Moshi AI」が面白い
0:00 フランス製音声AI「Moshi」が話題
1:47 実際に試したらたしかにレスポンスが速い、だが…
3:46 元OpenAIのAndrej Karpathy氏も面白がっている
SalceforceがAIのマイクロモデルを発表。各社エージェントの開発・実装を加速
0:00 Salceforceの「xLab 1B」が低コスト&高効率
2:26 そうは言ってもOpenAIが今あるエージェントを全部踏みつぶすのか
ElevenLabs社の音声除去技術が素晴らしい!
0:00 音声でぶっちぎりのElevenLabs社、既存のノイズキャンセリングとはレベチ
1:48 iOSアプリの新機能から考える新たな「音声ビジネス」
4:27 自分の声の再現もどんどんと簡単になっている
※サムネイル画像はCornelia Schneider-FrankによるPixabay画像を活用
いつの間にかリサーチAI「Perplexity」の使い勝手が劇的に向上している
0:00 日本語対応レベルの向上から考えるエージェントライクな進化
2:42 実際の操作感を試してみる
1,000以上のモデルを選択できる「GPT4All 3.0」の強みとは
0:00 GPT4All 3.0はOpenAIの製品ではない
0:54 1,000以上のモデルが選択でき、ローカル環境で動かせる
3:24 LLMのローカル起動ツール「Ollama」との違い
登壇者情報
遠藤 太一郎
株式会社カナメプロジェクト CEO
国立大学法人東京学芸大学 教育AI研究プログラム 准教授
AI歴25年。18歳からAIプログラミングを始め、米国ミネソタ大学大学院在学中に起業し、AIを用いたサービス提供を開始。AIに関する実装、論文調査、システム設計、ビジネスコンサル、教育等幅広く手がけた後、AIスタートアップのエクサウィザーズに参画し、技術専門役員としてAI部門を統括。上場後、独立し、現在は株式会社カナメプロジェクトCEOとして様々なAI/DAO/データ活用/DX関連のプロジェクトを支援する。国際コーチング連盟ACC/DAO総研 Founder等
Lucky☆TEDDY
The WAVE フェロー
The WAVEのリサーチ責任者であり、「良心」を司る存在でもある人物。左手には様々な最先端テクノロジーが詰まった福袋を、右手には幸せと豊さを呼ぶ黄金の小槌を持ち、毎日ゴキゲンに情報の荒波をサーフィンしながら、常に2歩先の未来を見据えて鋭い切り口で世の中の動向を分析する。たまに毒づくこともあるが、それも愛ある証拠。帽子には良心の「良」の文字が刻まれている。