AIの進化による「少人数大企業」のトレンドが顕著になり、AIのエージェント化が各所で進んできたと感じた一週間(2024年7月12日配信版)

目次

本編動画

2024年7月12日に、以下の目次で「ほぼ週刊、AI動向のイマとミライ」動画を配信しました。

0:45 ①Magic社の思想から考える「少人数大企業」の時代
14:29 ②Kyutai Labsの爆速レスポンス音声AI「Moshi」が面白い
20:01 ③自社のパラダイムの中でのエージェント開発/実装が加速
23:50 ④ElevenLabsの技術から考える音声ビジネスの未来
29:10 ⑤Perplexityがどんどんとエージェントライクな動き方をするように
34:33 ⑥ローカル環境で動作する「GPT4ALL 3.0」の強みとは

各チャプターの概要は以下の通りです。

①Magic社の思想から考える「少人数大企業」の時代
・コード生成AIを開発する米Magic社が15億ドルの評価額を目指している。同社はエンジニアAIというよりかは「AI研究者」の開発を見据えているように思える
・AGI(汎用人工知能)はすでに前提。あと2ステップくらいで2〜3年以内にできることが有力視されている。議論の的はASIへとシフトしてきている
・Magic社のLLM「LTM-1」モデルは2023年6月時点で500万トークンのコンテキストウィンドウを持つことが公表されている
・元OpenAIのAndrej Karpathy氏が投資家として名を連ねている。同氏はコンピューティングが「LLM-OS」という新しいパラダイムに入ったと表現。今後、プログラミングを覚える必要もなくなると主張している
・組織の構成が全部LLM-OSになっている世界観。まさに「一人ユニコーン」「少人数大企業」
・Microsoftがエージェント機能の開発を推進しているので、市場開拓も進むことが想定される

②Kyutai社の爆速レスポンス音声AI「Moshi」が面白い
・フランスのKyutai Labs社がネイティブマルチモーダル基盤モデル「Moshi」をリリース。Karpathy氏もXでリポストするなど、GPT-4oライクなLLMとして話題に
・デモを使う限り、レスポンスがかなり早い。ただし、ハルシネーションも大きい印象

③自社のパラダイムの中でのエージェント開発/実装が加速
・Salceforceによるパラメータ数10億のマイクロモデル「xLab 1B」が高パフォーマンスを記録。低コストでも高効率なモデル開発を進めている
・MicrosoftもSalceforceも、各社自社のパラダイムの中でエージェントの開発と実装を進める。想定よりもペースが速い印象
・OpenAIの次期モデル(GPT5?)でエージェントが載ってくる可能性が高いので、サム・アルトマン氏は「全部踏みつぶす」と言っている
※参考:https://youtu.be/j9Z0w315rYE?si=u50rYWHrDi7i1xvl

④ElevenLabs社の技術から考える音声ビジネスの未来
・ElevenLabs社の音声除去技術が素晴らしい。一般的なノイズキャンセリング技術とはレベルが違う印象
・著名な人物の声を再現して読み上げてくれる機能をElevenLabs iOSアプリに実装することを発表。日本においては高齢者・子ども向けなどでの活用が良さそうかも
・声を管理するビジネスが今後盛んになる可能性がある

⑤Perplexityがどんどんとエージェントライクな動き方をするように
・リサーチAI「Perplexity」がいつの間にか、日本語でも日本語以外のソースをしっかりとリサーチして回答してくれるようになった
・Perplexityもエージェントライクな動き方になってきている
・実際にThe WAVE TV(当YouTubeチャンネル)についてのリサーチも問題なく回答

⑥ローカル環境で動作する「GPT4ALL 3.0」の強みとは
・1,000以上のモデルを選択できるNomic AI社の「GPT4ALL 3.0」
・4GB程度のモデルをダウンロードすることでローカル環境(ネット環境がなくても)で使うことができる
・オープンソース LLMをローカル環境で動かすことのできるツール「Ollama」との違いとは

個別テーマ解説動画

また、各テーマに分割した動画も配信しました。興味のあるトピックに応じてご覧ください。

これから「少人数大企業」の時代がやってくる!

0:00 AGI開発からASI実現を目指す米Magic社とは
5:01 2023年6月時点で500万トークンのコンテキストウィンドウを達成
6:52 コンピューティングは「LLM-OS」という新しいパラダイムに入った
10:10 組織構成が全部LLM-OSになる世界観

※サムネイル画像はJan KrohnによるPixabay画像を活用

Kyutai社の爆速レスポンス音声AI「Moshi AI」が面白い

0:00 フランス製音声AI「Moshi」が話題
1:47 実際に試したらたしかにレスポンスが速い、だが…
3:46 元OpenAIのAndrej Karpathy氏も面白がっている

SalceforceがAIのマイクロモデルを発表。各社エージェントの開発・実装を加速

0:00 Salceforceの「xLab 1B」が低コスト&高効率
2:26 そうは言ってもOpenAIが今あるエージェントを全部踏みつぶすのか

ElevenLabs社の音声除去技術が素晴らしい!

0:00 音声でぶっちぎりのElevenLabs社、既存のノイズキャンセリングとはレベチ
1:48 iOSアプリの新機能から考える新たな「音声ビジネス」
4:27 自分の声の再現もどんどんと簡単になっている

※サムネイル画像はCornelia Schneider-FrankによるPixabay画像を活用

いつの間にかリサーチAI「Perplexity」の使い勝手が劇的に向上している

0:00 日本語対応レベルの向上から考えるエージェントライクな進化
2:42 実際の操作感を試してみる

1,000以上のモデルを選択できる「GPT4All 3.0」の強みとは

0:00 GPT4All 3.0はOpenAIの製品ではない
0:54 1,000以上のモデルが選択でき、ローカル環境で動かせる
3:24 LLMのローカル起動ツール「Ollama」との違い

登壇者情報

遠藤 太一郎

株式会社カナメプロジェクト CEO
国立大学法人東京学芸大学 教育AI研究プログラム 准教授

AI歴25年。18歳からAIプログラミングを始め、米国ミネソタ大学大学院在学中に起業し、AIを用いたサービス提供を開始。AIに関する実装、論文調査、システム設計、ビジネスコンサル、教育等幅広く手がけた後、AIスタートアップのエクサウィザーズに参画し、技術専門役員としてAI部門を統括。上場後、独立し、現在は株式会社カナメプロジェクトCEOとして様々なAI/DAO/データ活用/DX関連のプロジェクトを支援する。国際コーチング連盟ACC/DAO総研 Founder等

https://kaname-prj.co.jp/

Lucky☆TEDDY

The WAVE フェロー

The WAVEのリサーチ責任者であり、「良心」を司る存在でもある人物。左手には様々な最先端テクノロジーが詰まった福袋を、右手には幸せと豊さを呼ぶ黄金の小槌を持ち、毎日ゴキゲンに情報の荒波をサーフィンしながら、常に2歩先の未来を見据えて鋭い切り口で世の中の動向を分析する。たまに毒づくこともあるが、それも愛ある証拠。帽子には良心の「良」の文字が刻まれている。

よかったらシェアしてね!

この記事を書いた人

人ひとりが自分な好きなこと、得意なことを仕事にして、豊かに生きる。 そんな社会に向けて、次なる「The WAVE」を共に探り、学び、創るメディアブランドです。

目次