SFではない「地に足のついたAI進化の主張」に大いに納得し、OpenAIの次期大型モデルのリリース時期を考えながら、画像AI関連の最新ニュースに心躍った一週間（2024年11月1日配信版）

2024年11月1日2024年11月18日

本編動画

2024年11月1日に、以下の目次で「ほぼ週刊、AI動向のイマとミライ」動画を配信しました。

1:06 (1)今週の概観と、ジャーナリストの視点＆エンジニアの視点
5:14 (2)OpenAIの次期大型モデルのリリースは2024年12月なのか？
21:12 (3)「発明の時代」に向けて、「SFではない、地に足のついた主張」を調べてみる
52:39 (4)質問されることが多いので、湯川鶴章さんのAI関連情報ソースを公開！
1:02:24 (5)MicrosoftがPC画面を解釈できるオープンソースモデルを出してきた
1:06:34 (6)Cohereより、画像をRAGできるAPIが登場

各チャプターの概要は以下の通りです。

(1)今週の概観と、ジャーナリストの視点＆エンジニアの視点 　

(2)OpenAIの次期大型モデルのリリースは2024年12月なのか？
・The Vergeが「OpenAIの次の大型進化であるOrionが12月にもリリースされる」旨を報道
・OpenAIで過去にとくダネを取った信頼できるメディアは「ロイター通信」や「ブルームバーグ」、「The Information」など。一方でThe Vergeはハリウッドゴシップメディアのイメージ。Sam Altman氏も、The Vergeの記事がでた次の日に「Fake news out of control」とポスト
・The Vergeの報道の疑問4点と、信頼性の高い情報2点
・ネット上のデータは学習済みなので、これ以上の進化はないと言われていた（データの壁問題）が、o1は論理的思考が優れているので、理屈の通った合成データを作ることができる。これでデータの壁問題は解決か？　

(3)「発明の時代」に向けて、「SFではない、地に足のついた主張」を調べてみる
・「50年後に今は25世紀かと思うようになる」（Bryan Johnson氏）
・OpenAIのAI5段階進化でチャットボット→論理的思考→エージェントを経て、第4段階が「発明家」（5段階は「AIカンパニー」）
・AIと科学の両方を知っている人のSFではない、地に足のついた見解を聞きたいと思い、Google DeepMindのDemis Hassabis氏の「AI発明家の時代」に対する見解をチェック。2024年10月にはノーベル化学賞を受賞した人物
・Financial Timesのインタビュー記事より、「AIが次に目指すことは」という質問に対して「AlphaFold3で、生物学的相互作用を理解し、最終的には経路全体をモデル化したい。そして、いつか仮想細胞を構築したい」と回答するなど、AIを使って様々な発見がもたらされる時代になるとの主張
・Hassabis氏の「SFではない、地に足のついた主張」に対して、OpenAIのライバル、AnthropicのDario Amodei氏の「AI発明家の時代」に対する見解として、「Machines of Loving Grace」というエッセイをチェック
・Amodei氏の主張：AIの話を始めるとすぐにSF的になる。実現可能な近未来の話と混同しないで。どんなことが10年以内に可能になるのか、地に足のついた話をしよう。2026年までに「パワフルAI」が登場する可能性がある。その後、5年から10年で科学技術が飛躍的に進化する
・パワフルAIとは「データセンターの中の天才の国」（学習時の計算資源を使って、2027年ごろのデータセンター規模なら、数百万の個別エージェントの利用が可能）
・1000年分の発明がパワフルAI後の5〜10年で可能になる！？具体的にどんなことが起こるのか、Dario Amodei氏の予測とは（ほとんどの精神疾患は治癒できる、マインドアップロードはほぼ確実に可能 etc…）　

(4)質問されることが多いので、湯川鶴章さんのAI関連情報ソースを公開！
・メイン利用のニュースサイト、メルマガ3選、Xのフォローアカウント、YouTubeチャンネル群、あとは各種AIを紹介　　

(5)MicrosoftがPC画面を解釈できるオープンソースモデルを出してきた
・2024年10月28日に、MicrosoftがGUIエージェントの新モデル「OmniParser」を発表
・Anthropicが「難しい技術だ」と説明していた画面上の座標を追っていく部分の技術含めてオープンソースとして提供。開発シーンがアップデートされる予感　

(6)Cohereより、画像をRAGできるAPIが登場
・エンベッドを画像でもできるように。画像もベクトル化し、空間にマッピングするイメージ
・ユースケースとして、グラフ・チャート分析やカタログ検索、社内デザインアセットのリサーチ等が公式ページで紹介されている
・Microsoft Azure AI Studio上で利用可能

個別テーマ解説動画

また、各テーマに分割した動画も配信しました。興味のあるトピックに応じてご覧ください。

Microsoftが早々にPC画面を解釈できるAIモデルを「オープンソース」で出してきた！

0:00 MicrosoftがGUIエージェントの新モデル「OmniParser」を発表
2:14 Anthropicが「難しい」と説明していた技術をオープンソースで実現

Anthropic CEOが考える「パワフルAI」のもたらす近未来像がいい意味でぶっ飛んでいる

0:00 これからさらに「発明家」の時代へと進化する
2:19 Demis Hassabis氏（Google DeepMind）の「AI発明家の時代」に対する見解
8:36 Dario Amodei氏（Anthropic CEO）の「AI発明家の時代」に対する見解
11:28 「パワフルAI」とは「データセンターの中の天才の国」のこと
17:42 1,000年分の発明が「パワフルAI」後の5〜10年で可能になる！？
20:10 ほとんどの感染病が予防可能になり、ほとんどの精神疾患も治療できる未来

※サムネイル画像はAlban_GoghによるPixabay画像を活用

OpenAIの次期大型モデルリリースは2024年12月ってホント？報道内容を検証してみる

0:00 「The Verge」とはどんなメディアなのか
4:47 The Verge報道の疑問点とサム・アルトマン氏の反応
10:21 The Verge報道の中で信頼性が高い情報

※サムネイル画像はGerd AltmannによるPixabay画像を活用

画像をRAGできるAPIが登場！Cohereのマルチモーダル対応「Embed 3」がAIのビジネス利用を加速させる

0:00 RAGについてのざっくり解説
1:20 テキストと同様に画像もベクトル化し、空間にマッピングするイメージ
3:32 製品カタログ検索などの領域が一気に便利になりそう
4:53 Microsoft Azure AI Studio上で利用可能

ジャーナリスト・湯川鶴章さんのAI関連の情報収集術を大公開！

※サムネイル画像はdos77によるPixabay画像を活用

登壇者情報

遠藤太一郎

株式会社カナメプロジェクト CEO
国立大学法人東京学芸大学教育AI研究プログラム准教授

AI歴25年。18歳からAIプログラミングを始め、米国ミネソタ大学大学院在学中に起業し、AIを用いたサービス提供を開始。AIに関する実装、論文調査、システム設計、ビジネスコンサル、教育等幅広く手がけた後、AIスタートアップのエクサウィザーズに参画し、技術専門役員としてAI部門を統括。上場後、独立し、現在は株式会社カナメプロジェクトCEOとして様々なAI/DAO/データ活用/DX関連のプロジェクトを支援する。国際コーチング連盟ACC／DAO総研 Founder等

https://kaname-prj.co.jp/

湯川鶴章

株式会社エクサウィザーズ AI新聞編集長

米カリフォルニア州立大学サンフランシスコ校経済学部卒業。サンフランシスコの地元紙記者を経て、時事通信社米国法人に入社。シリコンバレーの黎明期から米国のハイテク産業を中心に取材を続ける。通算20年間の米国生活を終え2000年5月に帰国。時事通信編集委員を経て2010年独立。2017年12月から現職。主な著書に『人工知能、ロボット、人の心。』（2015年）、『次世代マーケティングプラットフォーム』（2007年）、『ネットは新聞を殺すのか』（2003年）などがある。趣味はヨガと瞑想。妻が美人なのが自慢。

https://community.exawizards.com/aishinbun