フルレビュー:マヌスはどのようにして生まれたのか?

中級3/17/2025, 7:40:21 AM
この記事では、Manus.imの誕生背景、製品コンセプト、およびAI分野での革新的な取り組みについて、詳細な分析を提供しています。

昨年最も精神的な栄養を受けた起業家の物語は、Difyの創設者である張路宇から来ました。

彼に初めて会ったのは2023年の「Gate Taoism」イベントでした。その場には著名な名前がたくさんいましたが、Zhang Luyuは目立たなかった。2024年に再び会った時、Difyはすでに別の物語でした――華やかな経歴のない起業家であり、世界でもっとも成功したAIオープンソース製品のひとつを、ビジネスモデルについてのみんなの疑念の中で生み出しました。

1年間でこの企業が日本市場で予想外の人気を得るなど、『従来的で守りやすいが攻撃しにくい』とされる要因が私にとっては『起業精神』をさらに理解する手助けになりました。これは大部分が偶発的であり、また運も必要です。最終的には、絶え間ない変化と逆風から脱する能力が必要です。

今、別の有名な起業家、Manus.im Xiao Hong氏と彼のチームにも同様の出来事が起こりました。

四ヶ月前、シャオ・ホンは混乱を表明しました。「チームは0から1に進むのが得意で、機会をつかむ能力が強い。しかし、1からNに移行すると、状態があまり良くない」と。

彼の過去の経験では、ほとんどの起業プロジェクトが比較的安定したかなりの収益を上げ、最後の会社も成功裏に買収されました。2023年には、彼の新しい会社「Butterfly Effect」はさらにブラウザプラグインMonica.imを使用して、何百ものモデルのAIナラティブで競い合い、優れた製品体験を持つ最も急成長しているAIアプリケーションの1つとなりました。彼は順調な道のりを歩んできた起業家のようです。これらのことができるのは、彼がたった32歳のときです。

しかし実際、彼はあまり幸せを感じていませんでした。小紅の見解では、いわゆる「起業家の連続退出」といわゆる0から1への絶え間ない爽快感は包囲のようなものです- 0から1への機会を掴む能力は非常に強く、非常に満足感がありますが、一方で、再びそれをする必要があるかどうか心配しています。

2024年、業界関係者は、Monica.imのような記憶機能を持つAIアシスタントがDoubaoなどの強力な競争相手からプレッシャーを受けると信じており、2023年ほど簡単ではないとされています。Monica.imは0から1まで良いですが、必ずしも1からNのヒットとは限りません。

そして彼が混乱している理由は、「チームは本当により難しいことやより高い天井のあることを次に行うつもりであり、1からNまでの範囲に及ぶことを探求する」ということです。

以前、Monica.imに注目している多くの声は、長い間噂されていましたがチームによってリリースされていないAIブラウザを指していると考えていました。今見ると、私は間違って推測しましたが、それは本当です。

このより難しい探求は実際には、リリース状態に達したAIブラウザを放棄し、次の「ChatGPTの瞬間」AI製品を探し、汎用エージェントの目標を見つけ、最新リリースのManus.imを作成することです。

Manusが革新的である程度、そして将来どの程度のレベルまで達成できるかは今、注目の的です。しかし、見る価値があるのは依然として「期待に反して事が進む」方向と、その方向を見つける過程です。Manus.imはこのチームに1からNまでのことを成し遂げることを可能にするかもしれませんし、Monica.imの勢いを再現することさえできないかもしれませんが、まるでこの会社の名前のように-「バタフライエフェクト」、多くの小さな行動や決定が無意識に将来に深い影響を与えます。「点と点を結ぶ」、明日への道は今日の経験に隠されているでしょう。

01 Manusのユニークな製品体験は、「AIブラウザ」を作る過程で得られた教訓に基づいています

昨年の中頃から遅くとも、『バタフライエフェクト』チームのAIブラウザが業界内で「準公開」の秘密となりました。一般に公開された製品は、無制御の注目を集めたManusでした。

もしManusを実際に体験したり、デモ動画を見たりしたことがあれば、それはチャットボットや一部のエージェントアプリケーションとは大きく異なることを感じるでしょう:Manusは非同期で並行してタスクを実行できる。

DoubaoやKimiなどのアプリを開いて質問すると、返信を待たなければなりません。返信中やタスクを実行中に話しかけると、前の返信/タスクが中断され、A-B-A-B方式の会話しかできません。

しかし、Manus.imでは、それでもチャットボット製品のように見えますが、20の質問をすると同時にタスクを実行することができます。コンピューターで他のことをすることができます。ビデオを見たり、文書を書いたり、ゲームをしたりすることができます。作業を遅らせずに。Manusは、これらのタスクが完了した際や実行中に問題が発生した際に通知できます。タスクの実行中にその考え方に逸脱が見られた場合、いつでもダイアログボックスにプロンプトワードを追加し、新しいコンテキストで考え続け、タスクを実行します。

体験は非同期で並列化されており、本当にあなたの仕事を手伝ってくれる本物のインターンチームがいるような感じがします。

実際、マヌスの非同期体験のための製品アーキテクチャ設計は、以前に非公開の製品でチームが学んだ教訓から生まれました、AIブラウザです。同時に、これがチームが多くのエネルギーを投資したが、昨年10月にブラウザの開発を中止することを決定した理由でもあります。

ブラウザ会社は2024年10月25日に、Arcブラウザの新機能の開発を停止し、新しいDiaブラウザにリソースを移行することを発表しました。これにより、よりシンプルで使いやすいAIブラウザを作成することを目指しています。|出典:Arc公式ウェブサイト

「AIブラウザでは、AIがユーザーを常に中断しています。1人のユーザー向けに設計されたシナリオなので、AIを使い始めると、それ以降は使えません。AIが作業を始めると、あなたはAIの作業を見るだけで、始めるのが難しいです。AIがマウスやコンピュータを奪うのを見ているだけで、奪い返すのもためらい、キーボードやマウスを触ってしまうと、全プロセスが崩れてやり直しになるのではないかと心配してしまいます。」

これにより、チームは2つの判断を下すことができます:

  1. コンピュータを直接使用してコンピュータを使用することは短期間では実現不可能です。
  2. AIはブラウザを使用すべきですが、あなたのブラウザ内ではありません。それは自分自身のブラウザを持つべきで、できればクラウド内にあり、最終的に結果をあなたにフィードバックすべきです。

テンセントテクノロジーの張小軍氏とのインタビューで、小洪氏は、チームがジャスパーからChatGPT、Monica、Cursor、Devinへの製品形態をまとめていた際に、「人間プログラマー」であるDevinがこの非同期体験アーキテクチャに非常に適していることがわかったと述べました。

Windsurfを使用するときとは異なり、このライブラリをインストールする必要があるかどうかを確認するように求められることがあります。また、コマンドライン操作を実行し、コンピューターに実際に損傷を与える可能性があるか、何かと競合している場合には、「はい」または「いいえ」を入力するよう求められることがあります。次のステップに進むために「はい」を入力するよう求められるが、責任を転嫁しなければならないこともあります。

したがって、Manusチームの見解では、「Chatbotはクラウド上のコンピュータを持っている必要があり、書かれたコードやブラウザを通じてチェックされるものはそのコンピュータ上で実行されます。仮想サーバーですので、壊れても問題ありません。別のものを取得できます。現在のタスクが完了した後、サーバーを解放することさえできます。」

Devinが垂直領域とハードコアエンジニアを選んだのに対し、ManusチームはWebやAppなどの一般用途の消費者向けAIアシスタントを選択しました。指示に従って仕事や生活でさまざまなタスクを完了し、ツールを呼び出すことができる一般用途のAIアシスタントです。将来、消費者向けに手頃な価格でタスクの結果も提供する予定です。

02 Less Structure,More Intelligence

明確なアイデアと目標があれば、次はそのアイデアを実現することです。Manusはどのようにしてそれを行いましたか?

その製品パートナーである張涛氏によれば、これには大きなモデルにコンピュータを装備する必要があります。また、システム権限(コード倉庫や専門データクエリウェブサイトへのアクセスなどのプライベートAPIへのアクセス)を与え、特定のトレーニングを行う必要があります。

このように、AIはこのコンピュータを使用してブラウザを開き、スケジュールツールを実行し、その後、ツールによって生成されたフィードバックに基づいてその行動の実世界への影響を観察し、次のステップを考え、再び行動を起こし、そして観察します...これはAIが探査と研究の任務を完了するプロセスです。この期間中、Manusはまた、「トレーニング」のもとであなたの要件をますます理解するようになります。将来、あなたが要件を明確に定義しなくても、それはそれぞれのタスクで蓄積された知識に基づいて「聖なる意味」を理解することができます。

華為の若き天才であり、Logenic AIの創設者である李柏杰氏は、Manusには他の製品とは異なるユニークな特徴があり、それはギークプログラマーたちが問題を解決する方法であると考えています。 |画像ソース:WeChatのスクリーンショット

Manusの製品のコンセプトは、チームの製品実践の中で徐々に明確になりました: Less Structure, More Intelligence (Less Structure, More Intelligence)。

これは、マヌスチームが「アハ、待って!」と思った瞬間でもありました。たとえば、今年の1月にチームに起きたことです。

ManusがGAIAテストセットの質問を試すように求められたときには、「National Geographicスタイルに似たYouTubeビデオリンクで、さまざまなペンギンが画面内を行き来し、画面内を出入りします。 Manusには、同時に表示されるペンギンの最大数を数えるように求められます。 何種類ありますか?」

その後、何か魔法のようなことが起こりました。

マヌスは最初にビデオリンクを開き、「Kを押す」という最初のアクションを行いました。その後、1つずつスクリーンショットを撮って、どのフレームにどのタイプのペンギンが現れたかを記録しました。最後に、3種類のペンギンが最も多く現れたフレームを結論づけました。マヌスは次にチェックに戻り、「3を押す」という次のアクションを取ります... 最終的な検査の結果、答えは3でした。

Manusの建設の背後にいる人々として、その能力の限界を知っているべきですが、チームにとっては、「驚きが常にある」という現実があります。驚くべきことに、Manusは質問を正しく答えただけでなく、長年コンピューターやYoutubeを使用してきた人間の友達でも、キーボードの「K」と「3」のキーが何であるかを必ずしも知らないかもしれません。

前に見たやや鈍いシーンを見て、チームはマヌスに続いてそれをやり直しました。キーボードの「K」は一時停止キーであり、マヌスがどのペンギンがどのフレームに表示されるかを記録するために一時停止してから1つずつスクリーンショットを撮ることができます。「3」もショートカットキーであり、0から9までそれぞれ進行バーの0%から90%を表しています。3は進行バーの30%です。そのビデオの数秒を正確に特定でき、その後、この画像に何種類のペンギンがいるかを人間に伝えることができます。

「このプロセスは従来のチャットボットとは異なります。まず、字幕の代わりにYouTubeの画像を見ることができます。そして、YouTubeのショートカットキーを使用していることがわかりました。この質問に答えているのを見て、私たちは非常に驚いていました。」シャオ・ホンも以前のテンセントテクノロジーのインタビューでこのシーンに触れています。

突然、私はマヌスが人間よりプログラミングが得意であり、またマヌスのウェブやアプリに関する知識が人々が日常的に使用するものを遥かに超えていることを発見しました。全知全能のAIとして、マヌスはどんなツールでもすべての方法や手段を理解し、そして最適な方法を選択することができます。

チームに再び「構造を減らし、知能を増やす」と感じさせることができました - AIに人工的な制約を最小限に抑え、AIが独自の進化を通じて機能することを許可し、何をすべきかを教えるのではなく。

Manus公式ウェブサイトの最も下部には、Manusの背後にある最も重要な発見が静かに提示されています:「構造を減らし、知能を増やす」。|スクリーンショット出典: Manus

これは、Manus製品が発売された日に、Peak、Butterfly Effectの共同創設者兼主任科学者がManus製品の背後にある最も重要な第一原理「Less Structure, More intelligence」についての説明と拡張思考です。

データが高品質であり、モデルが十分にスマートで、アーキテクチャが柔軟で、エンジニアリングが十分に堅牢である場合、コンピュータの使用、深い研究、およびコーディングエージェントなどの概念は、製品の特徴から自然に出現する能力に変わります。

最初の原則に戻ることは、製品形態について新しい考え方を提供してくれます。AIブラウザはブラウザにAIを追加するのではなく、AI向けのブラウザを作成します。
· AI検索はインデックスから呼び出しや要約を行いませんが、ユーザーの許可を得てAIが情報を取得することを可能にします;
· GUIの操作はユーザーのデバイスを奪うことはありませんが、AIが独自の仮想マシンを持つことを可能にします;
コードを書くことは最終目標ではありませんが、さまざまな問題を解決するための一般的な手段です。
· ウェブサイトを生成する難しさは、フレームワークを構築することではなく、コンテンツを意味のあるものにすることです;
· 注意だけでは足りません。ユーザーの注意を解放することで、DAU を再定義することができます。

「Less Structure, More Intelligence」の発見と実践を繰り返すことで、Manusは期待を超える結果を生み出し、それにはPassも含まれています@1GAIAベンチマークでのスコアは、OpenAI Deep Researchのスコアを上回っています@64; 同時に、内部テストでは、ManusはY Combinator W25の専用エージェント製品の76%のシナリオを直接カバーすることもできました。

03 “エージェントは基本的なモデルの機能の問題よりも「アラインメント」の問題である可能性があります」

今、これらの洞察の価値がより大きなスケールで議論されています:

Hugging Faceの創業者兼CEOであるClement Delangueは、Someオープンソースの基本モデルのPeakの調査結果を提案しました。すべての質問に1回で回答するように単純にトレーニングされている場合があります。しかし、これはチャットボットシナリオでの要件です。エージェントのパスについてのポストトレーニングを行うだけでも、即座に大きな違いを生むことができます。|スクリーンショットの出典: X

ManusはMCP(Model Context Protocol)を導入しませんが、AIにAPIを呼び出してさまざまなロングテールタスクを処理するためのコードを自分で書くことを可能にします。|スクリーンショットソース:X

過去数日間のManusに関する議論で、最も一般的な質問の1つは、「汎用AIエージェント」は実現可能か?境界はどこにあるのか?」というものです。

ピークの見解では、人々と世界との相互作用は実際には非常に標準的であり、目、手、耳を使っており、行動空間がうまく定義されている場合、人間が元々行っていたリンクにエージェントを埋め込むことが可能であるはずです。

人々はさまざまなツールを使用して垂直分野で深い操作を完了できるため、エージェント自体が十分な知識を持ち、適切に訓練されており、世界とのやり取りのための優れたインターフェースを持っていれば、それは人間のように機能し、エージェントが特定のSaaS製品を使用できるようにすることさえできるはずです。たとえば、Manus.imの公式ウェブサイトで提示されている家探しのケースは、実際に不動産分野に特化したSaaS製品を使用させることに関わるものです。

彼は、エージェントがツールの使用の境界が明確に定義されるべきであるべきだと信じており、そのツールがどのグループの人々に役立つかではなく。 Manusは特定のことをする人をシミュレートしているわけではなく、R&D、プロダクトマネージャーなどによって分割された役割エージェントでもありません。それは、何かをすることができる人をシミュレートし、インターンの働き方をシミュレートしています。

Manus’s multi-agent system refers to the separation of planning and execution.

実行者(Executor)には、長期的な計画立案と段階的な問題解決能力で一時的にプログラムをリードしているClaudeを採用し、また、ポストトレーニングに一連のQwenモデルを使用しました。

昨日、ManusはAlibaba Tongyi Qianwenと戦略的提携を結び、国内モデルとコンピューティングパワープラットフォームでManusのすべての機能を実現することにコミットしました。|画像ソース:Manus

プランナー部分では、Manusはたくさんの仕事をしています。

現在市場にある棚APIまたはモデルは基本的にチャットロボットシナリオに合わせており、トレーニング中にユーザーがどれだけ複雑な質問をしても、トレーニングの最適化目標はユーザーの質問に明確に1回の返信で答えることですが、これは実際にはエージェントが必要とする計画とはまったく逆です。

市場で既存のモデルを「調整」せずにエージェントシナリオで直接使用すると、このモデルは常に急速な成功を望んでおり、多くの箇条書きの要約のように、対話のラウンド内で「混乱した」結果をもたらします。

"アライメント手法は異なるはずです。私たちのチームは、特別なアライメントを行うには異なるデータが必要だと考えています。」シャオ・ホンは述べています。

昨年10月、PeakはZhihuにも記録され、OpenAI o1インタレストプロジェクトの再現を試みた進捗と失敗について記録しました-スタイナーオープンソースモデル。実際、このプロジェクトはManusプランナーのステップバイステップの計画部分についての事前研究を行っていました。

一般的に、Manusは事を行う人をシミュレートしています。これは、Manusを汎用AIアシスタントとして定義するチームの製品定義です。境界について考えると、チームはおそらくまだそれを探求中であり、より多くのユーザー使用事例が必要です。

Manusのリリース前に公開されたTencent Technologyのインタビューで、Xiao Hongは実際にManusの汎用性についての初期の考えを述べています。「製品マネージャーの非常に重要な責務は、ユーザーの期待をコントロールすることです。世界中のすべてのことができると仮定すると、例えば、どうやって100万ドルを稼ぐか?これはエージェントによって実行されるべきことではありません。しかし、より具体的な例を示すことで、皆の期待をより合理的にすれば、皆がよりスムーズに使用するでしょう。

04 “貝殻にはそれぞれの用途があります”、貝殻を最も理解しているチーム

2月27日の早朝、Manusの製品パートナーであるZhang Tao氏と首席科学者のJi Yichao(Peak)氏は、Manus.imのランキング結果を見て涙を流しました。 ManusのGAIAベンチマークでのパフォーマンスは、OpenAIのDeep Researchを上回り、OpenAIのベンチマークの約1/10のコスト($2/task)でこの予想外の結果を達成しました。


画像ソース:Manus.im

数十人のチームが、業界全体での競争について合意に達したとき、初めてユニバーサルエージェント製品を製作した最初のチームの1つとなりました。彼らは製品エンジニアリングやフロントエンドのインタラクティブな体験でも独自性を持っています。

良い成果に対するポジティブなフィードバックは、他の何よりも良いものです。スタートアップチームにとって、これ以上のインセンティブはありません。しかし、その前に、Manusはどのようにして起こったのでしょうか?なぜこのチームが作られたのか?

「今日のモデル機能はいくつかの複雑な、複数段階のタスクを完了する能力があります。しかし、そのような製品は存在しないため、誰もがそれを感じることはできません。」テンセントテクノロジーとの以前のインタビューでシャオ・ホンが述べた見解は、この問題を理解するために使用できます。

同時に、「エージェント製品を試す機会を得ることができるチームはあまりありません。それは多くの複合能力を必要とするからです。彼はチャットボット、いくつかのAIプログラミング関連、およびブラウザ関連の作業をしたいと考えています。なぜならブラウザを呼び出す必要があり、LLMの境界について良い感覚を持っていて、それが今日どのレベルまで開発されているか、そして次にどのようなレベルまで発展するかを知っているからです。まず、同時にこれらの能力を持っている企業はそれほど多くはありませんし、これらの能力を持っている企業は、手元の非常に特定のビジネスを行っている可能性があります。私たちのクラスメートの中には、偶然にもこれらのことを一緒に行う時間がある人もいます。」

「正確に」。

  • それは、モデルの能力がオペレータのようなエンドツーエンドの大規模なモデルのリリースを待たずに、エージェントとして使用できるレベルに達したことが、ちょうど適切な時期に発見されたことを意味します。
  • 私も偶然にも問題が整列であることを見つけました;
  • 私もチャットボットやAIブラウザによって拡張されたすべての機能を実行しています;
  • 同時に、私はいわゆる「シェル」で大規模なモデルアプリケーション製品を作ってきたため、LLMに対する鋭い認識を持っています。

「バタフライ・エフェクト」チームは、今日、そのような普遍的なエージェントを作るためのすべての要素を達成しており、業界に比べて比較的高い完成度の普遍的なエージェントが存在しています。

Peak氏は、Manusを始めたいと思った決定的な瞬間を尋ねられたとき、より詳細を回復しました。彼は、「実際には起業家精神における 'きれいな' ピボットはありません。」と述べました。すべてが一貫しており、明確な境界線はありません。

“製品を作る際には、外部の状況にも頻繁に注意を払います。”その当時、いくつかのことがありました。まず、ブラウザを作っていたとき、クライアント側モデルを作成しました。後に、ブラウザは非常に広範囲のシナリオを必要とし、異なる機能を持っていることがわかりました。その過程で、基本モデルが加速度的に強化されていることがわかりました。それと代理店とのギャップは、整列の問題かもしれません。外部の世界からは、大規模な言語モデルが徐々に収束し、壁にぶつかっているように感じられるかもしれませんが…

同時に、外界も変化していました。去年の初めにはCursorが導入され、その後にWindsurfとDevinが続きました。これは同じ文脈に対応しています。エージェントはプログラミング分野で人気があり、その人気の道は着実です。Cursorはプログラマーの共同作業者であり、プログラミング効率を向上させます。Windsurfを皮切りに、一部の自動化プロセスが徐々に導入され、ローカルマシンでより強力な自動化機能を持つようになりました。Devinは新たな自動化レベルに達しました。

VCのトレンドも一貫しています。例えば、昨年と一昨年、YCは2種類の企業に投資しました。1つは、ブラウザベースのクラウドブラウザなどです。2つ目は、e2bに似た軽量AIサンドボックス仮想マシンです。

これは、「モデルのインフラストラクチャが急速に成熟しており、インフラのインフラストラクチャも急速に成熟していることを示しています。さらに、外部製品が徐々により多くの受容を得ていることを見て、これは全てを賭ける価値がある方向性だと感じています。これは非常に徐々でスムーズなプロセスです。また、Chromiumなどのブラウザの開発中に蓄積されたインフラストラクチャはシームレスに移行できるため、私たちはクラウドでのブラウザの開発に踏み切ることができるのです。

要約すると、「シェル」と呼ばれる要件とモデルの鋭い知覚と経験の蓄積が共同でManusを作り出しました。モニカの多くのシナリオでは、モデルのトレーニング後が必要です。同時に、最も重要な教訓である「構造を減らし、知能を増やす」が、AIブラウザの実践で強化されました。彼女は、モデルの能力がエージェントのレベルに達したことを発見しましたが、問題は整合性にあります。その後、Manusは急速に進化し始めました。

以前、「バタフライ効果」チームは、「シェリング」の価値について質問されました。Monicaを構築し、既存の大規模モデルを統合することで大規模モデルを開発せずに構築しました。チャット、検索、読書、執筆、翻訳などの機能を統合しました。また、APIを介して多くのタスク実行シナリオを1つずつ統合しました。昨年末までに、ユーザー数は数千万人に達しました。

今、Doubao、Quark、およびYuanbaoが熱心にMonica製品をプロモーションしているとき、小さなチームが既存の技術を使用して最初の一般消費者レベルのエージェントを作成しているとき、"シェル"を再理解する時が来ています。

「シェルズ」とは何ですか?

Xiao Hongの見解では、すべてのブレークスルーは、基本的にモデル駆動およびモデルファーストであるモデルによってもたらされます。シェルは、ユーザーが認識できるようにモデルの技術革新を表示し、ユーザーが最もよく認識できる方法でモデルの革新的な能力をカプセル化するためのものです。

この定義から始めると、DeepSeek App(思考の連鎖の表示を含む)はDeepSeek-R1のシェルであり、CursorはAnthropic Sonnet 3.5のシェルであり、PerplexityはGPT-4のシェルであり、ChatGPTはInstructGPTのシェルである。

モデルの機能が急速に進化するにつれて、「そのシェル」も進化する必要があります。各世代のモデルの機能が進化した後でも、元の製造業者である必要はありません。ユーザーが認識する価値を提供する第三者製造業者です。カーソルがクロード3.5ソネットにユーザーが認識する価値をもたらすように。

3月5日、Monica.imのリリースから2周年を迎えたこの数十人の人々が、様々なDeep ResearchやOpenAI Operatorsを上回る製品体験を達成した理由は、シェルの理解と実践にあります。

新しいモデルのエージェントとして使用できる最高のシェルを作る方法は?

Manusの建築家である張涛は、「背景から全体のアーキテクチャを眺めると、各所に未完了の作業がたくさんあることがわかり、それぞれの場所が成功の鍵であり、製品の表面を異なるものにするすべての場所です。」と信じています。

チームの観点からは、最も重要な利点は革新の速さです。アプリケーションとモデルの両方が相対的な飽和状態に達しています。最終的に本当に重要なのは速く走ることですが、「データフライホイール」と「ネットワーク効果」はまだ検証されていません。

「新しいフィールドでは、すべてが不確実で未知です。最も重要なことは革新の速さです。私たちが追求するのは、さまざまな方向での探求、試行錯誤、そして素早く正しい道を見つけることです。」 Manusチームは、経営哲学、組織構造、産業プロセスに関して柔軟性があります。新しい機会が生じたとき、限られたリソースを使って全社のすべてのリソースをつなぎ合わせ、非常に高速で意思決定を行い、間違いからのフィードバックに適応します。

左から右に「Butterfly Effect」の主任科学者Peak、CEOのXiao Hong、そして製品パートナーのZhang Taoがいます | 画像出典: インターネット

マヌスの期待について、シャオ・ホンは「たとえウィンドウ期間があっても、試す価値があると考えています。」と述べています。過去1年間、彼の考え方も急激に変わりました。たとえば、今では「スケジュールよりも前進していることに気づいたとき、より攻撃的で、非常に攻撃的になります。今日のレビューをした後、モニカが2023年には十分に攻撃的ではなかったと感じます。」「革新してリードしているとわかったら、攻撃的であるべきです。」

私はManusが小さなほんとの知識を持つチームに経験と1からNへの飛躍をもたらせるかどうかわかりませんが、最も「殻」について知っているこのチームは、心と手を一つにして創造することを信じています。また、創造がもたらすバタフライ効果も信じています。ManusはMITのモットーから来ており、心と手の結びつきを強調するMens at manusです。それは視覚的であってはならず、実行されなければならず、現実の世界に影響を与えることができます。それが真の知識です。

将来、Manusの背後にある預金がさらにオープンソース化されると、さらに幅広いバタフライ効果がさらに放出されることになります。

免責事項:

  1. この記事は[から再生されていますGEEEKPARK]で、著作権は原作者に帰属します[Wan Chen], if you have any objection to the reprint, please contact Gate Learnチーム、関連手続きに従って早急に対処します。

  2. 免責事項:本文に表現されている意見は、著者個人の見解を示すものであり、投資アドバイスを構成するものではありません。

  3. 他の言語のバージョンはGate Learnチームによって翻訳され、Gate.io, 翻訳された記事の複製、配布、または盗用はできません。

フルレビュー:マヌスはどのようにして生まれたのか?

中級3/17/2025, 7:40:21 AM
この記事では、Manus.imの誕生背景、製品コンセプト、およびAI分野での革新的な取り組みについて、詳細な分析を提供しています。

昨年最も精神的な栄養を受けた起業家の物語は、Difyの創設者である張路宇から来ました。

彼に初めて会ったのは2023年の「Gate Taoism」イベントでした。その場には著名な名前がたくさんいましたが、Zhang Luyuは目立たなかった。2024年に再び会った時、Difyはすでに別の物語でした――華やかな経歴のない起業家であり、世界でもっとも成功したAIオープンソース製品のひとつを、ビジネスモデルについてのみんなの疑念の中で生み出しました。

1年間でこの企業が日本市場で予想外の人気を得るなど、『従来的で守りやすいが攻撃しにくい』とされる要因が私にとっては『起業精神』をさらに理解する手助けになりました。これは大部分が偶発的であり、また運も必要です。最終的には、絶え間ない変化と逆風から脱する能力が必要です。

今、別の有名な起業家、Manus.im Xiao Hong氏と彼のチームにも同様の出来事が起こりました。

四ヶ月前、シャオ・ホンは混乱を表明しました。「チームは0から1に進むのが得意で、機会をつかむ能力が強い。しかし、1からNに移行すると、状態があまり良くない」と。

彼の過去の経験では、ほとんどの起業プロジェクトが比較的安定したかなりの収益を上げ、最後の会社も成功裏に買収されました。2023年には、彼の新しい会社「Butterfly Effect」はさらにブラウザプラグインMonica.imを使用して、何百ものモデルのAIナラティブで競い合い、優れた製品体験を持つ最も急成長しているAIアプリケーションの1つとなりました。彼は順調な道のりを歩んできた起業家のようです。これらのことができるのは、彼がたった32歳のときです。

しかし実際、彼はあまり幸せを感じていませんでした。小紅の見解では、いわゆる「起業家の連続退出」といわゆる0から1への絶え間ない爽快感は包囲のようなものです- 0から1への機会を掴む能力は非常に強く、非常に満足感がありますが、一方で、再びそれをする必要があるかどうか心配しています。

2024年、業界関係者は、Monica.imのような記憶機能を持つAIアシスタントがDoubaoなどの強力な競争相手からプレッシャーを受けると信じており、2023年ほど簡単ではないとされています。Monica.imは0から1まで良いですが、必ずしも1からNのヒットとは限りません。

そして彼が混乱している理由は、「チームは本当により難しいことやより高い天井のあることを次に行うつもりであり、1からNまでの範囲に及ぶことを探求する」ということです。

以前、Monica.imに注目している多くの声は、長い間噂されていましたがチームによってリリースされていないAIブラウザを指していると考えていました。今見ると、私は間違って推測しましたが、それは本当です。

このより難しい探求は実際には、リリース状態に達したAIブラウザを放棄し、次の「ChatGPTの瞬間」AI製品を探し、汎用エージェントの目標を見つけ、最新リリースのManus.imを作成することです。

Manusが革新的である程度、そして将来どの程度のレベルまで達成できるかは今、注目の的です。しかし、見る価値があるのは依然として「期待に反して事が進む」方向と、その方向を見つける過程です。Manus.imはこのチームに1からNまでのことを成し遂げることを可能にするかもしれませんし、Monica.imの勢いを再現することさえできないかもしれませんが、まるでこの会社の名前のように-「バタフライエフェクト」、多くの小さな行動や決定が無意識に将来に深い影響を与えます。「点と点を結ぶ」、明日への道は今日の経験に隠されているでしょう。

01 Manusのユニークな製品体験は、「AIブラウザ」を作る過程で得られた教訓に基づいています

昨年の中頃から遅くとも、『バタフライエフェクト』チームのAIブラウザが業界内で「準公開」の秘密となりました。一般に公開された製品は、無制御の注目を集めたManusでした。

もしManusを実際に体験したり、デモ動画を見たりしたことがあれば、それはチャットボットや一部のエージェントアプリケーションとは大きく異なることを感じるでしょう:Manusは非同期で並行してタスクを実行できる。

DoubaoやKimiなどのアプリを開いて質問すると、返信を待たなければなりません。返信中やタスクを実行中に話しかけると、前の返信/タスクが中断され、A-B-A-B方式の会話しかできません。

しかし、Manus.imでは、それでもチャットボット製品のように見えますが、20の質問をすると同時にタスクを実行することができます。コンピューターで他のことをすることができます。ビデオを見たり、文書を書いたり、ゲームをしたりすることができます。作業を遅らせずに。Manusは、これらのタスクが完了した際や実行中に問題が発生した際に通知できます。タスクの実行中にその考え方に逸脱が見られた場合、いつでもダイアログボックスにプロンプトワードを追加し、新しいコンテキストで考え続け、タスクを実行します。

体験は非同期で並列化されており、本当にあなたの仕事を手伝ってくれる本物のインターンチームがいるような感じがします。

実際、マヌスの非同期体験のための製品アーキテクチャ設計は、以前に非公開の製品でチームが学んだ教訓から生まれました、AIブラウザです。同時に、これがチームが多くのエネルギーを投資したが、昨年10月にブラウザの開発を中止することを決定した理由でもあります。

ブラウザ会社は2024年10月25日に、Arcブラウザの新機能の開発を停止し、新しいDiaブラウザにリソースを移行することを発表しました。これにより、よりシンプルで使いやすいAIブラウザを作成することを目指しています。|出典:Arc公式ウェブサイト

「AIブラウザでは、AIがユーザーを常に中断しています。1人のユーザー向けに設計されたシナリオなので、AIを使い始めると、それ以降は使えません。AIが作業を始めると、あなたはAIの作業を見るだけで、始めるのが難しいです。AIがマウスやコンピュータを奪うのを見ているだけで、奪い返すのもためらい、キーボードやマウスを触ってしまうと、全プロセスが崩れてやり直しになるのではないかと心配してしまいます。」

これにより、チームは2つの判断を下すことができます:

  1. コンピュータを直接使用してコンピュータを使用することは短期間では実現不可能です。
  2. AIはブラウザを使用すべきですが、あなたのブラウザ内ではありません。それは自分自身のブラウザを持つべきで、できればクラウド内にあり、最終的に結果をあなたにフィードバックすべきです。

テンセントテクノロジーの張小軍氏とのインタビューで、小洪氏は、チームがジャスパーからChatGPT、Monica、Cursor、Devinへの製品形態をまとめていた際に、「人間プログラマー」であるDevinがこの非同期体験アーキテクチャに非常に適していることがわかったと述べました。

Windsurfを使用するときとは異なり、このライブラリをインストールする必要があるかどうかを確認するように求められることがあります。また、コマンドライン操作を実行し、コンピューターに実際に損傷を与える可能性があるか、何かと競合している場合には、「はい」または「いいえ」を入力するよう求められることがあります。次のステップに進むために「はい」を入力するよう求められるが、責任を転嫁しなければならないこともあります。

したがって、Manusチームの見解では、「Chatbotはクラウド上のコンピュータを持っている必要があり、書かれたコードやブラウザを通じてチェックされるものはそのコンピュータ上で実行されます。仮想サーバーですので、壊れても問題ありません。別のものを取得できます。現在のタスクが完了した後、サーバーを解放することさえできます。」

Devinが垂直領域とハードコアエンジニアを選んだのに対し、ManusチームはWebやAppなどの一般用途の消費者向けAIアシスタントを選択しました。指示に従って仕事や生活でさまざまなタスクを完了し、ツールを呼び出すことができる一般用途のAIアシスタントです。将来、消費者向けに手頃な価格でタスクの結果も提供する予定です。

02 Less Structure,More Intelligence

明確なアイデアと目標があれば、次はそのアイデアを実現することです。Manusはどのようにしてそれを行いましたか?

その製品パートナーである張涛氏によれば、これには大きなモデルにコンピュータを装備する必要があります。また、システム権限(コード倉庫や専門データクエリウェブサイトへのアクセスなどのプライベートAPIへのアクセス)を与え、特定のトレーニングを行う必要があります。

このように、AIはこのコンピュータを使用してブラウザを開き、スケジュールツールを実行し、その後、ツールによって生成されたフィードバックに基づいてその行動の実世界への影響を観察し、次のステップを考え、再び行動を起こし、そして観察します...これはAIが探査と研究の任務を完了するプロセスです。この期間中、Manusはまた、「トレーニング」のもとであなたの要件をますます理解するようになります。将来、あなたが要件を明確に定義しなくても、それはそれぞれのタスクで蓄積された知識に基づいて「聖なる意味」を理解することができます。

華為の若き天才であり、Logenic AIの創設者である李柏杰氏は、Manusには他の製品とは異なるユニークな特徴があり、それはギークプログラマーたちが問題を解決する方法であると考えています。 |画像ソース:WeChatのスクリーンショット

Manusの製品のコンセプトは、チームの製品実践の中で徐々に明確になりました: Less Structure, More Intelligence (Less Structure, More Intelligence)。

これは、マヌスチームが「アハ、待って!」と思った瞬間でもありました。たとえば、今年の1月にチームに起きたことです。

ManusがGAIAテストセットの質問を試すように求められたときには、「National Geographicスタイルに似たYouTubeビデオリンクで、さまざまなペンギンが画面内を行き来し、画面内を出入りします。 Manusには、同時に表示されるペンギンの最大数を数えるように求められます。 何種類ありますか?」

その後、何か魔法のようなことが起こりました。

マヌスは最初にビデオリンクを開き、「Kを押す」という最初のアクションを行いました。その後、1つずつスクリーンショットを撮って、どのフレームにどのタイプのペンギンが現れたかを記録しました。最後に、3種類のペンギンが最も多く現れたフレームを結論づけました。マヌスは次にチェックに戻り、「3を押す」という次のアクションを取ります... 最終的な検査の結果、答えは3でした。

Manusの建設の背後にいる人々として、その能力の限界を知っているべきですが、チームにとっては、「驚きが常にある」という現実があります。驚くべきことに、Manusは質問を正しく答えただけでなく、長年コンピューターやYoutubeを使用してきた人間の友達でも、キーボードの「K」と「3」のキーが何であるかを必ずしも知らないかもしれません。

前に見たやや鈍いシーンを見て、チームはマヌスに続いてそれをやり直しました。キーボードの「K」は一時停止キーであり、マヌスがどのペンギンがどのフレームに表示されるかを記録するために一時停止してから1つずつスクリーンショットを撮ることができます。「3」もショートカットキーであり、0から9までそれぞれ進行バーの0%から90%を表しています。3は進行バーの30%です。そのビデオの数秒を正確に特定でき、その後、この画像に何種類のペンギンがいるかを人間に伝えることができます。

「このプロセスは従来のチャットボットとは異なります。まず、字幕の代わりにYouTubeの画像を見ることができます。そして、YouTubeのショートカットキーを使用していることがわかりました。この質問に答えているのを見て、私たちは非常に驚いていました。」シャオ・ホンも以前のテンセントテクノロジーのインタビューでこのシーンに触れています。

突然、私はマヌスが人間よりプログラミングが得意であり、またマヌスのウェブやアプリに関する知識が人々が日常的に使用するものを遥かに超えていることを発見しました。全知全能のAIとして、マヌスはどんなツールでもすべての方法や手段を理解し、そして最適な方法を選択することができます。

チームに再び「構造を減らし、知能を増やす」と感じさせることができました - AIに人工的な制約を最小限に抑え、AIが独自の進化を通じて機能することを許可し、何をすべきかを教えるのではなく。

Manus公式ウェブサイトの最も下部には、Manusの背後にある最も重要な発見が静かに提示されています:「構造を減らし、知能を増やす」。|スクリーンショット出典: Manus

これは、Manus製品が発売された日に、Peak、Butterfly Effectの共同創設者兼主任科学者がManus製品の背後にある最も重要な第一原理「Less Structure, More intelligence」についての説明と拡張思考です。

データが高品質であり、モデルが十分にスマートで、アーキテクチャが柔軟で、エンジニアリングが十分に堅牢である場合、コンピュータの使用、深い研究、およびコーディングエージェントなどの概念は、製品の特徴から自然に出現する能力に変わります。

最初の原則に戻ることは、製品形態について新しい考え方を提供してくれます。AIブラウザはブラウザにAIを追加するのではなく、AI向けのブラウザを作成します。
· AI検索はインデックスから呼び出しや要約を行いませんが、ユーザーの許可を得てAIが情報を取得することを可能にします;
· GUIの操作はユーザーのデバイスを奪うことはありませんが、AIが独自の仮想マシンを持つことを可能にします;
コードを書くことは最終目標ではありませんが、さまざまな問題を解決するための一般的な手段です。
· ウェブサイトを生成する難しさは、フレームワークを構築することではなく、コンテンツを意味のあるものにすることです;
· 注意だけでは足りません。ユーザーの注意を解放することで、DAU を再定義することができます。

「Less Structure, More Intelligence」の発見と実践を繰り返すことで、Manusは期待を超える結果を生み出し、それにはPassも含まれています@1GAIAベンチマークでのスコアは、OpenAI Deep Researchのスコアを上回っています@64; 同時に、内部テストでは、ManusはY Combinator W25の専用エージェント製品の76%のシナリオを直接カバーすることもできました。

03 “エージェントは基本的なモデルの機能の問題よりも「アラインメント」の問題である可能性があります」

今、これらの洞察の価値がより大きなスケールで議論されています:

Hugging Faceの創業者兼CEOであるClement Delangueは、Someオープンソースの基本モデルのPeakの調査結果を提案しました。すべての質問に1回で回答するように単純にトレーニングされている場合があります。しかし、これはチャットボットシナリオでの要件です。エージェントのパスについてのポストトレーニングを行うだけでも、即座に大きな違いを生むことができます。|スクリーンショットの出典: X

ManusはMCP(Model Context Protocol)を導入しませんが、AIにAPIを呼び出してさまざまなロングテールタスクを処理するためのコードを自分で書くことを可能にします。|スクリーンショットソース:X

過去数日間のManusに関する議論で、最も一般的な質問の1つは、「汎用AIエージェント」は実現可能か?境界はどこにあるのか?」というものです。

ピークの見解では、人々と世界との相互作用は実際には非常に標準的であり、目、手、耳を使っており、行動空間がうまく定義されている場合、人間が元々行っていたリンクにエージェントを埋め込むことが可能であるはずです。

人々はさまざまなツールを使用して垂直分野で深い操作を完了できるため、エージェント自体が十分な知識を持ち、適切に訓練されており、世界とのやり取りのための優れたインターフェースを持っていれば、それは人間のように機能し、エージェントが特定のSaaS製品を使用できるようにすることさえできるはずです。たとえば、Manus.imの公式ウェブサイトで提示されている家探しのケースは、実際に不動産分野に特化したSaaS製品を使用させることに関わるものです。

彼は、エージェントがツールの使用の境界が明確に定義されるべきであるべきだと信じており、そのツールがどのグループの人々に役立つかではなく。 Manusは特定のことをする人をシミュレートしているわけではなく、R&D、プロダクトマネージャーなどによって分割された役割エージェントでもありません。それは、何かをすることができる人をシミュレートし、インターンの働き方をシミュレートしています。

Manus’s multi-agent system refers to the separation of planning and execution.

実行者(Executor)には、長期的な計画立案と段階的な問題解決能力で一時的にプログラムをリードしているClaudeを採用し、また、ポストトレーニングに一連のQwenモデルを使用しました。

昨日、ManusはAlibaba Tongyi Qianwenと戦略的提携を結び、国内モデルとコンピューティングパワープラットフォームでManusのすべての機能を実現することにコミットしました。|画像ソース:Manus

プランナー部分では、Manusはたくさんの仕事をしています。

現在市場にある棚APIまたはモデルは基本的にチャットロボットシナリオに合わせており、トレーニング中にユーザーがどれだけ複雑な質問をしても、トレーニングの最適化目標はユーザーの質問に明確に1回の返信で答えることですが、これは実際にはエージェントが必要とする計画とはまったく逆です。

市場で既存のモデルを「調整」せずにエージェントシナリオで直接使用すると、このモデルは常に急速な成功を望んでおり、多くの箇条書きの要約のように、対話のラウンド内で「混乱した」結果をもたらします。

"アライメント手法は異なるはずです。私たちのチームは、特別なアライメントを行うには異なるデータが必要だと考えています。」シャオ・ホンは述べています。

昨年10月、PeakはZhihuにも記録され、OpenAI o1インタレストプロジェクトの再現を試みた進捗と失敗について記録しました-スタイナーオープンソースモデル。実際、このプロジェクトはManusプランナーのステップバイステップの計画部分についての事前研究を行っていました。

一般的に、Manusは事を行う人をシミュレートしています。これは、Manusを汎用AIアシスタントとして定義するチームの製品定義です。境界について考えると、チームはおそらくまだそれを探求中であり、より多くのユーザー使用事例が必要です。

Manusのリリース前に公開されたTencent Technologyのインタビューで、Xiao Hongは実際にManusの汎用性についての初期の考えを述べています。「製品マネージャーの非常に重要な責務は、ユーザーの期待をコントロールすることです。世界中のすべてのことができると仮定すると、例えば、どうやって100万ドルを稼ぐか?これはエージェントによって実行されるべきことではありません。しかし、より具体的な例を示すことで、皆の期待をより合理的にすれば、皆がよりスムーズに使用するでしょう。

04 “貝殻にはそれぞれの用途があります”、貝殻を最も理解しているチーム

2月27日の早朝、Manusの製品パートナーであるZhang Tao氏と首席科学者のJi Yichao(Peak)氏は、Manus.imのランキング結果を見て涙を流しました。 ManusのGAIAベンチマークでのパフォーマンスは、OpenAIのDeep Researchを上回り、OpenAIのベンチマークの約1/10のコスト($2/task)でこの予想外の結果を達成しました。


画像ソース:Manus.im

数十人のチームが、業界全体での競争について合意に達したとき、初めてユニバーサルエージェント製品を製作した最初のチームの1つとなりました。彼らは製品エンジニアリングやフロントエンドのインタラクティブな体験でも独自性を持っています。

良い成果に対するポジティブなフィードバックは、他の何よりも良いものです。スタートアップチームにとって、これ以上のインセンティブはありません。しかし、その前に、Manusはどのようにして起こったのでしょうか?なぜこのチームが作られたのか?

「今日のモデル機能はいくつかの複雑な、複数段階のタスクを完了する能力があります。しかし、そのような製品は存在しないため、誰もがそれを感じることはできません。」テンセントテクノロジーとの以前のインタビューでシャオ・ホンが述べた見解は、この問題を理解するために使用できます。

同時に、「エージェント製品を試す機会を得ることができるチームはあまりありません。それは多くの複合能力を必要とするからです。彼はチャットボット、いくつかのAIプログラミング関連、およびブラウザ関連の作業をしたいと考えています。なぜならブラウザを呼び出す必要があり、LLMの境界について良い感覚を持っていて、それが今日どのレベルまで開発されているか、そして次にどのようなレベルまで発展するかを知っているからです。まず、同時にこれらの能力を持っている企業はそれほど多くはありませんし、これらの能力を持っている企業は、手元の非常に特定のビジネスを行っている可能性があります。私たちのクラスメートの中には、偶然にもこれらのことを一緒に行う時間がある人もいます。」

「正確に」。

  • それは、モデルの能力がオペレータのようなエンドツーエンドの大規模なモデルのリリースを待たずに、エージェントとして使用できるレベルに達したことが、ちょうど適切な時期に発見されたことを意味します。
  • 私も偶然にも問題が整列であることを見つけました;
  • 私もチャットボットやAIブラウザによって拡張されたすべての機能を実行しています;
  • 同時に、私はいわゆる「シェル」で大規模なモデルアプリケーション製品を作ってきたため、LLMに対する鋭い認識を持っています。

「バタフライ・エフェクト」チームは、今日、そのような普遍的なエージェントを作るためのすべての要素を達成しており、業界に比べて比較的高い完成度の普遍的なエージェントが存在しています。

Peak氏は、Manusを始めたいと思った決定的な瞬間を尋ねられたとき、より詳細を回復しました。彼は、「実際には起業家精神における 'きれいな' ピボットはありません。」と述べました。すべてが一貫しており、明確な境界線はありません。

“製品を作る際には、外部の状況にも頻繁に注意を払います。”その当時、いくつかのことがありました。まず、ブラウザを作っていたとき、クライアント側モデルを作成しました。後に、ブラウザは非常に広範囲のシナリオを必要とし、異なる機能を持っていることがわかりました。その過程で、基本モデルが加速度的に強化されていることがわかりました。それと代理店とのギャップは、整列の問題かもしれません。外部の世界からは、大規模な言語モデルが徐々に収束し、壁にぶつかっているように感じられるかもしれませんが…

同時に、外界も変化していました。去年の初めにはCursorが導入され、その後にWindsurfとDevinが続きました。これは同じ文脈に対応しています。エージェントはプログラミング分野で人気があり、その人気の道は着実です。Cursorはプログラマーの共同作業者であり、プログラミング効率を向上させます。Windsurfを皮切りに、一部の自動化プロセスが徐々に導入され、ローカルマシンでより強力な自動化機能を持つようになりました。Devinは新たな自動化レベルに達しました。

VCのトレンドも一貫しています。例えば、昨年と一昨年、YCは2種類の企業に投資しました。1つは、ブラウザベースのクラウドブラウザなどです。2つ目は、e2bに似た軽量AIサンドボックス仮想マシンです。

これは、「モデルのインフラストラクチャが急速に成熟しており、インフラのインフラストラクチャも急速に成熟していることを示しています。さらに、外部製品が徐々により多くの受容を得ていることを見て、これは全てを賭ける価値がある方向性だと感じています。これは非常に徐々でスムーズなプロセスです。また、Chromiumなどのブラウザの開発中に蓄積されたインフラストラクチャはシームレスに移行できるため、私たちはクラウドでのブラウザの開発に踏み切ることができるのです。

要約すると、「シェル」と呼ばれる要件とモデルの鋭い知覚と経験の蓄積が共同でManusを作り出しました。モニカの多くのシナリオでは、モデルのトレーニング後が必要です。同時に、最も重要な教訓である「構造を減らし、知能を増やす」が、AIブラウザの実践で強化されました。彼女は、モデルの能力がエージェントのレベルに達したことを発見しましたが、問題は整合性にあります。その後、Manusは急速に進化し始めました。

以前、「バタフライ効果」チームは、「シェリング」の価値について質問されました。Monicaを構築し、既存の大規模モデルを統合することで大規模モデルを開発せずに構築しました。チャット、検索、読書、執筆、翻訳などの機能を統合しました。また、APIを介して多くのタスク実行シナリオを1つずつ統合しました。昨年末までに、ユーザー数は数千万人に達しました。

今、Doubao、Quark、およびYuanbaoが熱心にMonica製品をプロモーションしているとき、小さなチームが既存の技術を使用して最初の一般消費者レベルのエージェントを作成しているとき、"シェル"を再理解する時が来ています。

「シェルズ」とは何ですか?

Xiao Hongの見解では、すべてのブレークスルーは、基本的にモデル駆動およびモデルファーストであるモデルによってもたらされます。シェルは、ユーザーが認識できるようにモデルの技術革新を表示し、ユーザーが最もよく認識できる方法でモデルの革新的な能力をカプセル化するためのものです。

この定義から始めると、DeepSeek App(思考の連鎖の表示を含む)はDeepSeek-R1のシェルであり、CursorはAnthropic Sonnet 3.5のシェルであり、PerplexityはGPT-4のシェルであり、ChatGPTはInstructGPTのシェルである。

モデルの機能が急速に進化するにつれて、「そのシェル」も進化する必要があります。各世代のモデルの機能が進化した後でも、元の製造業者である必要はありません。ユーザーが認識する価値を提供する第三者製造業者です。カーソルがクロード3.5ソネットにユーザーが認識する価値をもたらすように。

3月5日、Monica.imのリリースから2周年を迎えたこの数十人の人々が、様々なDeep ResearchやOpenAI Operatorsを上回る製品体験を達成した理由は、シェルの理解と実践にあります。

新しいモデルのエージェントとして使用できる最高のシェルを作る方法は?

Manusの建築家である張涛は、「背景から全体のアーキテクチャを眺めると、各所に未完了の作業がたくさんあることがわかり、それぞれの場所が成功の鍵であり、製品の表面を異なるものにするすべての場所です。」と信じています。

チームの観点からは、最も重要な利点は革新の速さです。アプリケーションとモデルの両方が相対的な飽和状態に達しています。最終的に本当に重要なのは速く走ることですが、「データフライホイール」と「ネットワーク効果」はまだ検証されていません。

「新しいフィールドでは、すべてが不確実で未知です。最も重要なことは革新の速さです。私たちが追求するのは、さまざまな方向での探求、試行錯誤、そして素早く正しい道を見つけることです。」 Manusチームは、経営哲学、組織構造、産業プロセスに関して柔軟性があります。新しい機会が生じたとき、限られたリソースを使って全社のすべてのリソースをつなぎ合わせ、非常に高速で意思決定を行い、間違いからのフィードバックに適応します。

左から右に「Butterfly Effect」の主任科学者Peak、CEOのXiao Hong、そして製品パートナーのZhang Taoがいます | 画像出典: インターネット

マヌスの期待について、シャオ・ホンは「たとえウィンドウ期間があっても、試す価値があると考えています。」と述べています。過去1年間、彼の考え方も急激に変わりました。たとえば、今では「スケジュールよりも前進していることに気づいたとき、より攻撃的で、非常に攻撃的になります。今日のレビューをした後、モニカが2023年には十分に攻撃的ではなかったと感じます。」「革新してリードしているとわかったら、攻撃的であるべきです。」

私はManusが小さなほんとの知識を持つチームに経験と1からNへの飛躍をもたらせるかどうかわかりませんが、最も「殻」について知っているこのチームは、心と手を一つにして創造することを信じています。また、創造がもたらすバタフライ効果も信じています。ManusはMITのモットーから来ており、心と手の結びつきを強調するMens at manusです。それは視覚的であってはならず、実行されなければならず、現実の世界に影響を与えることができます。それが真の知識です。

将来、Manusの背後にある預金がさらにオープンソース化されると、さらに幅広いバタフライ効果がさらに放出されることになります。

免責事項:

  1. この記事は[から再生されていますGEEEKPARK]で、著作権は原作者に帰属します[Wan Chen], if you have any objection to the reprint, please contact Gate Learnチーム、関連手続きに従って早急に対処します。

  2. 免責事項:本文に表現されている意見は、著者個人の見解を示すものであり、投資アドバイスを構成するものではありません。

  3. 他の言語のバージョンはGate Learnチームによって翻訳され、Gate.io, 翻訳された記事の複製、配布、または盗用はできません。

今すぐ始める
登録して、
$100
のボーナスを獲得しよう!
It seems that you are attempting to access our services from a Restricted Location where Gate is unable to provide services. We apologize for any inconvenience this may cause. Currently, the Restricted Locations include but not limited to: the United States of America, Canada, Cambodia, Thailand, Cuba, Iran, North Korea and so on. For more information regarding the Restricted Locations, please refer to the User Agreement. Should you have any other questions, please contact our Customer Support Team.