微软推出了Critique，一种在M365 Copilot中的全新多模型深度研究系统

2026-04-06 06:03:48

简述

微软已在 Researcher 之中（Microsoft 365 Copilot 内的深度研究代理）推出 Critique，这是一种新的多模型深度研究系统，作为更大范围推动的一部分；该推动旨在让 Copilot 对严肃的知识工作更可靠，而不仅仅是快速起草。

微软已在 Researcher 之中（Microsoft 365 Copilot 内的深度研究代理）推出 Critique，这是一种新的多模型深度研究系统，作为更大范围推动的一部分；该推动旨在让 Copilot 对严肃的知识工作更可靠，而不仅仅是快速起草

据微软称，Critique 旨在处理复杂研究任务，其工作方式是将工作拆分为两个部分：一个模型负责规划、检索、综合与起草，而第二个模型会在最终报告生成之前对输出进行审阅与精炼。微软表示，该系统使用来自前沿实验室的模型，包括 OpenAI 和 Anthropic，并且目前可通过该公司的 Frontier 计划使用

路透社报道称，在 Critique 目前的配置中，OpenAI 的 GPT 生成回复，而 Anthropic 的 Claude 在答案交付用户之前对准确性和质量进行审查。微软也表示，它希望该工作流之后变为双向，届时允许模型以双方方向相互审阅

Critique 在 Microsoft 365 Copilot 内部究竟做了什么

微软自己的描述清楚表明，Critique 并不只是一个表面上的特性，或是往 Copilot 上随手贴的一个新按钮。它运行在 Microsoft 365 Copilot 的 Researcher 中，面向更深入的任务构建，在这些任务里，做对与做快同样重要。一个模型负责“挖掘”并起草报告，而第二个模型则如同编辑一样介入：核对事实、强化结构，并帮助把它打磨成更可靠的最终成品。

微软表示，整个理念是将生成与评估分离，而不是让一个模型在同一时间内同时集思广益、撰写、事实核查并润色自己的工作。这个区分之所以重要，是因为许多 AI 失败就来自这种单模型瓶颈。当一个单一系统被要求把所有事情都做完时，它可能会生成看起来很精致的内容，却会在不声不响中遗漏空缺、对论断夸大其词，或依赖薄弱证据

微软表示，Critique 的审阅层围绕基于评分量表的评估构建，并关注来源可靠性、报告完整性以及严格的证据落地。用大白话说，第二个模型在这里会追问：这份草稿是否真的回答了问题，所提供的来源是否扎实，以及最终叙事是否得到了支撑，而不仅仅是听起来很自信

微软并没有把 Critique 当作边角实验来推销

微软公告中一个更重要的细节是：当在模型选择器中选中 Auto 时，Critique 将成为 Researcher 的默认体验。这表明该公司认为它不只是为高阶用户准备的可选实验功能。实际上，它是在把多模型审阅当作 Microsoft 365 Copilot 内部深度研究质量的新基线。这个选择颇具意义，因为它暗示微软认为，企业客户更在意更少的幻觉、更强的结构，以及对最终报告更高的信心，而不是原始回复速度。

这也与微软围绕 Microsoft 365 Copilot 第 3 波（Wave 3）的更广泛表述相契合：该公司一直在推动把 Copilot 视为“工作的系统”，其优势来自多模型，而不是任何单一的 AI 实验室。在微软的叙事中，Copilot 的目标是从整个行业汲取最好的可用智能，并通过其所称的 Work IQ 以工作情境为基础进行落地，同时由企业数据控制进行保护。Critique 是迄今为止最清晰的例子之一，展示该策略如何从营销话术转变为可见的产品功能

基准数字是微软销售话术的重要组成部分

微软不仅在说 Critique 用起来感觉更好。它还表示，该系统在正式基准测试中表现得更好。在其技术说明中，公司称它在 DRACO 基准上测试了 Critique；DRACO 是 Deep Research Accuracy, Completeness, and Objectivity（深度研究准确性、完整性与客观性）的缩写，该基准覆盖 10 个领域中的 100 个复杂研究任务。微软表示，这些回复在事实准确性、分析的广度与深度、呈现质量以及引用质量方面接受评估，并称 Critique 在四项指标上都超过了单模型版本的 Researcher

公司强调广度与分析深度的提升最大，其次是呈现质量与事实准确性。它还表示，这些改进具有统计学显著性，并且带有 Critique 的 Researcher 交付了 +7.0 分的汇总得分提升，或比 Perplexity Deep Research（Claude Opus 4.6 模型）高出 +13.88%；微软在基准论文中将其描述为该基准论文报告的最佳系统

数据 | 来源：Microsoft

这一说法颇具吸引力，尤其是因为深度研究竞赛已成为企业 AI 中最具竞争性的前沿之一。研究工具不再仅仅根据它们能否收集信息来评判，而是看它们能否组装出一种“可直接用于决策”的报告

微软的论点是：审阅层迫使研究者识别缺失的角度、收紧组织结构、挑战薄弱的论断，并更谨慎地使用引用。客户是否在真实工作流中体验到这些增益，可能比基准图表更重要，但微软显然正试图传递一种可衡量的质量跃升，而不是一种模糊的模型更新

Council 表明微软正在考虑超越单一“最佳答案”

Critique 并不是微软在这次更新中推出的唯一功能。该公司还在 Researcher 里上线了 Council，这是一种多模型对比模式。微软表示，Council 会同时运行 Anthropic 和 OpenAI 的模型，从而让每个模型都生成一份完整的独立报告。随后，一个独立的裁判模型会创建一份提炼摘要，展示各份报告在哪些地方一致、哪些地方分歧，以及每份报告各自独特地贡献了什么。微软支持在描述中称这是一种 Model Council（模型委员会）模式：它保留完整报告，同时增加对比摘要，帮助用户决定哪种输出更强，或如何将它们组合起来。

这对企业 AI 未来可能走向何处发出了一个非常有意思的信号。此前一段时间，行业仿佛把目标设定为寻找一个能替代所有其他模型的模型。微软最新举措表明，更现实的未来可能是：公司不再足够信任任何单一模型，从而让它成为“房间里唯一的声音”

Critique 的推出时机并非偶然。随着竞争加剧，微软一直承受压力，需要证明 Microsoft 365 Copilot 正变得更有用、更差异化、更有价值。

路透社把 Critique 和 Council 的上线，联系到微软努力在竞争对手大举推进办公场景 AI 的市场中提升 Copilot 的采用率；这些对手包括谷歌的 Gemini 以及 Anthropic 的 Claude 产品。Axios 也指出，微软的多模型策略还有另一项好处：它表明公司并未在某个节点上过度依赖 OpenAI——而在前沿模型的领导地位可能迅速更迭的情况下，这一点尤为关键

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate广场四月发帖挑战
101.12万热度
#
加密市场回升
2.57万热度
#
黄金白银走高
7.94万热度
#
特朗普同意停火两周
51.8万热度
#
WTI原油暴跌
34.33万热度

热门 Gate Fun
查看更多

1
kk
kick coin
市值:$0.1持有人数:1
0.00%
2
凭借此必可以免费学习数学
免费问数学币
市值:$2304.17持有人数:2
0.07%
3
SM
SnowMan
市值:$2289.65持有人数:1
0.00%
4
ETH常青树
ETH常青树
市值:$2319.48持有人数:2
0.21%
5
裸k币
爆仓币
市值:$2464.42持有人数:2
1.43%

微软推出了Critique，一种在M365 Copilot中的全新多模型深度研究系统

Critique 在 Microsoft 365 Copilot 内部究竟做了什么

微软并没有把 Critique 当作边角实验来推销

基准数字是微软销售话术的重要组成部分

Council 表明微软正在考虑超越单一“最佳答案”

热门话题

Gate广场四月发帖挑战

加密市场回升

黄金白银走高

特朗普同意停火两周

WTI原油暴跌

热门 Gate Fun

kk

kick coin

凭借此必可以免费学习数学

免费问数学币

SM

SnowMan

ETH常青树

ETH常青树

裸k币

爆仓币

置顶