微软推出了Critique,一种在M365 Copilot中的全新多模型深度研究系统

简述

微软已在 Researcher 之中(Microsoft 365 Copilot 内的深度研究代理)推出 Critique,这是一种新的多模型深度研究系统,作为更大范围推动的一部分;该推动旨在让 Copilot 对严肃的知识工作更可靠,而不仅仅是快速起草。

Microsoft Introduced Critique, A New Multi-Model Deep Research System In M365 Copilot微软已在 Researcher 之中(Microsoft 365 Copilot 内的深度研究代理)推出 Critique,这是一种新的多模型深度研究系统,作为更大范围推动的一部分;该推动旨在让 Copilot 对严肃的知识工作更可靠,而不仅仅是快速起草

据微软称,Critique 旨在处理复杂研究任务,其工作方式是将工作拆分为两个部分:一个模型负责规划、检索、综合与起草,而第二个模型会在最终报告生成之前对输出进行审阅与精炼。微软表示,该系统使用来自前沿实验室的模型,包括 OpenAI 和 Anthropic,并且目前可通过该公司的 Frontier 计划使用

路透社报道称,在 Critique 目前的配置中,OpenAI 的 GPT 生成回复,而 Anthropic 的 Claude 在答案交付用户之前对准确性和质量进行审查。微软也表示,它希望该工作流之后变为双向,届时允许模型以双方方向相互审阅

Critique 在 Microsoft 365 Copilot 内部究竟做了什么

微软自己的描述清楚表明,Critique 并不只是一个表面上的特性,或是往 Copilot 上随手贴的一个新按钮。它运行在 Microsoft 365 Copilot 的 Researcher 中,面向更深入的任务构建,在这些任务里,做对与做快同样重要。一个模型负责“挖掘”并起草报告,而第二个模型则如同编辑一样介入:核对事实、强化结构,并帮助把它打磨成更可靠的最终成品。

微软表示,整个理念是将生成与评估分离,而不是让一个模型在同一时间内同时集思广益、撰写、事实核查并润色自己的工作。这个区分之所以重要,是因为许多 AI 失败就来自这种单模型瓶颈。当一个单一系统被要求把所有事情都做完时,它可能会生成看起来很精致的内容,却会在不声不响中遗漏空缺、对论断夸大其词,或依赖薄弱证据

微软表示,Critique 的审阅层围绕基于评分量表的评估构建,并关注来源可靠性、报告完整性以及严格的证据落地。用大白话说,第二个模型在这里会追问:这份草稿是否真的回答了问题,所提供的来源是否扎实,以及最终叙事是否得到了支撑,而不仅仅是听起来很自信

微软并没有把 Critique 当作边角实验来推销

微软公告中一个更重要的细节是:当在模型选择器中选中 Auto 时,Critique 将成为 Researcher 的默认体验。这表明该公司认为它不只是为高阶用户准备的可选实验功能。实际上,它是在把多模型审阅当作 Microsoft 365 Copilot 内部深度研究质量的新基线。这个选择颇具意义,因为它暗示微软认为,企业客户更在意更少的幻觉、更强的结构,以及对最终报告更高的信心,而不是原始回复速度。

这也与微软围绕 Microsoft 365 Copilot 第 3 波(Wave 3)的更广泛表述相契合:该公司一直在推动把 Copilot 视为“工作的系统”,其优势来自多模型,而不是任何单一的 AI 实验室。在微软的叙事中,Copilot 的目标是从整个行业汲取最好的可用智能,并通过其所称的 Work IQ 以工作情境为基础进行落地,同时由企业数据控制进行保护。Critique 是迄今为止最清晰的例子之一,展示该策略如何从营销话术转变为可见的产品功能

基准数字是微软销售话术的重要组成部分

微软不仅在说 Critique 用起来感觉更好。它还表示,该系统在正式基准测试中表现得更好。在其技术说明中,公司称它在 DRACO 基准上测试了 Critique;DRACO 是 Deep Research Accuracy, Completeness, and Objectivity(深度研究准确性、完整性与客观性)的缩写,该基准覆盖 10 个领域中的 100 个复杂研究任务。微软表示,这些回复在事实准确性、分析的广度与深度、呈现质量以及引用质量方面接受评估,并称 Critique 在四项指标上都超过了单模型版本的 Researcher

公司强调广度与分析深度的提升最大,其次是呈现质量与事实准确性。它还表示,这些改进具有统计学显著性,并且带有 Critique 的 Researcher 交付了 +7.0 分的汇总得分提升,或比 Perplexity Deep Research(Claude Opus 4.6 模型)高出 +13.88%;微软在基准论文中将其描述为该基准论文报告的最佳系统

数据 | 来源:Microsoft

这一说法颇具吸引力,尤其是因为深度研究竞赛已成为企业 AI 中最具竞争性的前沿之一。研究工具不再仅仅根据它们能否收集信息来评判,而是看它们能否组装出一种“可直接用于决策”的报告

微软的论点是:审阅层迫使研究者识别缺失的角度、收紧组织结构、挑战薄弱的论断,并更谨慎地使用引用。客户是否在真实工作流中体验到这些增益,可能比基准图表更重要,但微软显然正试图传递一种可衡量的质量跃升,而不是一种模糊的模型更新

Council 表明微软正在考虑超越单一“最佳答案”

Critique 并不是微软在这次更新中推出的唯一功能。该公司还在 Researcher 里上线了 Council,这是一种多模型对比模式。微软表示,Council 会同时运行 Anthropic 和 OpenAI 的模型,从而让每个模型都生成一份完整的独立报告。随后,一个独立的裁判模型会创建一份提炼摘要,展示各份报告在哪些地方一致、哪些地方分歧,以及每份报告各自独特地贡献了什么。微软支持在描述中称这是一种 Model Council(模型委员会)模式:它保留完整报告,同时增加对比摘要,帮助用户决定哪种输出更强,或如何将它们组合起来。

这对企业 AI 未来可能走向何处发出了一个非常有意思的信号。此前一段时间,行业仿佛把目标设定为寻找一个能替代所有其他模型的模型。微软最新举措表明,更现实的未来可能是:公司不再足够信任任何单一模型,从而让它成为“房间里唯一的声音”

Critique 的推出时机并非偶然。随着竞争加剧,微软一直承受压力,需要证明 Microsoft 365 Copilot 正变得更有用、更差异化、更有价值。

路透社把 Critique 和 Council 的上线,联系到微软努力在竞争对手大举推进办公场景 AI 的市场中提升 Copilot 的采用率;这些对手包括谷歌的 Gemini 以及 Anthropic 的 Claude 产品。Axios 也指出,微软的多模型策略还有另一项好处:它表明公司并未在某个节点上过度依赖 OpenAI——而在前沿模型的领导地位可能迅速更迭的情况下,这一点尤为关键

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论