就在今天,百度搭子DuMate在两大权威AI智能体PinchBench(OpenClaw 赛道)与 DeepResearch Bench(深度研究赛道)评测中同时登顶,在PinchBench上,它以93.3%、93.2%的总分包揽前两名,前五占三席,超过 Anthropic(89.0%)与 OpenAI(91.6%);在 DeepResearch Bench上,以58.03分拿下第一,这么一来,说DuMate是当前全球 “最能干活”的AI智能体也不为过了。 那为什么是百度,而不是一贯领先的海外模型呢?答案不在模型智商,而在执行能力。PinchBench不考脑筋急转弯,它模拟23个真实工作场景、147个任务,从多步推理、工具调用到任务闭环,全面考验AI能不能把事做完、做好、做稳,再从成功率、速度、成本三维度综合打分,非常职场化,就像像老板看员工:不看你会不会说,只看你能不能交付。 DuMate真正的突破,是让同一模型在它的框架里,跑得比原生更强、更稳、更省。这不是靠堆参数,而是靠架构创新:端云协同 Harness。简单来说,就是隐私敏感留在本地,复杂推理上云;不用用户手动切换,系统自动判断、自动分配。同时,它会根据任务语义和你的历史行为,按需组装上下文,只注入必要信息,减少干扰、降低犯错概率。 所以说DuMate不是一次性产品,而是持续进化的工作伙伴。Harness与Skills会根据历史执行轨迹不断迭代,让底层模型始终接近能力上限稳定发挥。从3月上线到现在,一天一版迭代,还连续通过信通院两项最高等级安全测评,一句话总结,就是强又稳,又安全。 现在的AI竞争,早已不是比谁更聪明,而是谁更会干活、更值得托付。这次DuMate把执行闭环做到了全球顶尖,也把中国AI从对话层推向了真实生产力层。 #百度 #DuMate #龙虾#科技