如何科学地度量能力,以及当前范式的边界?
怎样判断一个评测集、一份数据是否真的高质量?当前训练范式的上限在哪里,又能否被量化地度量出来? 把评测做扎实,比追逐单点指标更重要。
研究员 (Researcher) · Alibaba AIDATA
我做评测——把真实世界中复杂、长程、需与环境交互的任务,变成可度量、可验证的问题。
专注基础模型的 Agentic & Coding 评测,用评测去牵引模型与 Agent 的能力边界。
我是 Alibaba AIDATA 的研究员,专注基础模型的 Agentic & Coding 评测。
我相信:能被清晰定义和验证的问题,才能被真正解决。评测因此不只是业务上的指标, 更是科研的方向盘——它决定我们朝哪里前进,以及如何判断自己是否在前进。
我的工作,是把现实世界里那些复杂、长程、需要与环境持续交互的任务, 转化为科学、可信、有区分度的评测,再用它去牵引模型与 Agent 的能力边界。
怎样判断一个评测集、一份数据是否真的高质量?当前训练范式的上限在哪里,又能否被量化地度量出来? 把评测做扎实,比追逐单点指标更重要。
现实中的软件工程远不止“功能正确”。我关注 Agent 在真实代码库上的长程能力, 以及架构与风格一致性、可读性、可维护性等非功能性指标。
当多个智能体协作,沟通与推理该如何组织?Multi-Agent 是否也存在属于它自己的“人月神话”? 我关注多智能体推理中的通信与协同。
用持续集成(CI)作为信号,评测 Agent 在真实代码库中的维护与软件工程能力。
研究多智能体推理中的流式通信,让协作中的沟通与推理更高效。
对 Humanity's Last Exam 做系统化校验与结构化修订,提升评测的可信度。
在代码 Agent 的训练中,轨迹的多样性比单纯的数量更关键。
在开放的 agentic 学习生态中构建 ROME 模型的技术报告。
面向代码大模型的视觉游戏生成评测基准。
开源评测: terminal-bench-pro · QwenClawBench · 论文署名 Xander Xu / Xiang Xu。