徐翔 Xander Xu

徐翔 · Xander Xu

研究员 (Researcher) · Alibaba AIDATA

我做评测——把真实世界中复杂、长程、需与环境交互的任务,变成可度量、可验证的问题。

专注基础模型的 Agentic & Coding 评测,用评测去牵引模型与 Agent 的能力边界。

关于

我是 Alibaba AIDATA 的研究员,专注基础模型的 Agentic & Coding 评测。

我相信:能被清晰定义和验证的问题,才能被真正解决。评测因此不只是业务上的指标, 更是科研的方向盘——它决定我们朝哪里前进,以及如何判断自己是否在前进。

我的工作,是把现实世界里那些复杂、长程、需要与环境持续交互的任务, 转化为科学、可信、有区分度的评测,再用它去牵引模型与 Agent 的能力边界。

研究

01

如何科学地度量能力,以及当前范式的边界?

怎样判断一个评测集、一份数据是否真的高质量?当前训练范式的上限在哪里,又能否被量化地度量出来? 把评测做扎实,比追逐单点指标更重要。

02

如何评测真实生产环境中的软件工程能力?

现实中的软件工程远不止“功能正确”。我关注 Agent 在真实代码库上的长程能力, 以及架构与风格一致性、可读性、可维护性等非功能性指标。

03

多智能体协作的机制与边界在哪里?

当多个智能体协作,沟通与推理该如何组织?Multi-Agent 是否也存在属于它自己的“人月神话”? 我关注多智能体推理中的通信与协同。

代表工作

完整论文列表 ↗
2026 · Benchmark

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

用持续集成(CI)作为信号,评测 Agent 在真实代码库中的维护与软件工程能力。

2026 · Multi-Agent

Streaming Communication in Multi-Agent Reasoning

研究多智能体推理中的流式通信,让协作中的沟通与推理更高效。

2026 · Benchmark

HLE-Verified: Systematic Verification and Structured Revision of Humanity's Last Exam

对 Humanity's Last Exam 做系统化校验与结构化修订,提升评测的可信度。

2026 · ACL Findings · Agentic Model

Beyond Quantity: Trajectory Diversity Scaling for Code Agents

在代码 Agent 的训练中,轨迹的多样性比单纯的数量更关键。

2025 · Tech Report · Agentic Model

Let It Flow: Building the ROME Model within an Open Agentic Learning Ecosystem

在开放的 agentic 学习生态中构建 ROME 模型的技术报告。

2025 · ACL Findings · Benchmark

V-GameGym: Visual Game Generation for Code Large Language Models

面向代码大模型的视觉游戏生成评测基准。

开源评测: terminal-bench-pro · QwenClawBench  ·  论文署名 Xander Xu / Xiang Xu。