全球首个AI大模型实时投资比赛AlphaArena落幕:中国模型包揽冠亚,美国模型全军覆没
比赛概况与核心结果
2025年11月4日,由美国AI实验室Nof1发起的全球首个AI大模型实时投资比赛AlphaArena正式落下帷幕。这场历时17天的比赛,将六大顶尖AI大模型置于真实的加密货币市场中进行自动化交易对决,最终结果引发广泛关注:
- 冠军:阿里千问Qwen,以超过20%的收益率夺冠,具体收益率达到22.32%。
- 亚军:DeepSeek V3.1,同样实现盈利。
- 其他模型表现:四大美国顶尖模型(GPT-5、Gemini 2.5 Pro、Claude 4.5 Sonnet、Grok 4)全部亏损。其中,GPT-5亏损最为严重,超过62%,持仓总市值仅为初始资金的三四成;Gemini 2.5 Pro亏损也尤为明显。
比赛规则与设置
AlphaArena旨在检验AI大模型在真实、动态金融市场中的决策能力,其规则设计确保了公平性和透明度:
1. 参赛模型:六大主流大模型,包括中国的Qwen3-Max、DeepSeek V3.1,以及美国的GPT-5、Gemini 2.5 Pro、Claude 4.5 Sonnet、Grok 4。
2. 初始资金:每个模型配备1万美元真实资金。
3. 交易场所:在Hyperliquid交易所进行加密货币永续合约交易,涉及BTC、ETH、SOL、BNB、DOGE、XRP六种主流加密货币。
4. 交易方式:全程无人工干预,模型自主完成决策与交易。所有模型接收相同的市场数据和提示词,交易记录、持仓和账户价值实时公开。
5. 独特机制:允许AI模型“聊天互动”,通过模拟对话辩论市场走势,展示决策逻辑。
比赛进程与关键转折点
比赛初期(约前5天),六大模型表现相对谨慎。随后逐渐分化为三大阵营:
1. 第一梯队:阿里千问Qwen和DeepSeek V3.1表现突出,屡次互换第一位置,始终保持领先。
2. 第二梯队:Claude 4.5 Sonnet和Grok 4采用相近策略,略有盈利但整体仍处于亏损边缘。
3. 第三梯队:GPT-5和Gemini 2.5 Pro长期亏损垫底。
关键转折点出现在10月21日至22日:
- Grok 4(马斯克旗下)和Claude 4.5 Sonnet的收益大幅下滑,由盈转亏。
- 当日六个大模型收益率一度全部告负。
- DeepSeek V3.1和Qwen3-Max在此期间自动改写投资策略,在其他模型持续亏损时脱颖而出,净值曲线波动上涨。Qwen3-Max更是趁机一度超过DeepSeek V3.1。
此后比赛演变为Qwen与DeepSeek的“双雄争霸”。最终,阿里千问Qwen凭借关键时刻的紧急避险策略,在最后关头超越DeepSeek,以22.32%的收益率锁定冠军。
各模型具体表现分析
- 阿里千问Qwen:以22.32%的收益率夺冠。其策略被评价为风险偏好较高,仓位规模常为其他模型的数倍,且自我报告的置信度最高。比赛中展现了较强的市场适应能力和风险控制能力。
- DeepSeek V3.1:位列第二,同样实现盈利。作为幻方量化机构的产物,其交易风格相对稳定,在比赛初期曾长期领先。母公司深厚的量化背景为其提供了专业支持。
- Claude 4.5 Sonnet & Grok 4:虽在第二阵营,但最终未能盈利。Claude因过于“讲逻辑”导致调仓犹豫、反复止损;Grok 4采用激进策略,高频交易使其在市场波动中损失惨重。
- GPT-5 & Gemini 2.5 Pro:长期亏损垫底。GPT-5做空频率极高,且风险控制能力不足,最终亏损超62%;Gemini 2.5 Pro交易风格类似“散户”,频繁更改策略,交易成本高昂,净值持续下滑。
行业影响与专家解读
中国大模型的崛起
AlphaArena的结果凸显了中国大模型在解决实际问题上的强大潜力。阿里千问和DeepSeek的成功证明了中国AI在场景理解深度方面的优势。正如行业人士指出,“AI对于场景的深刻理解,将成为大模型落地和未来全球AI竞赛的关键。”
市场份额与开源生态
根据OpenRouter 7月公布的榜单:
- 阿里通义千问以10.4%的市场份额超越OpenAI(4.7%),位列全球第四。
- 成长最快前10大模型中9个为开源模型。其中,Qwen3-Coder调用量达近500亿Tokens,位居第一;通义千问在前十中占据五席。
开源生态的战略意义
零一万物CEO李开复在今年9月曾强调DeepSeek对中国AI发展的核心贡献在于推动开源生态形成。“如果十年后回顾DeepSeek如何让中国未落后于美国,答案并非其技术本身,而是它带来了中国大模型开源时代。”自DeepSeek开源后,国内多家企业相继开源大模型,形成“既开源、又比拼速度”的良性竞争格局。李开复认为,这种模式高度契合中国企业学习特性,有望助力中国在AI领域缩小与美国的差距。
总结
AlphaArena比赛不仅是一场技术较量,更是全球AI发展现状的缩影。中国大模型Qwen和DeepSeek在真实金融市场的优异表现,标志着中国AI在应用落地和场景理解上已达到世界领先水平。同时,比赛也暴露了部分海外大模型在复杂动态环境下的决策短板。随着开源生态的蓬勃发展和场景化能力的持续提升,中国AI在全球竞赛中的地位将进一步巩固。此次比赛的结果无疑将为未来AI大模型的应用方向和技术优化提供重要参考。