研 究 追 踪 · LEADERBOARD MIRROR

大模型榜单镜像

关键评测榜单快照 · 第一版:Artificial Analysis + LMArena
本页镜像第三方公开榜单,仅作研究参考。数据为快照,实时以各榜单官网为准。
数据截至 2026.07.01 · 更新节奏:周度更新 · 🔴 美国 / 🟤 中国

AA 综合智能指数

Artificial Analysis
官网 ↗
Intelligence Index v4.1(0–85,越高越强)2026-07-01 快照(72 小时滚动)

聚合 MMLU-Pro / GPQA / HLE / LiveCodeBench 等十余项基准的综合分,兼顾价格与速度,华尔街与产业界广泛引用。

#模型分数价格 / 备注
1 Claude Fable 5 (with fallback)Anthropic 60 $7.70/M · 1M ctx
2 Claude Opus 4.8 (max)Anthropic 56 $3.85/M · 62 t/s
3 GPT-5.5 (xhigh)OpenAI 55 $4.35/M · 922k ctx
4 Claude Opus 4.7 (max)Anthropic 54 $3.85/M
5 Claude Sonnet 5 (max)Anthropic 53 $2.31/M
5 GPT-5.5 (high)OpenAI 53 $4.35/M
7 GLM-5.2 (max)智谱 Z AI 51 $0.90/M · 开源最强
8 GPT-5.5 (medium)OpenAI 50 $4.35/M
8 Gemini 3.5 FlashGoogle 50 $1.31/M · 167 t/s
10 Claude Sonnet 4.6 (max)Anthropic 47 $2.31/M
11 Gemini 3.1 Pro PreviewGoogle 46 $1.74/M
11 Qwen3.7 Max阿里 Alibaba 46 $1.43/M · 199 t/s
14 MiniMax-M3MiniMax 44 $0.22/M · 开源第二
14 DeepSeek V4 Pro (max)DeepSeek 44 $0.18/M
16 Kimi K2.6月之暗面 Kimi 43 $0.70/M
17 MiMo-V2.5-Pro小米 Xiaomi 42 $0.18/M
17 Kimi K2.7 Code月之暗面 Kimi 42 $0.70/M
19 GLM-5.1智谱 Z AI 40 $0.90/M
19 Grok Build 0.1xAI 40 $0.54/M
19 Qwen3.7 Plus阿里 Alibaba 39 $0.25/M
最佳开源:GLM-5.2 (max) 51 分 · 最便宜:Qwen3.5 0.8B $0.01/M · 最快:Mercury 2 918 t/s

LMArena 文本竞技场

LMArena (原 Chatbot Arena)
官网 ↗
Arena Elo(人类盲测偏好)2026-07-01 快照

UC Berkeley LMSYS 发起,基于数百万真实用户盲测投票的 Elo 排名,最贴近真实使用偏好,业界公信力最高。

#模型分数价格 / 备注
1 Gemini 3.5 Flash / 3.1 Pro(Google 系居首)Google ~1508 1M ctx
2 Claude Opus 4.8 thinkingAnthropic ~1503 1M ctx
3 GPT-5.5 highOpenAI ~1502 922k ctx
4 Grok 4.x(xAI 头部)xAI ~1499
5 GLM-5.2 / DeepSeek V4(国产头部)智谱 / DeepSeek ~1487 开源领先
6 Qwen3.7 Max阿里 Alibaba ~1481 1M ctx
7 MiniMax-M3MiniMax ~1470 低价高 token 份额
注:LMArena 官网榜单模型名以图形渲染、难以稳定抓取,以下为公开报道可确认的头部名次,Elo 分数为区间快照。完整榜单以官网为准。