聚合 MMLU-Pro / GPQA / HLE / LiveCodeBench 等十余项基准的综合分,兼顾价格与速度,华尔街与产业界广泛引用。
| # | 模型 | 分数 | 价格 / 备注 |
|---|---|---|---|
| 1 | 美Claude Fable 5 (with fallback)Anthropic | 60 | $7.70/M · 1M ctx |
| 2 | 美Claude Opus 4.8 (max)Anthropic | 56 | $3.85/M · 62 t/s |
| 3 | 美GPT-5.5 (xhigh)OpenAI | 55 | $4.35/M · 922k ctx |
| 4 | 美Claude Opus 4.7 (max)Anthropic | 54 | $3.85/M |
| 5 | 美Claude Sonnet 5 (max)Anthropic | 53 | $2.31/M |
| 5 | 美GPT-5.5 (high)OpenAI | 53 | $4.35/M |
| 7 | 中GLM-5.2 (max)智谱 Z AI | 51 | $0.90/M · 开源最强 |
| 8 | 美GPT-5.5 (medium)OpenAI | 50 | $4.35/M |
| 8 | 美Gemini 3.5 FlashGoogle | 50 | $1.31/M · 167 t/s |
| 10 | 美Claude Sonnet 4.6 (max)Anthropic | 47 | $2.31/M |
| 11 | 美Gemini 3.1 Pro PreviewGoogle | 46 | $1.74/M |
| 11 | 中Qwen3.7 Max阿里 Alibaba | 46 | $1.43/M · 199 t/s |
| 14 | 中MiniMax-M3MiniMax | 44 | $0.22/M · 开源第二 |
| 14 | 中DeepSeek V4 Pro (max)DeepSeek | 44 | $0.18/M |
| 16 | 中Kimi K2.6月之暗面 Kimi | 43 | $0.70/M |
| 17 | 中MiMo-V2.5-Pro小米 Xiaomi | 42 | $0.18/M |
| 17 | 中Kimi K2.7 Code月之暗面 Kimi | 42 | $0.70/M |
| 19 | 中GLM-5.1智谱 Z AI | 40 | $0.90/M |
| 19 | 美Grok Build 0.1xAI | 40 | $0.54/M |
| 19 | 中Qwen3.7 Plus阿里 Alibaba | 39 | $0.25/M |
UC Berkeley LMSYS 发起,基于数百万真实用户盲测投票的 Elo 排名,最贴近真实使用偏好,业界公信力最高。
| # | 模型 | 分数 | 价格 / 备注 |
|---|---|---|---|
| 1 | 美Gemini 3.5 Flash / 3.1 Pro(Google 系居首)Google | ~1508 | 1M ctx |
| 2 | 美Claude Opus 4.8 thinkingAnthropic | ~1503 | 1M ctx |
| 3 | 美GPT-5.5 highOpenAI | ~1502 | 922k ctx |
| 4 | 美Grok 4.x(xAI 头部)xAI | ~1499 | |
| 5 | 中GLM-5.2 / DeepSeek V4(国产头部)智谱 / DeepSeek | ~1487 | 开源领先 |
| 6 | 中Qwen3.7 Max阿里 Alibaba | ~1481 | 1M ctx |
| 7 | 中MiniMax-M3MiniMax | ~1470 | 低价高 token 份额 |