🎉 重磅更新 LMArena 正式更名为 Arena

体验AI前沿的最佳方式

Arena是全球最受信赖的AI评测平台,由UC Berkeley研发团队打造。汇聚超过500万月活跃用户,通过真实人类判断评估ChatGPT、Claude、Gemini等顶级AI模型,助您找到最适合的AI助手。

Arena AI评测平台
🗳️
5000万+ 累计投票
👥
500万+ 月活用户
🤖
400+ AI模型
500万+
月活跃用户
150+
覆盖国家
6000万
月对话量
400+
评测模型

AI评测的黄金标准

从UC Berkeley的博士研究实验,到全球最具影响力的AI评估平台

为什么选择Arena?

Arena(原LMArena)源于一个简单的愿景:让真实用户来评判AI模型的优劣。不同于传统的静态基准测试,Arena通过实际使用场景和人类判断,提供最具参考价值的AI性能评估。

"Arena"一词源自拉丁语"harena"(沙子),象征着一个透明、开放的竞技场——在这里,前沿AI能力被测试、比较,并由真实人类判断塑造。

🎯

真实世界评估

基于实际用户任务,而非人工构造的测试用例

🔬

科学严谨方法

采用ELO评分系统,提供统计学可靠的排名结果

🌍

全球社区驱动

来自150+国家的用户贡献多元化评测视角

Arena团队

多模态AI评测平台

涵盖文本、图像、视频、代码等多种AI能力的全方位评估

💬

Chatbot Arena

最经典的对话AI竞技场。两个匿名模型同时响应您的问题,通过盲测投票决出胜者。支持写作、推理、问答等多种场景测试。

🎬

Video Arena

全新视频生成AI评测平台。支持文生视频、图生视频两种模式,涵盖Sora 2、Veo 3等15+顶级视频模型的对比评测。

🖼️

Image Arena

图像生成AI的终极对决。评测DALL-E、Midjourney、Stable Diffusion等主流图像模型的创意表现和生成质量。

💻

Code Arena

专为开发者打造的代码能力评测。测试AI在编程、调试、代码解释等任务上的实际表现,助您选择最佳编程助手。

Search Arena

AI搜索能力的权威测评。比较不同AI在信息检索、事实核查、知识整合方面的准确性和全面性。

🎓

Expert Arena

专业领域的深度评测。邀请各行业专家对AI在医疗、法律、金融等垂直领域的表现进行专业评判。

四步开启AI对决

简单直观的操作流程,让每个人都能参与AI评测

1

输入提示词

描述您的需求或问题,也可以上传图片、文档进行测试

2

获取双响应

系统随机选择两个匿名AI模型,同时生成回答供您对比

3

投票选择

根据回答质量投票选出更好的一方,或标记为平局

4

揭晓身份

投票后揭示两个模型的真实身份,您的投票将影响排行榜

实时模型排名

基于数百万真实用户投票的AI模型性能排行

排名
模型名称
开发商
类型
特点
🥇 1
Gemini 3 Pro
Google
多模态
综合最强
🥈 2
Grok 4.1 Thinking
xAI
推理
深度思考
🥉 3
Gemini 3 Flash
Google
多模态
高速响应
4
Claude Opus 4.5 Thinking
Anthropic
推理
代码最强
5
Claude Opus 4.5
Anthropic
对话
写作优秀
6
Grok 4.1
xAI
对话
实时信息
7
Gemini 3 Flash Thinking
Google
推理
轻量推理
8
GPT-5.1 High
OpenAI
对话
创意写作
9
ERNIE 5.0
百度
多模态
中文最强
10
Claude Sonnet 4.5 Thinking
Anthropic
推理
性价比高

加入全球AI评测社区

与来自150多个国家的500万用户一起,共同塑造AI的未来。您的每一次投票,都在影响AI技术的发展方向。