🎉 重磅更新 LMArena 正式更名为 Arena

体验AI前沿的最佳方式

Arena是全球最受信赖的AI评测平台，由UC Berkeley研发团队打造。汇聚超过500万月活跃用户，通过真实人类判断评估ChatGPT、Claude、Gemini等顶级AI模型，助您找到最适合的AI助手。

🚀 开始对战 🌐 AI镜像服务

🗳️

5000万+ 累计投票

👥

500万+ 月活用户

🤖

400+ AI模型

500万+

月活跃用户

150+

覆盖国家

6000万

月对话量

400+

评测模型

关于 Arena

AI评测的黄金标准

从UC Berkeley的博士研究实验，到全球最具影响力的AI评估平台

为什么选择Arena？

Arena（原LMArena）源于一个简单的愿景：让真实用户来评判AI模型的优劣。不同于传统的静态基准测试，Arena通过实际使用场景和人类判断，提供最具参考价值的AI性能评估。

"Arena"一词源自拉丁语"harena"（沙子），象征着一个透明、开放的竞技场——在这里，前沿AI能力被测试、比较，并由真实人类判断塑造。

🎯

真实世界评估

基于实际用户任务，而非人工构造的测试用例

🔬

科学严谨方法

采用ELO评分系统，提供统计学可靠的排名结果

🌍

全球社区驱动

来自150+国家的用户贡献多元化评测视角

核心功能

多模态AI评测平台

涵盖文本、图像、视频、代码等多种AI能力的全方位评估

💬

Chatbot Arena

最经典的对话AI竞技场。两个匿名模型同时响应您的问题，通过盲测投票决出胜者。支持写作、推理、问答等多种场景测试。

🎬

Video Arena

全新视频生成AI评测平台。支持文生视频、图生视频两种模式，涵盖Sora 2、Veo 3等15+顶级视频模型的对比评测。

🖼️

Image Arena

图像生成AI的终极对决。评测DALL-E、Midjourney、Stable Diffusion等主流图像模型的创意表现和生成质量。

💻

Code Arena

专为开发者打造的代码能力评测。测试AI在编程、调试、代码解释等任务上的实际表现，助您选择最佳编程助手。

🔍

Search Arena

AI搜索能力的权威测评。比较不同AI在信息检索、事实核查、知识整合方面的准确性和全面性。

🎓

Expert Arena

专业领域的深度评测。邀请各行业专家对AI在医疗、法律、金融等垂直领域的表现进行专业评判。

使用方式

四步开启AI对决

简单直观的操作流程，让每个人都能参与AI评测

输入提示词

描述您的需求或问题，也可以上传图片、文档进行测试

获取双响应

系统随机选择两个匿名AI模型，同时生成回答供您对比

投票选择

根据回答质量投票选出更好的一方，或标记为平局

揭晓身份

投票后揭示两个模型的真实身份，您的投票将影响排行榜

AI排行榜

实时模型排名

基于数百万真实用户投票的AI模型性能排行

排名

模型名称

开发商

类型

特点

🥇 1

Gemini 3 Pro

Google

多模态

综合最强

🥈 2

Grok 4.1 Thinking

xAI

推理

深度思考

🥉 3

Gemini 3 Flash

Google

多模态

高速响应

Claude Opus 4.5 Thinking

Anthropic

推理

代码最强

Claude Opus 4.5

Anthropic

对话

写作优秀

Grok 4.1

xAI

对话

实时信息

Gemini 3 Flash Thinking

Google

推理

轻量推理

GPT-5.1 High

OpenAI

对话

创意写作

ERNIE 5.0

百度

多模态

中文最强

Claude Sonnet 4.5 Thinking

Anthropic

推理

性价比高

加入全球AI评测社区

与来自150多个国家的500万用户一起，共同塑造AI的未来。您的每一次投票，都在影响AI技术的发展方向。

🚀 立即开始对战 💬 加入Discord社区