LM Arena (Chatbot Arena)

开源LLM对战平台，匿名投票实时排名模型性能

最后更新: 2025-10-17 09:59

AI 测试与质量保障调研工具 AI 开发者工具大语言模型 (LLMs)

访问网站

介绍

产品概览

LM Arena（又名Chatbot Arena）是由LMSYS与UC Berkeley SkyLab共同打造的一款开放社区驱动的大语言模型评测平台。该平台以实时、透明、众包为核心机制，通过用户匿名对比互动与投票，运用Elo评分系统动态生成模型排行榜。涵盖多种开放模型，包括开源模型与商业API，所有数据、工具与架构均公开于GitHub，致力于推动开放协作与可复现的AI研究。

主要功能

众包匿名对战评测：用户随机比较两款大模型生成结果，通过投票贡献真实偏好数据。

动态Elo排名体系：采用国际公认的Elo算法，生成具备统计可靠性的模型性能排行榜。

全开源平台组件：前端、后端、评测流程及排名方法全部开源，支持社区审核与复用。

实时持续模型评估：借助用户实时输入与反馈，确保评测结果贴合实际应用场景。

支持公开可用模型：包括开源权重模型、API型服务，保证评测透明与结果可复现。

社区协作与数据开放：所有用户偏好数据与提示词公开，推动科学合作与模型迭代。

使用场景

大模型性能基准测试：研究人员和开发者可在真实交互环境中评估与比较不同LLM表现。

模型选型与部署支持：企业或机构可依据实时社区排名选择最适合业务需求的模型。

开放科学与AI研究：学者可利用开放数据集与工具进行可重复实验，促进模型进步。

模型优化与迭代反馈：模型开发者可通过匿名用户投票与反馈数据持续优化产品体验。

LM Arena (Chatbot Arena)

介绍

主要功能

使用场景

相关推荐

V7 Labs

DeepAI

Google Gemini

Grok AI

ChatGPT