介绍
产品概览
LM Arena(又名Chatbot Arena)是由LMSYS与UC Berkeley SkyLab共同打造的一款开放社区驱动的大语言模型评测平台。该平台以实时、透明、众包为核心机制,通过用户匿名对比互动与投票,运用Elo评分系统动态生成模型排行榜。涵盖多种开放模型,包括开源模型与商业API,所有数据、工具与架构均公开于GitHub,致力于推动开放协作与可复现的AI研究。
主要功能
众包匿名对战评测:用户随机比较两款大模型生成结果,通过投票贡献真实偏好数据。
动态Elo排名体系:采用国际公认的Elo算法,生成具备统计可靠性的模型性能排行榜。
全开源平台组件:前端、后端、评测流程及排名方法全部开源,支持社区审核与复用。
实时持续模型评估:借助用户实时输入与反馈,确保评测结果贴合实际应用场景。
支持公开可用模型:包括开源权重模型、API型服务,保证评测透明与结果可复现。
社区协作与数据开放:所有用户偏好数据与提示词公开,推动科学合作与模型迭代。
使用场景
大模型性能基准测试:研究人员和开发者可在真实交互环境中评估与比较不同LLM表现。
模型选型与部署支持:企业或机构可依据实时社区排名选择最适合业务需求的模型。
开放科学与AI研究:学者可利用开放数据集与工具进行可重复实验,促进模型进步。
模型优化与迭代反馈:模型开发者可通过匿名用户投票与反馈数据持续优化产品体验。