介紹
產品概覽
LM Arena(又名Chatbot Arena)是由LMSYS與UC Berkeley SkyLab共同打造的一款開放社區驅動的大語言模型評測平臺。該平臺以實時、透明、衆包爲核心機制,通過用戶匿名對比互動與投票,運用Elo評分系統動態生成模型排行榜。涵蓋多種開放模型,包括開源模型與商業API,所有數據、工具與架構均公開於GitHub,致力於推動開放協作與可復現的AI研究。
主要功能
衆包匿名對戰評測:用戶隨機比較兩款大模型生成結果,通過投票貢獻真實偏好數據。
動態Elo排名體系:採用國際公認的Elo算法,生成具備統計可靠性的模型性能排行榜。
全開源平臺組件:前端、後端、評測流程及排名方法全部開源,支持社區審覈與複用。
實時持續模型評估:藉助用戶實時輸入與反饋,確保評測結果貼合實際應用場景。
支持公開可用模型:包括開源權重模型、API型服務,保證評測透明與結果可復現。
社區協作與數據開放:所有用戶偏好數據與提示詞公開,推動科學合作與模型迭代。
使用場景
大模型性能基準測試:研究人員和開發者可在真實交互環境中評估與比較不同LLM表現。
模型選型與部署支持:企業或機構可依據實時社區排名選擇最適合業務需求的模型。
開放科學與AI研究:學者可利用開放數據集與工具進行可重複實驗,促進模型進步。
模型優化與迭代反饋:模型開發者可通過匿名用戶投票與反饋數據持續優化產品體驗。