LM Arena (Chatbot Arena)

開源社區驅動的LLM實時對戰評測平臺,採用衆包對比與Elo排名機制,讓用戶匿名投票決定AI模型高下。

前往網站

介紹

產品概覽

LM Arena(又名Chatbot Arena)是由LMSYS與UC Berkeley SkyLab共同打造的一款開放社區驅動的大語言模型評測平臺。該平臺以實時、透明、衆包爲核心機制,通過用戶匿名對比互動與投票,運用Elo評分系統動態生成模型排行榜。涵蓋多種開放模型,包括開源模型與商業API,所有數據、工具與架構均公開於GitHub,致力於推動開放協作與可復現的AI研究。

主要功能

衆包匿名對戰評測:用戶隨機比較兩款大模型生成結果,通過投票貢獻真實偏好數據。

動態Elo排名體系:採用國際公認的Elo算法,生成具備統計可靠性的模型性能排行榜。

全開源平臺組件:前端、後端、評測流程及排名方法全部開源,支持社區審覈與複用。

實時持續模型評估:藉助用戶實時輸入與反饋,確保評測結果貼合實際應用場景。

支持公開可用模型:包括開源權重模型、API型服務,保證評測透明與結果可復現。

社區協作與數據開放:所有用戶偏好數據與提示詞公開,推動科學合作與模型迭代。

使用場景

大模型性能基準測試:研究人員和開發者可在真實交互環境中評估與比較不同LLM表現。

模型選型與部署支持:企業或機構可依據實時社區排名選擇最適合業務需求的模型。

開放科學與AI研究:學者可利用開放數據集與工具進行可重複實驗,促進模型進步。

模型優化與迭代反饋:模型開發者可通過匿名用戶投票與反饋數據持續優化產品體驗。