LM Arena (Chatbot Arena)

開源LLM對戰平臺，匿名投票即時排名模型性能

最後更新: 2025-10-17 09:59

AI 測試與質量保障調研工具 AI 開發者工具大語言模型 (LLMs)

前往網站

介紹

產品概覽

LM Arena（又名Chatbot Arena）是由LMSYS與UC Berkeley SkyLab共同打造的一款開放社區驅動的大語言模型評測平臺。該平臺以實時、透明、衆包爲核心機制，通過用戶匿名對比互動與投票，運用Elo評分系統動態生成模型排行榜。涵蓋多種開放模型，包括開源模型與商業API，所有數據、工具與架構均公開於GitHub，致力於推動開放協作與可復現的AI研究。

主要功能

衆包匿名對戰評測：用戶隨機比較兩款大模型生成結果，通過投票貢獻真實偏好數據。

動態Elo排名體系：採用國際公認的Elo算法，生成具備統計可靠性的模型性能排行榜。

全開源平臺組件：前端、後端、評測流程及排名方法全部開源，支持社區審覈與複用。

實時持續模型評估：藉助用戶實時輸入與反饋，確保評測結果貼合實際應用場景。

支持公開可用模型：包括開源權重模型、API型服務，保證評測透明與結果可復現。

社區協作與數據開放：所有用戶偏好數據與提示詞公開，推動科學合作與模型迭代。

使用場景

大模型性能基準測試：研究人員和開發者可在真實交互環境中評估與比較不同LLM表現。

模型選型與部署支持：企業或機構可依據實時社區排名選擇最適合業務需求的模型。

開放科學與AI研究：學者可利用開放數據集與工具進行可重複實驗，促進模型進步。

模型優化與迭代反饋：模型開發者可通過匿名用戶投票與反饋數據持續優化產品體驗。

LM Arena (Chatbot Arena)

介紹

主要功能

相關推薦

V7 Labs

DeepAI

Google Gemini

Grok AI

ChatGPT