Model Evaluation

Total 35 articles 网址

Evidently AI

Evidently AI是一款开源的AI质量协作平台，提供全面的评估、测试和监控工具，帮助团队确保AI系统的可靠性和性能。

887,53030.8K

Model Evaluation Model Training # AI可观测性 # AI训练模型 # AI质量评估

Stable Chat

Stable Chat是Stability AI最新推出的对话式AI助手，基于Stable Beluga大语言模型，旨在为研究人员和AI爱好者提供评估模型功能和安全性的研究平台。

887,53030.8K

AI Assistant Model Evaluation # AI对话工具 # AI模型评估 # AI研究平台

Open LLM Leaderboard

Open LLM Leaderboard

Open LLM Leaderboard是由Hugging Face推出的开源大语言模型（LLM）评估平台，提供模型排名、性能评估和社区协作功能，助力开发者和研究者了解和比较不同LLM的表现。

908,84030.8K

Learning Sites Model Evaluation # AI模型比较 # AI模型评测 # Hugging Face

Chatbot Arena

Chatbot Arena是一个开放的社区驱动平台，用户通过匿名对战和投票，实时评估和比较大型语言模型（LLM）的性能。

903,99030.8K

Model Evaluation # AI模型比较 # AI模型评测 # Chatbot Arena

CMMLU

CMMLU是一个专为中文语境设计的综合性评估基准，涵盖67个主题，旨在全面测试语言模型的知识储备和推理能力。

894,50530.8K

Model Evaluation # AI模型评测 # CMMLU # 中文评估基准