HELM HELM(Holistic Evaluation of Language Models)是斯坦福大学推出的开源评估框架,旨在全面、透明地评估基础模型,包括大型语言模型和多模态模型。 881,08530.8K Model Evaluation# AI模型评测# AI评测# HELM
Chatbot Arena Chatbot Arena是一个开放的社区驱动平台,用户通过匿名对战和投票,实时评估和比较大型语言模型(LLM)的性能。 881,05530.8K Model Evaluation# AI模型比较# AI模型评测# Chatbot Arena
Evidently AI Evidently AI是一款开源的AI质量协作平台,提供全面的评估、测试和监控工具,帮助团队确保AI系统的可靠性和性能。 881,04530.8K Model EvaluationModel Training# AI可观测性# AI训练模型# AI质量评估
H2O EvalGPT H2O EvalGPT是H2O.ai推出的开放工具,专为评估和比较大型语言模型(LLM)设计,提供全面的性能排行榜,助力用户选择最适合其项目需求的模型。 881,04030.8K Model Evaluation# A/B测试# AI工具# AI模型评估
C-Eval C-Eval是由上海交通大学、清华大学和爱丁堡大学联合推出的中文大语言模型评估套件,包含13948道多项选择题,覆盖52个学科和四个难度级别,旨在全面评测模型的中文理解能力。 881,00530.8K Model Evaluation# AI模型评测# C-Eval# 中文大语言模型评估