MMLU MMLU(Massive Multitask Language Understanding)是由加州大学伯克利分校于2020年9月推出的基准测试,旨在评估大型语言模型在多领域的理解和推理能力。 881,79030.8K Model Evaluation# AI模型评测# MMLU# 人工智能
C-Eval C-Eval是由上海交通大学、清华大学和爱丁堡大学联合推出的中文大语言模型评估套件,包含13948道多项选择题,覆盖52个学科和四个难度级别,旨在全面评测模型的中文理解能力。 881,76030.8K Model Evaluation# AI模型评测# C-Eval# 中文大语言模型评估
Stable Chat Stable Chat是Stability AI最新推出的对话式AI助手,基于Stable Beluga大语言模型,旨在为研究人员和AI爱好者提供评估模型功能和安全性的研究平台。 881,71530.8K AI AssistantModel Evaluation# AI对话工具# AI模型评估# AI研究平台
AGI-Eval AGI-Eval是由多所知名高校和机构联合打造的AI大模型评测社区,提供公正、可信、科学、全面的评测生态,旨在评估基础模型在人类认知和问题解决任务中的通用能力。 881,59030.8K Model Evaluation# AGI-Eval# AI模型评测# AI评测
H2O EvalGPT H2O EvalGPT是H2O.ai推出的开放工具,专为评估和比较大型语言模型(LLM)设计,提供全面的性能排行榜,助力用户选择最适合其项目需求的模型。 881,54530.8K Model Evaluation# A/B测试# AI工具# AI模型评估