PubMedQA PubMedQA是一个专为生物医学研究设计的问答数据集,包含1,000个专家标注、61,200个未标注和211,300个人工生成的问答实例,旨在通过摘要回答研究问题。 880,79530.8K Model Evaluation# AI模型评测# PubMedQA# 数据集
SuperCLUE SuperCLUE是由CLUE学术社区推出的中文通用大模型综合性评测基准,旨在从基础能力、专业能力和中文特性能力三个维度全面评估模型表现。 880,64530.8K Model Evaluation# AI模型基准# AI模型排行榜# AI模型评测
C-Eval C-Eval是由上海交通大学、清华大学和爱丁堡大学联合推出的中文大语言模型评估套件,包含13948道多项选择题,覆盖52个学科和四个难度级别,旨在全面评测模型的中文理解能力。 880,37530.8K Model Evaluation# AI模型评测# C-Eval# 中文大语言模型评估
AGI-Eval AGI-Eval是由多所知名高校和机构联合打造的AI大模型评测社区,提供公正、可信、科学、全面的评测生态,旨在评估基础模型在人类认知和问题解决任务中的通用能力。 880,59030.8K Model Evaluation# AGI-Eval# AI模型评测# AI评测
H2O EvalGPT H2O EvalGPT是H2O.ai推出的开放工具,专为评估和比较大型语言模型(LLM)设计,提供全面的性能排行榜,助力用户选择最适合其项目需求的模型。 880,50030.8K Model Evaluation# A/B测试# AI工具# AI模型评估