Model Evaluation

Total 35 articles 网址

PubMedQA

PubMedQA是一个专为生物医学研究设计的问答数据集，包含1,000个专家标注、61,200个未标注和211,300个人工生成的问答实例，旨在通过摘要回答研究问题。

886,81030.8K

Model Evaluation # AI模型评测 # PubMedQA # 数据集

SuperCLUE

SuperCLUE是由CLUE学术社区推出的中文通用大模型综合性评测基准，旨在从基础能力、专业能力和中文特性能力三个维度全面评估模型表现。

892,74030.8K

Model Evaluation # AI模型基准 # AI模型排行榜 # AI模型评测

C-Eval

C-Eval是由上海交通大学、清华大学和爱丁堡大学联合推出的中文大语言模型评估套件，包含13948道多项选择题，覆盖52个学科和四个难度级别，旨在全面评测模型的中文理解能力。

887,03030.8K

Model Evaluation # AI模型评测 # C-Eval # 中文大语言模型评估

AGI-Eval

AGI-Eval是由多所知名高校和机构联合打造的AI大模型评测社区，提供公正、可信、科学、全面的评测生态，旨在评估基础模型在人类认知和问题解决任务中的通用能力。

887,70030.8K

Model Evaluation # AGI-Eval # AI模型评测 # AI评测

H2O EvalGPT

H2O EvalGPT是H2O.ai推出的开放工具，专为评估和比较大型语言模型（LLM）设计，提供全面的性能排行榜，助力用户选择最适合其项目需求的模型。

886,04030.8K

Model Evaluation # A/B测试 # AI工具 # AI模型评估