
PubMedQA
PubMedQA是一个专为生物医学研究设计的问答数据集,包含1,000个专家标注、61,200个未标注和211,300个人工生成的问答实例,旨在通过摘要回答研究问题。
在AI技术飞速发展的今天,如何客观、公正地评估中文大模型的性能,成为业界关注的焦点。SuperCLUE,由CLUE学术社区于2023年5月推出,正是为了解决这一问题而生的综合性评测基准。
SuperCLUE全称为“中文通用大模型综合性测评基准”,旨在全面评估中文大模型在多维度的表现。通过定期更新的排行榜,SuperCLUE为研究者和开发者提供了直观的模型性能对比,助力技术进步。
SuperCLUE的评测体系涵盖以下三个主要维度:
SuperCLUE还推出了以下评测体系:
SuperCLUE的优势在于:
SuperCLUE作为学术社区项目,评测结果公开透明,供研究者和开发者免费参考。
对于00后和互联网用户而言,SuperCLUE提供了一个直观、权威的中文大模型评测平台,帮助用户了解各模型的性能差异,选择最适合自己需求的AI工具。无论是开发者还是普通用户,都能从中获益,推动中文AI技术的进步。