AGI-Eval

1yrs agoupdate 887,790 0 30.8K

AGI-Eval是由多所知名高校和机构联合打造的AI大模型评测社区，提供公正、可信、科学、全面的评测生态，旨在评估基础模型在人类认知和问题解决任务中的通用能力。

Collection time:

2025-05-20

Open site Mobile view

Model Evaluation # AGI-Eval # AI模型评测 # AI评测 # 人工智能 # 大模型评估 # 模型性能

AGI-Eval

AGI-Eval

在人工智能迅猛发展的今天，如何客观、公正地评估各类大模型的性能，成为了业界关注的焦点。AGI-Eval，由上海交通大学、同济大学、华东师范大学、DataWhale等知名高校和机构联合打造，正是为了解决这一需求而诞生的AI大模型评测社区。

网站介绍

AGI-Eval致力于构建一个公正、可信、科学且全面的评测生态系统。其使命是“评测助力，让AI成为人类更好的伙伴”，专注于评估基础模型在人类认知和问题解决任务中的通用能力。

功能特点

大模型榜单：基于通用评测方案，提供业内大语言模型的能力得分排名榜单，涵盖综合评测和各能力项评测。数据透明、权威，定期更新，帮助用户深入了解每个模型的优缺点，找到最适合的模型解决方案。
人机评测比赛：深入模型评测的世界，与大模型协作，助力技术发展，构建人机协同评测方案。
评测集：
- 公开学术评测集：行业公开学术评测集，支持用户下载使用。
- 官方评测集：官方自建评测集，涉及多领域的模型评测。
- 用户自建评测集：平台支持用户上传个人评测集，共建开源社区，实现自动与人工评测相结合，并提供高校专家私有数据集托管服务。
Data Studio：
- 用户活跃度高：拥有超过3万名众包用户，确保高质量真实数据的回收。
- 数据类型多样：具备多维度、多领域的专业数据。
- 数据收集多元化：如单条数据、扩写数据、Arena数据等方式，满足不同评测需求。
- 完备的审核机制：采用机器审核与人工审核相结合的多重机制，保证数据质量。

相关项目

AGI-Eval与多家知名机构合作，共同推进AI评测标准化及应用推广。例如，与美团、同济大学、华东师范大学等合作，推动技术发展，构建人机协同评测方案。

优点评价

AGI-Eval的优势在于其权威性、全面性和透明性。由知名高校与机构联合打造，评测标准权威，评估范围全面，评测结果公开透明，有助于用户深入了解模型性能。此外，支持用户自建评测集，满足不同用户的评测需求。

是否收费

AGI-Eval平台目前免费开放，用户可以自由访问其提供的评测榜单、评测集和相关资源。

总结

AGI-Eval作为AI大模型评测社区，为开发者、研究者和企业提供了一个公正、可信、科学且全面的评测平台。通过其丰富的功能和资源，助力AI技术的发展，让AI成为人类更好的伙伴。

Relevant Navigation

Evidently AI

Evidently AI是一款开源的AI质量协作平台，提供全面的评估、测试和监控工具，帮助团队确保AI系统的可靠性和性能。

Generated Photos

Generated Photos

Generated Photos利用人工智能技术，提供高质量、多样化且可定制的虚拟人像图像，满足设计、广告、游戏开发等多领域的创意需求。

Dream Machine

Dream Machine是由Luma AI开发的AI视频生成工具，能够根据用户输入的文本描述或上传的图片，快速生成高质量、逼真的视频片段，极大地降低了视频制作的技术门槛。

MMBench

MMBench是由OpenCompass团队推出的多模态基准测试，旨在通过约3000道单项选择题，覆盖20项细粒度能力，全面评估视觉语言模型的综合表现。

SuperCLUE

SuperCLUE是由CLUE学术社区推出的中文通用大模型综合性评测基准，旨在从基础能力、专业能力和中文特性能力三个维度全面评估模型表现。

OpenCompass

OpenCompass, launched by Shanghai Artificial Intelligence Laboratory, is an open-source large model evaluation system offering comprehensive and efficient assessment services. It covers multiple dimensions such as knowledge, language, understanding, and reasoning, supporting various models and datasets to assist AI researchers and developers in gaining deep insights into model performance.

MMLU

MMLU (Massive Multitask Language Understanding) is a benchmark test launched by the University of California, Berkeley in September 2020, aiming to comprehensively evaluate large language models' multitask understanding across 57 different domains.

C-Eval

C-Eval is a Chinese foundational model evaluation suite jointly developed by Shanghai Jiao Tong University, Tsinghua University, and the University of Edinburgh. It comprises 13,948 multiple-choice questions across 52 disciplines and four difficulty levels, aiming to comprehensively assess large language models' Chinese comprehension and reasoning abilities.