Model Evaluation

Total 35 articles 网址

Stable Chat

Stable Chat是Stability AI最新推出的对话式AI助手，基于Stable Beluga大语言模型，旨在为研究人员和AI爱好者提供评估模型功能和安全性的研究平台。

884,64530.8K

AI Assistant Model Evaluation # AI对话工具 # AI模型评估 # AI研究平台

PubMedQA

PubMedQA是一个专为生物医学研究设计的问答数据集，包含1,000个专家标注、61,200个未标注和211,300个人工生成的问答实例，旨在通过摘要回答研究问题。

884,62030.8K

Model Evaluation # AI模型评测 # PubMedQA # 数据集

Evidently AI

Evidently AI是一款开源的AI质量协作平台，提供全面的评估、测试和监控工具，帮助团队确保AI系统的可靠性和性能。

884,37530.8K

Model Evaluation Model Training # AI可观测性 # AI训练模型 # AI质量评估

C-Eval

C-Eval是由上海交通大学、清华大学和爱丁堡大学联合推出的中文大语言模型评估套件，包含13948道多项选择题，覆盖52个学科和四个难度级别，旨在全面评测模型的中文理解能力。

884,25030.8K

Model Evaluation # AI模型评测 # C-Eval # 中文大语言模型评估

H2O EvalGPT

H2O EvalGPT是H2O.ai推出的开放工具，专为评估和比较大型语言模型（LLM）设计，提供全面的性能排行榜，助力用户选择最适合其项目需求的模型。

883,58030.8K

Model Evaluation # A/B测试 # AI工具 # AI模型评估