LBB.AI Toolbox (Link, Build, Beyond)
  • Home
  • Submission
  • Ranking
  • About
    • Home
    • Submission
    • Ranking
    • About

    Model Evaluation

    Total 35 articles 网址
    RecommendedWritingImageVideoOfficeAgentAI AssistantProgrammingDesign ToolsSearch EnginesAudio ToolsDevelopment PlatformsModel TrainingContent ModerationTranslationLegal AssistantPromptsModel EvaluationLearning Sites
    Sorting
    releaseViews
    PubMedQA

    PubMedQA

    PubMedQA是一个专为生物医学研究设计的问答数据集,包含1,000个专家标注、61,200个未标注和211,300个人工生成的问答实例,旨在通过摘要回答研究问题。
    880,79530.8K
    Model Evaluation# AI模型评测# PubMedQA# 数据集
    SuperCLUE

    SuperCLUE

    SuperCLUE是由CLUE学术社区推出的中文通用大模型综合性评测基准,旨在从基础能力、专业能力和中文特性能力三个维度全面评估模型表现。
    880,64530.8K
    Model Evaluation# AI模型基准# AI模型排行榜# AI模型评测
    C-Eval

    C-Eval

    C-Eval是由上海交通大学、清华大学和爱丁堡大学联合推出的中文大语言模型评估套件,包含13948道多项选择题,覆盖52个学科和四个难度级别,旨在全面评测模型的中文理解能力。
    880,37530.8K
    Model Evaluation# AI模型评测# C-Eval# 中文大语言模型评估
    AGI-Eval

    AGI-Eval

    AGI-Eval是由多所知名高校和机构联合打造的AI大模型评测社区,提供公正、可信、科学、全面的评测生态,旨在评估基础模型在人类认知和问题解决任务中的通用能力。
    880,59030.8K
    Model Evaluation# AGI-Eval# AI模型评测# AI评测
    H2O EvalGPT

    H2O EvalGPT

    H2O EvalGPT是H2O.ai推出的开放工具,专为评估和比较大型语言模型(LLM)设计,提供全面的性能排行榜,助力用户选择最适合其项目需求的模型。
    880,50030.8K
    Model Evaluation# A/B测试# AI工具# AI模型评估
    No more

    标签云

    LBB.AI Toolbox (Link, Build, Beyond)
    Explore 1,100+ AI Tools on LBB.AI Toolbox (Link, Build, Beyond) – your smart platform for global AI resources. Powered by LBBAI 1.0 intelligent ranking (launched May 2025). Get daily updates on the best tools to automate tasks and stay ahead in the AI revolution.

    Apply for Link Submission About

    wechat QR CodeLBB.AI Toolbox (Link, Build, Beyond)
    wechat QR Code
    Copyright © 2025 LBB.AI (Link, Build, Beyond)   
    网址
    网址文章
    热门搜索
    PPTexcelPhotoRestorationPapervideoHumanPhoto