LBB.AI Toolbox (Link, Build, Beyond)
  • Home
  • Submission
  • Ranking
  • About
    • Home
    • Submission
    • Ranking
    • About

    Model Evaluation

    Total 35 articles 网址
    RecommendedWritingImageVideoOfficeAgentAI AssistantProgrammingDesign ToolsSearch EnginesAudio ToolsDevelopment PlatformsModel TrainingContent ModerationTranslationLegal AssistantPromptsModel EvaluationLearning Sites
    Sorting
    releaseViews
    HELM

    HELM

    HELM(Holistic Evaluation of Language Models)是斯坦福大学推出的开源评估框架,旨在全面、透明地评估基础模型,包括大型语言模型和多模态模型。
    881,08530.8K
    Model Evaluation# AI模型评测# AI评测# HELM
    Chatbot Arena

    Chatbot Arena

    Chatbot Arena是一个开放的社区驱动平台,用户通过匿名对战和投票,实时评估和比较大型语言模型(LLM)的性能。
    881,05530.8K
    Model Evaluation# AI模型比较# AI模型评测# Chatbot Arena
    Evidently AI

    Evidently AI

    Evidently AI是一款开源的AI质量协作平台,提供全面的评估、测试和监控工具,帮助团队确保AI系统的可靠性和性能。
    881,04530.8K
    Model EvaluationModel Training# AI可观测性# AI训练模型# AI质量评估
    H2O EvalGPT

    H2O EvalGPT

    H2O EvalGPT是H2O.ai推出的开放工具,专为评估和比较大型语言模型(LLM)设计,提供全面的性能排行榜,助力用户选择最适合其项目需求的模型。
    881,04030.8K
    Model Evaluation# A/B测试# AI工具# AI模型评估
    C-Eval

    C-Eval

    C-Eval是由上海交通大学、清华大学和爱丁堡大学联合推出的中文大语言模型评估套件,包含13948道多项选择题,覆盖52个学科和四个难度级别,旨在全面评测模型的中文理解能力。
    881,00530.8K
    Model Evaluation# AI模型评测# C-Eval# 中文大语言模型评估
    No more

    标签云

    LBB.AI Toolbox (Link, Build, Beyond)
    Explore 1,100+ AI Tools on LBB.AI Toolbox (Link, Build, Beyond) – your smart platform for global AI resources. Powered by LBBAI 1.0 intelligent ranking (launched May 2025). Get daily updates on the best tools to automate tasks and stay ahead in the AI revolution.

    Apply for Link Submission About

    wechat QR CodeLBB.AI Toolbox (Link, Build, Beyond)
    wechat QR Code
    Copyright © 2025 LBB.AI (Link, Build, Beyond)   
    网址
    网址文章
    热门搜索
    PPTexcelPhotoRestorationPapervideoHumanPhoto