LBB.AI Toolbox (Link, Build, Beyond)
  • Home
  • blog
  • Submission
  • ranking
    • Home
    • blog
    • Submission
    • ranking

    AI模型评测

    共 16 篇网址
    RecommendedAI写作工具AI图像工具AI视频工具AI办公工具AI智能体AI智能助手AI编程工具AI设计工具AI搜索引擎AI音频工具AI开发平台AI训练模型AI内容检测AI语言翻译AI法律助手AI提示指令AI模型评测AI学习网站
    排序
    发布浏览
    CMMLU

    CMMLU

    CMMLU是一个专为中文语境设计的综合性评估基准,涵盖67个主题,旨在全面测试语言模型的知识储备和推理能力。
    880,06530.8K
    AI模型评测# AI模型评测# CMMLU# 中文评估基准
    Chatbot Arena

    Chatbot Arena

    Chatbot Arena是一个开放的社区驱动平台,用户通过匿名对战和投票,实时评估和比较大型语言模型(LLM)的性能。
    880,04030.8K
    AI模型评测# AI模型比较# AI模型评测# Chatbot Arena
    Open LLM Leaderboard

    Open LLM Leaderboard

    Open LLM Leaderboard是由Hugging Face推出的开源大语言模型(LLM)评估平台,提供模型排名、性能评估和社区协作功能,助力开发者和研究者了解和比较不同LLM的表现。
    880,06030.8K
    AI学习网站AI模型评测# AI模型比较# AI模型评测# Hugging Face
    Stable Chat

    Stable Chat

    Stable Chat是Stability AI最新推出的对话式AI助手,基于Stable Beluga大语言模型,旨在为研究人员和AI爱好者提供评估模型功能和安全性的研究平台。
    880,03030.8K
    AI智能助手AI模型评测# AI对话工具# AI模型评估# AI研究平台
    Evidently AI

    Evidently AI

    Evidently AI是一款开源的AI质量协作平台,提供全面的评估、测试和监控工具,帮助团队确保AI系统的可靠性和性能。
    880,05530.8K
    AI模型评测AI训练模型# AI可观测性# AI训练模型# AI质量评估
    HELM

    HELM

    HELM(Holistic Evaluation of Language Models)是斯坦福大学推出的开源评估框架,旨在全面、透明地评估基础模型,包括大型语言模型和多模态模型。
    880,08530.8K
    AI模型评测# AI模型评测# AI评测# HELM
    MMLU

    MMLU

    MMLU(Massive Multitask Language Understanding)是由加州大学伯克利分校于2020年9月推出的基准测试,旨在评估大型语言模型在多领域的理解和推理能力。
    880,06030.8K
    AI模型评测# AI模型评测# MMLU# 人工智能
    FlagEval

    FlagEval

    FlagEval(天秤)是由智源研究院联合多所高校团队打造的开放评测平台,采用“能力-任务-指标”三维评测框架,提供全面、细致的大模型评测结果。
    880,05030.8K
    AI模型评测# AI模型评测# AI评测平台# FlagEval
    OpenCompass

    OpenCompass

    OpenCompass是由上海人工智能实验室推出的开源大模型评测体系,提供全面、高效的评测框架,支持大语言模型和多模态模型的一站式评测,并定期公布评测结果榜单。
    880,09530.8K
    AI模型评测# AI模型评测# AI评测# OpenCompass
    MMBench

    MMBench

    MMBench是由OpenCompass团队推出的多模态基准测试,旨在通过约3000道单项选择题,覆盖20项细粒度能力,全面评估视觉语言模型的综合表现。
    880,09530.8K
    AI模型评测# AI模型评测# MMBench# OpenCompass
    PublicPrompts

    PublicPrompts

    Public Prompts是一个免费开放的平台,提供丰富多样的高质量AI提示词,助力用户在AI艺术创作中激发灵感,提升创作效率。
    880,13030.8K
    AI学习网站AI提示指令# AI提示指令# AI提示词# AI模型库
    PubMedQA

    PubMedQA

    PubMedQA是一个专为生物医学研究设计的问答数据集,包含1,000个专家标注、61,200个未标注和211,300个人工生成的问答实例,旨在通过摘要回答研究问题。
    880,02530.8K
    AI模型评测# AI模型评测# PubMedQA# 数据集
    SuperCLUE

    SuperCLUE

    SuperCLUE是由CLUE学术社区推出的中文通用大模型综合性评测基准,旨在从基础能力、专业能力和中文特性能力三个维度全面评估模型表现。
    880,08030.8K
    AI模型评测# AI模型基准# AI模型排行榜# AI模型评测
    C-Eval

    C-Eval

    C-Eval是由上海交通大学、清华大学和爱丁堡大学联合推出的中文大语言模型评估套件,包含13948道多项选择题,覆盖52个学科和四个难度级别,旨在全面评测模型的中文理解能力。
    880,05530.8K
    AI模型评测# AI模型评测# C-Eval# 中文大语言模型评估
    AGI-Eval

    AGI-Eval

    AGI-Eval是由多所知名高校和机构联合打造的AI大模型评测社区,提供公正、可信、科学、全面的评测生态,旨在评估基础模型在人类认知和问题解决任务中的通用能力。
    880,03030.8K
    AI模型评测# AGI-Eval# AI模型评测# AI评测
    H2O EvalGPT

    H2O EvalGPT

    H2O EvalGPT是H2O.ai推出的开放工具,专为评估和比较大型语言模型(LLM)设计,提供全面的性能排行榜,助力用户选择最适合其项目需求的模型。
    880,04030.8K
    AI模型评测# A/B测试# AI工具# AI模型评估
    没有了

    标签云

    广告也精彩
    LBB.AI Toolbox (Link, Build, Beyond)
    LBB AI (Link, Build, Beyond) Toolbox connects you to 500+ AI tools with daily updates, helping you Link to powerful solutions, Build innovative projects, and go Beyond with automation. We promote China’s leading AI tools globally and bring global solutions to China. As your go-to AI navigation platform, we offer seamless access to top tools from both regions. Join LBB AI Toolbox – where we Link, Build, and Beyond the ordinary.

    Apply for Link Submission About

    youtubeLBB.AI Toolbox (Link, Build, Beyond)
    youtube
    Copyright © 2025 LBB.AI (Link, Build, Beyond)  
    网址
    网址文章
    热门搜索
    PPTexcel照片修复论文洗稿抖音视频数字人