
网站介绍
Meta公司于2024年4月18日发布了Llama 3,这是其最新开源的大型语言模型(LLM),提供8B和70B两种参数规模的模型,标志着开源人工智能领域的又一重大进步。作为Llama系列的第三代产品,Llama 3不仅继承了前代模型的强大功能,还通过一系列创新和改进,提供了更高效、更可靠的AI解决方案,旨在通过先进的自然语言处理技术,支持广泛的应用场景,包括但不限于编程、问题解决、翻译和对话生成。
功能特点
- 多参数规模:Llama 3提供8B(80亿参数)和70B(700亿参数)两种模型,满足不同层次的应用需求。
- 庞大训练数据:训练数据集比前代模型大7倍,包含超过15万亿个token,其中包括4倍的代码数据,提升了模型在代码理解和生成方面的能力。
- 高效架构:采用更高效的分词器和分组查询注意力(GQA)技术,提高了推理效率和长文本处理能力。
- 性能提升:改进的预训练和后训练过程,减少错误拒绝率,提升响应对齐,增加模型响应多样性。
- 安全性增强:引入LlamaGuard2等新的信任和安全工具,以及CodeShield和CyberSecEval2,增强模型的安全性和可靠性。
- 多语言支持:预训练数据中加入了超过30种语言的高质量非英语数据,为未来的多语言能力打下基础。
- 推理和代码生成:在推理、代码生成和指令跟随等方面展现了大幅提升的能力,使其在复杂任务处理上更加精准和高效。
相关项目
- Code Llama:Meta于2023年8月发布的开源代码生成模型,基于Llama 2微调,支持多种编程语言的代码生成和解释。
- Llama 2:Meta于2023年7月发布的开源大型语言模型,提供6.7B、13B和69B参数版本,广泛应用于自然语言处理任务。
优点评价
根据Meta的官方博客,经指令微调后的Llama 3 8B模型在MMLU、GPQA、HumanEval、GSM-8K、MATH等数据集基准测试中都优于同等级参数规模的模型(如Gemma 7B、Mistral 7B),而微调后的Llama 3 70B在MLLU、HumanEval、GSM-8K等基准测试中也都优于同等规模的Gemini Pro 1.5和Claude 3 Sonnet模型。此外,Meta开发了一套新的高质量人类评估集,包含1800个提示,涵盖12个关键用例。通过与Claude Sonnet、Mistral Medium和GPT-3.5等竞争模型的比较,结果显示Llama 3在真实世界场景中的性能非常出色,最低都有52.9%的胜出率。
是否收费
Llama 3作为开源模型,Meta已在GitHub、Hugging Face、Replicate等平台上开源其模型权重和代码,供研究人员和开发者免费使用。具体的使用许可和商业应用限制,请参考Meta官方发布的许可协议。
总结
Llama 3的发布标志着Meta在开源大型语言模型领域的又一重大进步。通过提供多参数规模的模型、庞大的训练数据、高效的模型架构和多语言支持,Llama 3为开发者和研究人员提供了强大的工具,助力AI应用的创新和发展。无论是编程、问题解决、翻译还是对话生成,Llama 3都展现出了卓越的性能和广泛的应用前景。
相关导航


MLX

宙语Cosmos

Andi

Ollama

Codex

讯飞虚拟人
