Audiobox

1yrs agoupdate 887,355 0 30.8K

Meta于2023年11月30日发布了全新的AI音频生成模型Audiobox，支持语音和文本输入，用户可轻松创建逼真的自定义音频，适用于多种场景。

Collection time:

2025-05-20

Open site Mobile view

Audio Tools # AI音频工具 # AI音频生成 # Audiobox # Meta # 免费开源 # 文本转语音 # 语音克隆 # 音效生成 # 音频编辑

Audiobox

Audiobox

在数字内容创作日益繁荣的今天，音频作为重要的媒介形式，其创作门槛却始终较高。Meta于2023年11月30日发布的Audiobox，正是为了解决这一痛点而生的AI音频生成模型。

网站介绍

Audiobox是Meta推出的免费开源 AI音频生成模型，旨在通过语音输入和自然语言文本提示，帮助用户轻松创建逼真的自定义音频。

功能特点

语音克隆：用户可录制自己的声音，Audiobox将根据用户的声音风格生成语音。
文本描述生成人声：通过文本描述声音特征和声学环境，生成相应的人声。
更改声音风格：结合声音和文本描述，轻松更改现有的声音风格。
文本描述生成音效：根据输入的声音特征文本描述，生成相应的声音效果。
噪音消除：提供Magic Eraser功能，消除录音中的瞬态噪声。
声音填充：根据文本描述，用新的声音替换音频中的一部分。
音频故事制作器：利用Audiobox Maker制作原创有趣的音频故事。

相关项目

在AI音频生成领域，除了Audiobox，还有以下值得关注的项目：

Voicebox：Meta于2023年6月推出的语音生成模型，Audiobox正是其继任者。
Riffusion：一款实时音乐创作工具，专注于生成丰富多样且富有感染力的音乐作品。
Stable Audio：Stability AI最新推出的音乐生成工具，支持多种风格的音乐创作。

优点评价

Audiobox的推出，标志着音频生成技术迈入了新的发展阶段。其多模态统一的特性，使得语音、音效和环境音的生成更加便捷。高控制性和逼真的效果，使其适用于短视频、播客、游戏开发等多种场景。此外，Meta在安全与责任方面的考量，如音频水印和语音认证等措施，体现了其对技术负责任的态度。

是否收费

目前，Audiobox提供在线演示，用户可免费体验生成功能，但仅限研究用途。模型和代码未开源，需申请研究访问权限。未来若开放商业化，可能采用订阅或按生成量计费模式，但目前无具体信息。

总结

Audiobox的发布，为音频创作领域带来了新的可能性。无论是专业人士还是业余爱好者，都能通过这一工具，轻松创作出高质量、个性化的音频内容。随着技术的不断发展，期待Audiobox在未来能够为更多用户带来便利和创意。

Relevant Navigation

IBM Watson文字转语音

IBM Watson文字转语音

IBM Watson Text to Speech is a cloud-based API service that converts written text into natural-sounding audio in various languages and voices, enhancing user experience and engagement.

Write Tone

Writetone是一款AI写作助手，提供超过90种语气选择，帮助用户创作清晰、自然且富有人情味的内容。

Voicemaker

Voicemaker是一款基于人工智能的在线文本转语音工具，支持130多种语言和1000多种语音风格，提供高质量、自然流畅的语音输出，适用于教育、广告、游戏等多个领域。

Fryderyk

Fryderyk是一款集成AI助手的在线音乐创作工具，提供多种乐器声音和智能创作辅助，助力音乐人简化创作流程，激发灵感。

琅琅配音

LangLang Voiceover is an intelligent text-to-speech tool supporting over 30 languages and various emotional styles, offering a free version with simple operation to meet diverse user voiceover needs.

Uberduck

Uberduck是一个开源的AI语音生成和合成社区，提供超过5000种声音模型，支持文本转语音、声音克隆、AI歌唱等功能，适用于音乐制作、影视配音、教育等多个领域。

NaturalReader

NaturalReader是一款基于AI技术的文本转语音工具，支持50多种语言和200多种AI语音，能够将PDF、Word文档、电子书等多种格式的文件转换为自然流畅的语音输出，适用于个人学习、商业用途和教育等多种场景。

Riffusion

Riffusion is an open-source AI music generation tool developed by Seth Forsgren and Hayk Martiros, utilizing the Stable Diffusion model to convert text descriptions into high-quality music segments, suitable for music creators and enthusiasts.