利用基于音频的生成式 AI,协调创新
人工智能是许多不同技术的总称。生成式 AI 是我们经常听到的一个话题,尤其是 ChatGPT。ChatGPT 得到了广泛报道,但绝不是生成式 AI 行列中唯一一员。英特尔的 AI 软件架构师兼生成式 AI 推广者 Ria Cheruvu 最近一直感兴趣的一个问题是音频领域生成式 AI(视频 1)。
但无论何种类型的生成式 AI 都令人震惊,开发人员并非始终确切知道从哪里开始,或者开始之后,如何优化模型。与英特尔合作,可以真正简化流程。例如,初学者开发人员可以使用英特尔® OpenVINO™ 笔记本电脑,利用教程和代码示例,帮助他们开始使用 GenAI 。然后,当他们准备好提升到一个新水平或准备扩展时,英特尔将随时帮助他们。
Ria Cheruvu 与我们讨论 OpenVINO 笔记本电脑存储库,以及生成式 AI 用于音频的现实应用,以及适用于呼叫中心的方面与适用于音乐家方面之间的差异。
生成式 AI 的不同领域有哪些?
就生成式人工智能的类型而言,这一领域无疑正在不断发展。ChatGPT 并非唯一!当然,文本生成是一种非常重要的生成式 AI,但也有图像生成,例如,使用 Stable Diffusion 等模型来生成艺术、原型以及不同类型的图像。还有音频领域,您可以开始制作音乐,或者制作合成化身的音频,以及许多其他类型的用例。
在音频领域,快速运行时尤为重要,这是常见的痛点之一。您希望模型超级强大,能够快速生成高质量输出的结果,那就需要大量计算。因此,我想说,优化生成式 AI 模型的技术堆栈绝对至关重要,这也是我在英特尔日常工作中研究的东西。
音频生成式 AI 的具体商机是什么?
使用语音人工智能或对话式人工智能来读取和处理音频,这确实非常有趣,这就是您使用语音代理(例如手机上的语音助手)所做的事情。将其与音频生成式 AI 比较,您实际上是在创建内容,例如,能够生成合成化身或声音,以便打电话和交谈。首先想到的商业应用肯定是呼叫中心,或者是具有使用这种所创建音频的模拟环境的元宇宙应用。
但创意领域、内容创作领域也有一些非传统商业用例,我们开始看到一些应用与音乐生成式 AI 相关。对我来说,这非常令人兴奋。英特尔开始研究生成式 AI 如何补充艺术家的工作流程:例如,创建作品,使用生成式 AI 来采样节奏。音乐家和音乐制作人如何利用生成式人工智能,将其纳入内容创作工作流程之中,这也有一个非常有趣的文化元素。
虽然它不是一个传统的商业用例,比如呼叫中心或使用音频进行零售的交互式自助服务终端,但我认为,音乐生成式 AI 在内容创作方面有着巨大的应用。最终,它还可以进入需要生成声音的其他类型领域,例如,创建用于 AI 系统训练的合成数据。
音频生成式 AI 的开发流程是什么?
生成式 AI 领域目前正在采用几种不同的方式。其中一种肯定是改造已有的模型架构,以用于其他类型的生成式 AI 模型。例如,Riffusion 基于图像生成模型 Stable Diffusion 的架构;它只是生成波形,而不是图像。
我最近与从事音乐领域研究的人交谈,我们讨论的一件事是,您可以为这些音频领域模型提供的输入数据多种多样。可以是音符,也许是钢琴作曲的一部分,一直到波形或特定类型的输入,专门用于 MIDI 格式等的用例。有多种多样的数据。
训练和部署这些模型需要哪些技术?
我们一直在调查许多有趣的生成式 AI 工作负载,这些工作负载是英特尔 OpenVINO 工具套件和 OpenVINO Notebook 存储库的一部分。我们将许多音频生成的关键示例当作非常有用的用例,用于提示和测试生成式 AI 功能。我们曾经与英特尔的其他团队合作,使用 Riffusion 模型,创作 Taylor Swift 类型的流行节奏,一直到更高级的模型,生成与某人说话的内容相匹配的音频。
我看到 OpenVINO 的一件事是,能够优化所有这些模型,特别是在内存和模型大小方面,而且能够在边缘、云和客户端之间实现灵活性。
OpenVINO 实际上针对该优化部分。有一个基本概念,即生成式 AI 模型的大小和内存占用面积很大;而所有这些模型的基础,无论是音频、图像还是文本生成,其中某些元素非常大。我们使用压缩和量化相关技术,将模型占用面积减半,不仅能够大幅减少模型尺寸,而且确保性能相差无几。
所有这些都源于一个非常有趣的本地开发概念。音乐创作者或音频创作者希望在创作内容时使用电脑,在从事密集型工作时,在云端工作,例如收集音频数据、录音、注释,以及与不同专家合作创建数据集。然后他们可以在电脑上执行其他工作负载,然后说:“好吧,现在让我在系统上本地生成一些有趣的流行节奏,然后在房间里制作原型。”
开发人员开始使用生成式 AI 有哪些示例?
我真正喜欢讨论的一个例子是,您如何正确地使用我们在笔记本存储库中展示的 OpenVINO 教程和工作负载,然后投入实际运用。在英特尔,我们与 Audacity 合作,后者是一个基本上实现开源音频相关编辑创作的工具。它是一种用于音频编辑的一站式 Photoshop 类型的工具。我们所做的一件事是通过我们提供的插件,将 OpenVINO 与其集成在一起。我们的工程团队从 Python 获取 OpenVINO Notebook 存储库中的代码,将其转换为 C++,然后将其部署到 Audacity 之中。
这样就能实现我之前提到的性能和内存改进,但它也直接集成到相同的工作流程中,许多编辑和操作音频的人也在利用此工作流程。您只需挑选一段声音,然后说 “生成”,OpenVINO 就会生成其余部分。
这是一个工作流程集成的例子,可用于艺术家工作流程;用于电影行业为语音制作生成合成音频;或用于零售行业中的交互式自助服务终端;或用于医疗保健领域的患者与医疗人员对话。工作流程的无缝集成是英特尔非常期待推动和帮助协作的下一步。
生成式 AI 还有哪些,特别是音频生成式 AI?
说到音频生成式人工智能,我认为在这个领域的任何一个特定时刻都是 “眨眼即失”。看到添加了如此众多工作负载,真是太神奇了。但是,展望不久的将来,也许是今年年底或明年,我能看到的一些发展肯定是围绕我之前提到的那些工作流程,以及确定您到底想在哪里运行,是在本地系统上,还是在云上,还是在两者的混合体上?这绝对是我真正感兴趣的事情。
我们正在尝试采用英特尔® 酷睿™ Ultra 和类似类型的平台,在 AI 电脑上生成音频,当您坐在房间里与一群音乐家一起制作原型并玩音乐时,理想情况下,您不必访问云端。相反,您可以在本地这样做,将其导出到云端,然后在本地和云端之间往返移动您的工作负载。关键在于,我们如何将利益相关者纳入该流程,即我们如何准确创建生成式 AI 解决方案,将其实例化,然后随时维护?
最后,您能给我们留下一点关于生成式人工智能的启示吗?
现在,生成式人工智能这个领域光鲜亮丽,但几乎人人都能看到当中的价值,而前提是有一个面向未来的战略。英特尔对这个行业的价值主张,是能够携手开发人员,向他们展示他们能够利用这项技术做什么,以及在他们实现目标的每一步上给予帮助。
用于音频的生成式 AI (通用生成式 AI)的发展如此之快。因此,请密切关注工作负载、评估、测试和原型设计;在我们迈进音频生成、合成生成等众多领域的新时代之际,这些都绝对是关键。
相关内容
要详细了解生成式 AI ,请阅读生成式 AI 解决方案:从炒作到现实,并收听生成式 AI 在音频创作中构成新机遇。有关英特尔的最新创新,请在 X @IntelAI 和 LinkedIn 上关注他们。