谷歌AudioPaLM实现「文本+音频」双模态解决，说听两用大模型

大型语言模型以其强大的性能及通用性，带动了一批多模态的大模型开发，如音频、视频等。

语言模型的底层架构大多是基于Transformer，且以解码器为主，所以无需过多调整模型架构即可适应其他序列模态。

最近，谷歌发布了一个统一的语音-文本模型AudioPaLM，将文本和音频的token合并为一个多模态联合词汇表，再结合不同任务描述标记，可以实现在任意语音和文本的混合任务上训练decoder-only模型，包括语音识别（ASR）、文本到语音合成、自动语音翻译（AST）和语音到语音翻译（S2ST）等，将传统上由异质模型解决的任务统一到一个架构和训练流程中。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

一个模型解决两种模态，谷歌AudioPaLM一统「文本+音频」：能说还能听的大模型

图片

论文链接：https://arxiv.org/pdf/2306.12925.pdf

示例链接：https://google-research.github.io/seanet/audiopalm/examples/

此外，由于AudioPaLM的底层架构是一个大型的Transformer模型，可以用对文本进行预训练的大型语言模型的权重来初始化，可以从PaLM等模型的语言学知识中受益。

从实现效果来看，AudioPaLM在AST和S2ST基准上取得了最先进的结果，并且在ASR基准上的性能也和其他模型不相上下。

通过利用AudioLM的音频提示，AudioPaLM模型能够对新的说话人语音迁移来执行S2ST，在语音质量和语音保存方面超过了现有的方法。

AudioPaLM模型也具有zero-shot的能力，可以对训练中未见过的语音输入/目标语言组合执行AST任务。

AudioPaLM

研究人员使用一个decoder-only Transformer模型对文本和语音的token进行建模，其中文本和音频在输入到模型之间已经进行分词，所以输入只是一个整数序列，在输出端再进行反分词（detokenized）操作返回给用户。

一个模型解决两种模态，谷歌AudioPaLM一统「文本+音频」：能说还能听的大模型图片

音频embedding及分词

将音频的原始波形转换为token的过程中，包括从现有的语音表征模型中抽取为嵌入（embedding），并将嵌入离散为一组有限的音频token

之前的工作中从w2v-BERT模型中提取嵌入，并通过k-means将其量化，而这篇论文中，研究人员试验了三种方案：

w2v-BERT：使用在多语言数据上训练的w2v-BERT模型，而非纯英语；并且在进行k-means聚类之前没有进行归一化处理，否则会导致在多语言环境中性能下降。然后以25Hz的速率生成token，词表大小为1024

USM-v1：使用性能更强的、20亿参数的通用语音模型（USM）编码器执行类似的操作，并从中间层提取嵌入；

USM-v2：用辅助ASR损失来训练，并进一步微调以支持多语言。

修改text-only解码器

在Transfomrer解码器结构中，除了输入和最后的softmax输出层外，都不涉及到建模token的数量，并且在PaLM架构中，输入和输出矩阵的权重变量时共享的，即互为转置。

所以只需要将嵌入矩阵的大小从（t × m）扩展到（t+a）×m即可把一个纯文本模型变成一个既能模拟文本又能模拟音频的模型，其中t是文本词表的大小，a是音频词表的大小，m是嵌入维度。

为了利用预训练的文本模型，研究人员通过在嵌入矩阵中添加新的行来改变现有模型的checkpoint。

具体的实现为，前t个token对应于SentencePiece文本标记，后面a个token代表音频标记，虽然文本嵌入式复用的预训练权重，但音频嵌入是全新初始化的，必须进行训练。

实验结果显示，与从头重新训练相比，基于文本预训练模型对语音和文本的多模态任务性能提升非常有利。

音频token解码为原生音频

为了从音频token中合成音频波形，研究人员试验了两种不同的方法：

1. 类似AudioLM模型的自回归解码

2. 类似SoundStorm模型的非自回归解码

这两种方法都需要先生成SoundStream token，再用卷积解码器将其转换为音频波形。

研究人员在Multilingual LibriSpeech上进行训练，语音条件为3秒长的语音样本，同时表示为音频token 和SoundStream token

通过提供部分原始输入语音作为语音条件，模型能够在将说话人的语音翻译成不同语言时保留原始说话人的语音，当原始音频短于3秒时，通过重复播放来填充空白时间。

训练任务

使用到的训练数据集均为speech-text数据：

1. 音频Audio：源语言的语音（speech）

2. 转录Transcript：音频数据中语音的转录

3. 翻译音频Translated Audio：音频中语音的口语翻译

4. 翻译转录Translated Transcript：音频中语音的书面翻译

组件任务包括：

1. ASR（自动语音识别）：转录音频以获得转录文本

2. AST（自动语音翻译）：翻译音频以获得翻译后的转录文本

3. S2ST（语音到语音翻译）：翻译音频以获得翻译后的音频

4. TTS（文本到语音）：读出转录的内容，以获得音频。

5. MT（文本到文本的机器翻译）：翻译转录以获得翻译后的转录文本

一个数据集可能会用于多个任务，所以研究人员选择向模型发出信号，告诉模型应该对给定的输入执行哪项任务，具体方法为：在输入前加上一个标签，指定任务和输入语言的英文名称，输出语言也可以选择。

例如，想要模型对法语语料进行ASR时，分词后的音频输入前面要加上标签[ASR French]；要在英语中执行TTS任务，文本前面需要加上[TTS English]；要执行从英语到法语的S2ST任务，分词后的英语音频会在前面加上[S2ST English French]

训练混合

研究人员使用SeqIO库对训练数据进行混合，对较大的数据集进行权重降低。

一个模型解决两种模态，谷歌AudioPaLM一统「文本+音频」：能说还能听的大模型图片

实验部分

一个模型解决两种模态，谷歌AudioPaLM一统「文本+音频」：能说还能听的大模型图片

AudioPaLM在AST和S2ST任务上超过了其他基线模型，在ASR上性能虽然不是最优，但效果也非常好。

除了评估语音内容的翻译质量外，研究人员还评估了AudioPaLM生成的语言是否质量足够高，并且在翻译成不同语言时能否保留说话人的声音。

客观指标

使用类似于无参考MOS估计器，给定一个音频样本，在1到5的范围内提供一个感知音频质量估计。

为了测量跨语言的语音迁移质量，研究人员使用的现成的说话人验证模型，并计算源（用SoundStream编码/解码）和翻译语音的嵌入之间的余弦相似度；还衡量了从源音频到目标音频的声学特性（录音条件、背景噪音）。

主观评估

研究人员进行了两项独立研究来评估生成的语音质量和语音相似度，两项研究中都使用相同的样本集合。

由于语料的质量参差不齐，有些含有响亮的重叠语音（例如，背景中播放的电视节目或歌曲）或极强的噪音（例如，衣服与麦克风摩擦），类似的失真效果使得人类评分员的工作变得复杂，因此研究人员决定通过只选择MOS估计值至少为3.0的输入进行预过滤。

评分以5级量表提供，从1（质量差或完全不同的声音）到5（质量好，相同的声音）。

一个模型解决两种模态，谷歌AudioPaLM一统「文本+音频」：能说还能听的大模型图片

从结果中可以观察到AudioPaLM在客观和主观测量中，在音频质量和语音相似度方面都明显优于基线Translatotron 2系统，并且AudioPaLM比CVSS-T中的真实合成录音具有更高的质量和更好的语音相似度，在大多数指标上有比较大提升。

研究人员还对比了高资源组和低资源组（法语、德语、西班牙语和加泰罗尼亚语与其他语言）的系统，发现这些组之间的指标没有明显差异。

以上就是谷歌AudioPaLM实现「文本+音频」双模态解决，说听两用大模型的详细内容，更多请关注其它相关文章！

# 多语言 # 论坛网站建设搭建公司 # 小营酒店网站建设 # 关键词第三方排名统计 # 做视频排名关键词 # seo长线的好处及特点 # 商城网站建设广告 # 开州网站建设技术 # 石龙网站建设报价 # 北京起名网站建设游戏 # 北京seo哪个最好 # 将其 # 模型 # 丰田 # 中国科学院 # 模态 # 英语 # 法语 # 还能 # 两种 # 转录 # peech # udio # 谷歌

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2023-06-30

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。