谷歌AudioPaLM实现「文本+音频」双模态解决,说听两用大模型


大型语言模型以其强大的性能及通用性,带动了一批多模态的大模型开发,如音频、视频等。

语言模型的底层架构大多是基于Transformer,且以解码器为主,所以无需过多调整模型架构即可适应其他序列模态。

最近,谷歌发布了一个统一的语音-文本模型AudioPaLM,将文本和音频的token合并为一个多模态联合词汇表,再结合不同任务描述标记,可以实现在任意语音和文本的混合任务上训练decoder-only模型,包括语音识别(ASR)、文本到语音合成、自动语音翻译(AST)和语音到语音翻译(S2ST)等,将传统上由异质模型解决的任务统一到一个架构和训练流程中。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型图片

论文链接:https://arxiv.org/pdf/2306.12925.pdf

示例链接:https://google-research.github.io/seanet/audiopalm/examples/

此外,由于AudioPaLM的底层架构是一个大型的Transformer模型,可以用对文本进行预训练的大型语言模型的权重来初始化,可以从PaLM等模型的语言学知识中受益。

从实现效果来看,AudioPaLM在AST和S2ST基准上取得了最先进的结果,并且在ASR基准上的性能也和其他模型不相上下。

通过利用AudioLM的音频提示,AudioPaLM模型能够对新的说话人语音迁移来执行S2ST,在语音质量和语音保存方面超过了现有的方法。

AudioPaLM模型也具有zero-shot的能力,可以对训练中未见过的语音输入/目标语言组合执行AST任务。

AudioPaLM

研究人员使用一个decoder-only Transformer模型对文本和语音的token进行建模,其中文本和音频在输入到模型之间已经进行分词,所以输入只是一个整数序列,在输出端再进行反分词(detokenized)操作返回给用户。

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型图片

音频embedding及分词

将音频的原始波形转换为token的过程中,包括从现有的语音表征模型中抽取为嵌入(embedding),并将嵌入离散为一组有限的音频token

之前的工作中从w2v-BERT模型中提取嵌入,并通过k-means将其量化,而这篇论文中,研究人员试验了三种方案:

w2v-BERT:使用在多语言数据上训练的w2v-BERT模型,而非纯英语;并且在进行k-means聚类之前没有进行归一化处理,否则会导致在多语言环境中性能下降。然后以25Hz的速率生成token,词表大小为1024

USM-v1:使用性能更强的、20亿参数的通用语音模型(USM)编码器执行类似的操作,并从中间层提取嵌入;

USM-v2:用辅助ASR损失来训练,并进一步微调以支持多语言。

修改text-only解码器

在Transfomrer解码器结构中,除了输入和最后的softmax输出层外,都不涉及到建模token的数量,并且在PaLM架构中,输入和输出矩阵的权重变量时共享的,即互为转置。

所以只需要将嵌入矩阵的大小从(t × m)扩展到(t+a)×m即可把一个纯文本模型变成一个既能模拟文本又能模拟音频的模型,其中t是文本词表的大小,a是音频词表的大小,m是嵌入维度。

为了利用预训练的文本模型,研究人员通过在嵌入矩阵中添加新的行来改变现有模型的checkpoint。

具体的实现为,前t个token对应于SentencePiece文本标记,后面a个token代表音频标记,虽然文本嵌入式复用的预训练权重,但音频嵌入是全新初始化的,必须进行训练。

实验结果显示,与从头重新训练相比,基于文本预训练模型对语音和文本的多模态任务性能提升非常有利。

音频token解码为原生音频

为了从音频token中合成音频波形,研究人员试验了两种不同的方法:

1. 类似AudioLM模型的自回归解码

2. 类似SoundStorm模型的非自回归解码

这两种方法都需要先生成SoundStream token,再用卷积解码器将其转换为音频波形。

研究人员在Multilingual LibriSpeech上进行训练,语音条件为3秒长的语音样本,同时表示为音频token 和SoundStream token

通过提供部分原始输入语音作为语音条件,模型能够在将说话人的语音翻译成不同语言时保留原始说话人的语音,当原始音频短于3秒时,通过重复播放来填充空白时间。

训练任务

使用到的训练数据集均为speech-text数据:

1. 音频Audio:源语言的语音(speech)

2. 转录Transcript:音频数据中语音的转录

3. 翻译音频Translated Audio:音频中语音的口语翻译

4. 翻译转录Translated Transcript:音频中语音的书面翻译

组件任务包括:

1. ASR(自动语音识别):转录音频以获得转录文本

2. AST(自动语音翻译):翻译音频以获得翻译后的转录文本

3. S2ST(语音到语音翻译):翻译音频以获得翻译后的音频

4. TTS(文本到语音):读出转录的内容,以获得音频。

5. MT(文本到文本的机器翻译):翻译转录以获得翻译后的转录文本

一个数据集可能会用于多个任务,所以研究人员选择向模型发出信号,告诉模型应该对给定的输入执行哪项任务,具体方法为:在输入前加上一个标签,指定任务和输入语言的英文名称,输出语言也可以选择。

例如,想要模型对法语语料进行ASR时,分词后的音频输入前面要加上标签[ASR French];要在英语中执行TTS任务,文本前面需要加上[TTS English];要执行从英语到法语的S2ST任务,分词后的英语音频会在前面加上[S2ST English French]

训练混合

研究人员使用SeqIO库对训练数据进行混合,对较大的数据集进行权重降低。

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型图片

实验部分

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型图片

AudioPaLM在AST和S2ST任务上超过了其他基线模型,在ASR上性能虽然不是最优,但效果也非常好。

除了评估语音内容的翻译质量外,研究人员还评估了AudioPaLM生成的语言是否质量足够高,并且在翻译成不同语言时能否保留说话人的声音。

客观指标

使用类似于无参考MOS估计器,给定一个音频样本,在1到5的范围内提供一个感知音频质量估计。

为了测量跨语言的语音迁移质量,研究人员使用的现成的说话人验证模型,并计算源(用SoundStream编码/解码)和翻译语音的嵌入之间的余弦相似度;还衡量了从源音频到目标音频的声学特性(录音条件、背景噪音)。

主观评估

研究人员进行了两项独立研究来评估生成的语音质量和语音相似度,两项研究中都使用相同的样本集合。

由于语料的质量参差不齐,有些含有响亮的重叠语音(例如,背景中播放的电视节目或歌曲)或极强的噪音(例如,衣服与麦克风摩擦),类似的失真效果使得人类评分员的工作变得复杂,因此研究人员决定通过只选择MOS估计值至少为3.0的输入进行预过滤。

评分以5级量表提供,从1(质量差或完全不同的声音)到5(质量好,相同的声音)。

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型图片

从结果中可以观察到AudioPaLM在客观和主观测量中,在音频质量和语音相似度方面都明显优于基线Translatotron 2系统,并且AudioPaLM比CVSS-T中的真实合成录音具有更高的质量和更好的语音相似度,在大多数指标上有比较大提升。

研究人员还对比了高资源组和低资源组(法语、德语、西班牙语和加泰罗尼亚语与其他语言)的系统,发现这些组之间的指标没有明显差异。

以上就是谷歌AudioPaLM实现「文本+音频」双模态解决,说听两用大模型的详细内容,更多请关注其它相关文章!


# 多语言  # 论坛网站建设搭建公司  # 小营酒店网站建设  # 关键词第三方排名统计  # 做视频排名关键词  # seo长线的好处及特点  # 商城网站建设广告  # 开州网站建设技术  # 石龙网站建设报价  # 北京起名网站建设游戏  # 北京seo哪个最好  # 将其  # 模型  # 丰田  # 中国科学院  # 模态  # 英语  # 法语  # 还能  # 两种  # 转录  # peech  # udio  # 谷歌 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 人工智能和神经网络有什么联系与区别?  应对算力挑战,亚马逊云科技发力AI基础设施建设  微软在 Bing 和 Edge 浏览器中拓展网购服务,帮用户选购心仪产品  谷歌推出新 AI 工具 Imagen Editor,一句话对图片二次创作  首部国内AI辅助动画片《魔游纪:人工智能辅助篇》预告发布  花16000元买四款扫拖机器人!科沃斯追觅石头小米谁能笑到最后?  警惕!AI或致虚假信息泛滥  国内首家,360智脑通过中国信通院可信AIGC大语言模型功能评估  一文看懂基础模型的定义和工作原理  腾讯企点客服接待与营销分析能力升级!企业操作更高效、人机交互更智能  华为HarmonyOS 4将集|成人|工智能大型模型  美踏控股推出创新人工智能大数据模型“心乐舞河”:虚拟人音舞社交的新体验  鸿蒙OS 4将实现AI大模型集成,余承东表示坚持AI辅助而非AI取代  网易云音乐和小冰推出AI歌手音乐创作软件,首发内置12名AI歌手  字节、网易相继入局,AI之后大厂又找到下一个风口?  测试框架-安全和自动驾驶  AI证件照生成器:实际测试中AI软件展现了绝无仅有的强大效能  AI创作广告文案等同2.47年工作经验,且消费者无法区分|AI营销前沿  马斯克发推讽刺人工智能:机器学习的本质就是统计  Databricks推出人工智能模型共享机制,可令开发者与公司“双赢”  如布科技发布新产品AI口袋学习机S12  谷歌StyleDrop在可控性上卷翻MidJourney,前GitHub CTO用AI颠覆编程  “世界人工智能之都”的新烦恼:AI热潮无法拉动大量就业  人工智能驱动智能建筑会是未来趋势吗?  一文读懂自动驾驶的激光雷达与视觉融合感知  无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA  Win11 AI 助手 Windows Copilot 被吐槽:套皮的 Edge 浏览器  乐天派AI桌面机器人提供的正能量情绪价值直接拉满,妥妥的治愈系  中国AI公有云市场2025年逆势蓬勃增长,增速高达80.6%  搭载星火认知大模型 讯飞听见智慧屏开启AI办公新体验  谷歌新安卓机器人logo曝光:头更大了  优傲机器人的人机协作技术 助力中小企发展  650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了  上海发布“元宇宙关键技术攻关行动方案”,加快 AIGC 等突破  万兴播爆桌面端上线,支持AI数字人搜索、视频编辑等功能  学生作文评分的新趋势:教师与AI的合作模式  「电子果蝇」惊动马斯克!背后是13万神经元全脑图谱,可在电脑上运行  软通动力多项AI创新产品及应用亮相2025世界人工智能大会  人工智能驱动艺术,打开达利的超现实想象  V社悄悄封禁使用AI生成美术素材的游戏  人形机器人概念大热!这些产业链标的或受提振  李开复:未来几年,人工智能会革了所有人的命,除非你这么做  学界业界大咖探讨:AI对数字艺术创新的推动力  小米创始人雷军将揭示小米AI在年度演讲中的最新进展  即将到来:AI婚纱设计软件实际测试,人工智能即将开创婚纱设计新纪元  羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品  RoboNeo操作教程  “黑科技”亮相大湾区轨交论坛 智慧交通迈向“强AI”  从GOXR到PartyOn,XRSPACE致力打造多元共赢的元宇宙世界  联想戴炜:以全栈AI加速CT与IT融合,共建高质量算力网络 

 2023-06-30

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.