字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA


当前大语言模型 (Large Language Models, LLMs) 如 GPT4 在遵循给定图像的开放式指令方面表现出了出色的多模态能力。然而,这些模型的性能严重依赖于对网络结构、训练数据和训练策略等方案的选择,但这些选择并没有在先前的文献中被广泛讨论。此外,目前也缺乏合适的基准 (benchmarks) 来评估和比较这些模型,限制了多模态 LLMs 的 发展。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA图片

  • 论文:https://arxiv.org/abs/2307.02469
  • 网站:https://lynx-llm.github.io/
  • 代码:https://github.com/bytedance/lynx-llm

在这篇文章中,作者从定量和定性两个方面对此类模型的训练进行了系统和全面的研究。设置了 20 多种变体,对于网络结构,比较了不同的 LLMs 主干和模型设计;对于训练数据,研究了数据和采样策略的影响;在指令方面,探讨了多样化提示对模型指令跟随能力的影响。对于 benchmarks ,文章首次提出包括图像和视频任务的开放式视觉问答评估集 Open-VQA。

基于实验结论,作者提出了 Lynx,与现有的开源 GPT4-style 模型相比,它在表现出最准确的多模态理解能力的同时,保持了最佳的多模态生成能力。

评估方案

不同于典型的视觉语言任务,评估 GPT4-style 模型的主要挑战在于平衡文本生成能力多模态理解准确性两个方面的性能。为了解决这个问题,作者提出了一种包含视频和图像数据的新 benchmark Open-VQA,并对当前的开源模型进行了全面的评价。

具体来说,采用了两种量化评价方案:

  • 收集开放式视觉问答 (Open-VQA) 测试集,其包含关于物体、OCR、计数、推理、动作识别、时间顺序等不同类别的问题。不同于有标准答案的 VQA 数据集,Open-VQA 的答案是开放式的。为了评估 Open-VQA 上的性能,使用 GPT4 作为判别器,其结果与人类评估有 95% 的一致性。
  • 此外,作者采用了由 mPLUG-owl [1] 提供的 OwlEval 数据集来评估模型的文本生成能力,虽然只包含 50 张图片 82 个问题,但涵盖故事生成、广告生成、代码生成等多样问题,并招募人工标注员对不同模型的表现进行打分。

结论

为了深入研究多模态 LLMs 的训练策略,作者主要从网络结构(前缀微调 / 交叉注意力)、训练数据(数据选择及组合比例)、指示(单一指示 / 多样化指示)、LLMs 模型(LLaMA [5]/Vicuna [6])、图像像素(420/224)等多个方面设置了二十多种变体,通过实验得出了以下主要结论:

  • 多模态 LLMs 的指示遵循能力不如 LLMs。例如,InstructBLIP [2] 倾向于不管输入指令如何都生成简短的回复,而其他模型倾向于生成长句子而不考虑指令,作者认为这是由于缺乏高质量和多样化的多模态指令数据所导致的。
  • 训练数据的质量对模型的性能至关重要。基于在不同的数据上进行实验的结果,发现使用少量的高质量数据比使用大规模的噪声数据表现得更好。作者认为这是生成式训练和对比式训练的区别,因为生成式训练是直接学习词的条件分布而不是文本和图像的相似度。因此,为了更好的模型性能,在数据方面需要满足两点:1)包含高质量的流畅文本;2)文本和图像内容对齐得较好。
  • 任务和提示对零样本 (zero-shot) 能力至关重要。使用多样化任务和指令可以提升模型在未知任务上的零样本生成能力,这与纯文本模型中的观察结果一致。
  • 平衡正确性和语言生成能力是很重要的。如果模型在下游任务 (如 VQA) 上训练不足,更可能生成与视觉输入不符的编造的内容;而如果模型在下游任务中训练过多,它则倾向于生成短答案,将无法按照用户的指示生成较长的答案。
  • 前缀微调 (prefix-finetuning, PT) 是目前对 LLMs 进行多模态适配的最佳方案。在实验中,prefix-finetuning 结构的模型能更快地提升对多样化指示的遵循能力,比交叉注意力 (cross-attention, CA) 的模型结构更易训练。(prefix-tuning 和 cross-attention 为两种模型结构,具体见 Lynx 模型介绍部分)

Lynx 模型

作者提出了 Lynx(猞猁)—— 进行了两阶段训练的 prefix-finetuning 的 GPT4-style 模型。在第一阶段,使用大约 120M 图像 - 文本对来对齐视觉和语言嵌入 (embeddings) ;在第二阶段,使用 20 个图像或视频的多模态任务以及自然语言处理 (NLP) 数据来调整模型的指令遵循能力。

字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA图片

Lynx 模型的整体结构如上图 Figure 1 所示。

视觉输入经过视觉编码器处理后得到视觉令牌 (tokens) $$W_v$$,经过映射后与指令 tokens $$W_l$$ 拼接作为 LLMs 的输入,在本文中将这种结构称为「prefix-finetuning」以区别于如 Flamingo [3] 所使用的 cross-attention 结构。

此外,作者发现,通过在冻结 (frozen) 的 LLMs 某些层后添加适配器 (Adapter) 可以进一步降低训练成本。

模型效果

作者测评了现有的开源多模态 LLMs 模型在 Open-VQA、Mme [4] 及 OwlEval 人工测评上的表现(结果见后文图表,评估细节见论文)。可以看到 Lynx 模型在 Open-VQA 图像和视频理解任务、OwlEval 人工测评及 Mme Perception 类任务中都取得了最好的表现。其中,InstructBLIP 在多数任务中也实现了高性能,但其回复过于简短,相较而言,在大多数情况下 Lynx 模型在给出正确的答案的基础上提供了简明的理由来支撑回复,这使得它对用户更友好(部分 cases 见后文 Cases 展示部分)。

1. 在 Open-VQA 图像测试集上的指标结果如下图 Table 1 所示:

字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA图片

2. 在 Open-VQA 视频测试集上的指标结果如下图 Table 2 所示。

字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA图片

3. 选取 Open-VQA 中得分排名靠前的模型进行 OwlEval 测评集上的人工效果评估,其结果如上图 Figure 4 所示。从人工评价结果可以看出 Lynx 模型具有最佳的语言生成性能。

字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA图片

4. 在 Mme benchmark 测试中,Perception 类任务获得最好的表现,其中 14 类子任务中有 7 个表现最优。(详细结果见论文附录)

Cases 展示

Open-VQA 图片 cases

字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA

OwlEval cases

字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA

Open-VQA 视频 case

字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA

总结

在本文中,作者通过对二十多种多模态 LLMs 变种的实验,确定了以 prefix-finetuning 为主要结构的 Lynx 模型并给出开放式答案的 Open-VQA 测评方案。实验结果显示 Lynx 模型表现最准确的多模态理解准确度的同时,保持了最佳的多模态生成能力。

以上就是字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA的详细内容,更多请关注其它相关文章!


# 开源  # llama  # fig  # 多模  # 榜单  # 所示  # 提出了  # 中国科学院  # 模型  # 丰田  # 灵武农产品网站推广电话  # 宁德seo推广运营  # 现在做seo好做吗  # 淄博供应网站优化服务商  # 网站营销推广简历工作  # 营销与推广方式有哪些  # seo推广网站收费多少  # 福建网站推广找哪家好  # 进行了  # 这是  # 高质量  # 昆明专业seo如何优化  # 手把手教你优化网站营销 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 揭晓2025年玻尔兹曼奖:Hopfield网络创始人荣获奖项  Valve Index VR 头显销量下滑,上市四年的长青树渐失光彩  AI生成会议纪要 百度如流升级推出超级助手、智能编码等功能  AI 作画工具 Midjourney 推出“pan”功能,可平移扩展图片外场景  出门问问亮相2025世界人工智能大会,展示AI CoPilot解决方案  月薪6万,哪些AI岗位在抢人?  探索人工智能和物联网的动态融合  马斯克嘲讽人工智能:机器学习本质就是统计学  微软bing聊天推出AI购物工具 可进行比价并查看历史最低价  创作音乐/音频的Meta开源AI工具AudioCraft,让用户通过文本提示实现  人工智能:解决劳动力短缺的关键策略  吴恩达、Hinton最新对话!AI不是随机鹦鹉,共识胜过一切,LeCun双手赞成  人工智能产业竞跑“未来赛道” 创新发展放大“赋能”效应  元宇宙技术带你穿梭“大运河”,江苏书展上的数字阅读馆吸睛小读者  国内首款大尺寸仿鸵双足机器人“大圣”亮相,穿戴红色战袍  京东 AI 大模型官宣 7 月 13 日发布,还有重磅合作  Meta 为打造元宇宙不惜下血本:VR 开发者年薪高达百万美元  美图公司:Wink国内首发AI画面拓展功能  AYANEO AIR 1S 掌机发布:R7 7840U,预订价 4699 元起  国网辉南供电:无人机空中巡检 全力护航端午佳节  马斯克:将来机器人比人类多!特斯拉机器人亮相人工智能大会  参考封面|人工智能“淘金热”  边喷火边跳踢踏舞,机器狗最新技能爆火全网!网友直呼真·热狗  2025 世界人工智能大会闭幕,32 个重大产业签约总额达 288 亿元  360发布数字安全和人工智能的强大结合:360安全大模型  Zoom远程会议应用:AI培训需经用户授权  Ai智能机器人,chat-免注册登入,直接使用新版gpt4.0!  微软为 AI 初学者推出免费网课:为期 12 周,共 24 节课  优化J*a与MySQL合作:分享批处理操作的技巧  IBM和NASA合作发布可追踪碳排放的开源AI基础模型  看了天美对AI的布局,我感觉它想得是真明白  海南省公安机关警用无人机培训班结业并举行警航比武演练  华为发布大模型时代AI存储新品  研究发现AI聊天机器人ChatGPT不会讲笑话,只会重复25个老梗  网友自制 AI 版《流浪地球 3》预告片,登上 CCTV6  V社谈AI制作游戏被ban:为确保开发者有素材所有权  鸿蒙OS 4将实现AI大模型集成,余承东表示坚持AI辅助而非AI取代  北交大推出国内首个开源交通大模型TransGPT,可免费商用  美图公司吴欣鸿:AI技术重构影像产业  Unity 内测 Safe Voice 服务,利用 AI 自动识别玩家不当聊天内容  彬州市第三届青少年机器人创新大赛成功举办  探展WAIC |万向区块链杜宇:不存在单一技术的iPhone时刻,Web3.0核心将基于AI+区块链+物联网  7/8上海 | 2025世界人工智能大会分论坛:科技与人文-共筑无障碍智能社会  两型无人机完成交付!国家级机动观测业务正式启动  人工智能赋能无人驾驶:商业化进程再提速  「模仿学习」只会套话?解释微调+130亿参数Orca:推理能力打平ChatGPT  再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手  Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的  构建数字文旅新高地!洛阳涧西区开启元宇宙时代  东软成立魔形科技研究院,积极布局大语言模型系统工程战略,迎接AI时代 

 2023-07-17

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.