这些年来,Transformer、Large-kernel CNN和MLP这三种视觉主干网络在广泛的计算机视觉任务中取得了巨大的成功,这主要归功于它们在全局范围内高效地融合信息的能力
Transformer、CNN和MLP是当前三种主流的神经网络,它们分别采用不同的方式来实现全局范围的Token融合。在Transformer网络中,自注意力机制利用查询-键对的相关性作为Token融合的权重。CNN通过扩大卷积核的尺寸来实现与Transformer相似的性能。而MLP则通过全连接在所有令牌之间实现另一种强大的范式。尽管这些方法都是有效的,但它们的计算复杂度较高(O(N^2)),难以在存储和计算能力有限的设备上部署,从而限制了很多模型的应用范围
为了解决计算昂贵的问题,研究人员开发了一种名为自适应傅里叶滤波器(Adaptive Fourier Filter,AFF)的高效全局Token融合算法。该算法利用傅里叶变换将Token集合转换到频域,并在频域学习到一个能够自适应内容的滤波掩膜,以对转换到频域空间中的Token集合进行自适应滤波操作
adaptive frequency filters: efficient global token mixers
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
点击此链接可访问原文:https://arxiv.org/abs/2307.14008
网易人工智能
网易数帆多媒体智能生产力平台
233
查看详情
根据频域卷积定理,AFF Token Mixer 的数学等价操作是在原始域中进行的卷积操作,相当于在傅里叶域中进行的Hadamard乘积操作。这意味着AFF Token Mixer 可以通过在原始域中使用一个动态卷积核,其空间分辨率与
Token集合大小相同,来实现内容自适应的全局Token融合(如下图右子图所示)
众所周知,动态卷积的计算成本很高,尤其是在使用大空间分辨率的动态卷积核时,对于高效 / 轻量级网络设计来说,这种成本似乎是难以接受的。然而,本文提出的 AFF Token Mixer 却能够以低功耗的等效实现方式同时满足上述要求,将复杂性从 O (N^2) 降低到 O (N log N),从而显著提高了计算效率

示意图 1:展示了 AFF 模块和 AFFNet 网络的结构
通过将 AFF Token Mixer 作为主要神经网络操作算子,研究人员成功构建了一个称为 AFFNet 的轻量级神经网络。丰富的实验结果表明,AFF Token Mixer 在广泛的视觉任务中取得了卓越的准确性和效率平衡,包括视觉语义识别和密集预测任务
研究人员评估了AFF Token Mixer和AFFNet在视觉语义识别、分割、检测等多个任务上的性能,并与目前研究领域中最先进的轻量级视觉主干网络进行了比较。实验结果显示,该模型设计在广泛的视觉任务中表现出色,证实了AFF Token Mixer作为新一代轻量高效的Token融合算子的潜力

与SOTA相比,图2展示了在ImageNet-1K数据集上的Acc-Param和Acc-FLOPs曲线

对比最先进的方法与ImageNet-1K数据集的结果,见表1

表2显示了视觉检测和分割任务与最先进技术的比较
这项研究证明了隐空间中的频域变换在全局自适应 Token 融合中起到了重要作用,是一种高效且低功耗的等效实现方式。它为神经网络中的 Token 融合算子设计提供了新的研究思路,并为在边缘设备上部署神经网络模型提供了新的发展空间,尤其是在存储和计算能力有限的情况下
以上就是轻量级视觉网络新主干:高效的傅里叶算子Token混合器的详细内容,更多请关注其它相关文章!
# 下半年
# 天津推荐的网站建设特点
# 阳江seo公司报价优惠
# 宁河区综合网站建设对象
# seo排名推广加盟
# 四平seo优化系统
# 淄博网站建设个人
# 鹿泉区个人网站优化资格
# etsy营销推广
# 泰州优化网站
# 罗村容桂网站建设
# 研究
# 开源
# 中国
# 来实现
# 最先进
# 华为
# 门店
# 是在
# 自适应
# 网易
# 计算
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
如布科技发布新产品AI口袋学习机S12
眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷
陈根:AI冥想教练为用户提供个性化指导
如何利用AI工具写好本科论文:科技助你一臂之力
猿编程参加人工智能高峰论坛,推动人工智能教育解决方案在千所学校推行
创新科学家成功研发FAST激光靶标维护机器人
了解 AGI:智能的未来?
AYANEO AIR 1S 掌机发布:R7 7840U,预订价 4699 元起
AI工具助力公司实施每周4.5天工作制,带来巨大效益
研究预测HPC支持的人工智能增长迅速
华为AI大模型将融入HarmonyOS 4
新闻传闻:迪士尼可能采用人工智能来控制电影制作成本
深圳人工智能企业超1900家
深企派遣无人机救援队赴京津冀开展防汛救灾任务
数字文明尼山对话 | 在东方圣城与AI潮流梦幻联动,看“智慧大脑”让数字山东更美好
“聚智启新,‘蓉’力同行” 成都市人工智能产业融通对接会成功举办
衡水市冀州中学机器人社团在世界机器人大赛中斩获佳绩
Nature封面:量子计算机离实际应用还有两年
RoboNeo什么时候上线
Meta Connect 2025已确定时间为9月27-28,主题涵盖Quest 3与AI技术
长宁这家企业在世界人工智能大会上荣获“蓝鼎奖”
全新升级的广州麦当劳:面积最大餐厅正式引入智慧机器人
从医疗康复外骨骼到通用人形机器人,傅利叶智能推动核心技术升级
OpenAI大神Karpathy最新分享:为什么OpenAI内部对AI Agents最感兴趣
ChatGPT 可以设计机器人吗?
MiracleVision视觉大模型
前特斯拉总监、OpenAI大牛Karpathy:我被自动驾驶分了心,AI智能体才是未来!
马斯克称人类是半机器人,记忆外包给了电脑
脑机接口产业联盟发布十大脑机接口关键技术
华为4G5G通信物联网收费标准公布,多年研发成果,十年花费近万亿
数据科学,解码智能未来——Altair首次提出“Frictionless AI”概念
当TS遇上AI,会发生什么?
联想举办2025创新开放日,展出260余项算力及AI产品技术
谷歌将使用公开信息训练 AI 模型,构建更强大的自家产品
DeepMind用AI重写排序算法;将33B大模型塞进单个消费级GPU
英特尔张宇:边缘计算在整个AI生态系统中扮演重要角色
边喷火边跳踢踏舞,机器狗最新技能爆火全网!网友直呼真·热狗
MIT开发“PhotoGuard”技术保护图像免遭恶意AI编辑
猿力科技入选北京市通用人工智能产业创新伙伴计划
中美陷入囚徒困境,人工智能变得不可控?可参考核不扩散条约规范
论文插图也能自动生成了,用到了扩散模型,还被ICLR接收
美踏控股推出创新人工智能大数据模型“心乐舞河”:虚拟人音舞社交的新体验
苹果推出全新沉浸式 AR 体验应用“Deep Field”
Meta发布音频AI模型,仅需2秒片段模拟真人语音
将上下文长度扩展到256k,无限上下文版本的LongLLaMA来了?
官宣!爱康AI未来之夜三大亮点提前剧透!
不止“文心一言”,消息称百度将推出全新 AI 对话软件“万话”
0代码微调大模型火了,只需5步,成本低至150块
广州团建公司方案 | 绝密飞行 → X-PLANE无人机团建主题团建
2025年深圳举办的SUSECON 创新峰会开始接受报名
2023-08-17
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。