deepmind的ai智能体,又来卷自己了!
注意看,这个名叫BBF的家伙,只用2个小时,就掌握了26款雅达利游戏,效率和人类相当,超越了自己一众前辈。
要知道,AI智能体通过强化学习解决问题的效果一直都不错,但最大的问题就在于这种方式效率很低,需要很长时间摸索。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
图片
而BBF带来的突破正是在效率方面。
怪不得它的全名可以叫Bigger、Better、Faster。
而且它还能只在单卡上完成训练,算力要求也降低许多。
BBF由谷歌DeepMind和蒙特利尔大学共同提出,目前数据和代码均已开源。
用于评价BBF游戏表现的数值,叫做IQM。
IQM是多方面游戏表现的综合得分,本文中的IQM成绩以人类为基准进行了归一化处理。
经与多个前人成果相比较,BBF在包含26款雅达利游戏的Atari 100K测试数据集中取得了最高的IQM成绩。
并且,在训练过的26款游戏中,BBF的成绩已经超过了人类。
与表现相似的Eff.Zero相比,BBF消耗的GPU时间缩短了将近一半。
而消耗GPU时间相似的SPR和SR-SPR,性能又和BBF差了一大截。
图片
而在反复进行的测试中,BBF达到某一IQM分数的比例始终保持着较高水平。
甚至有超过总测试次数1/8的运行当中取得了5倍于人类的成绩。
图片
即使加上其他没有训练过的雅达利游戏,BBF也能取得超过人类一半的分数IQM分数。
而如果单独看未训练的这29款游戏,BBF的得分是人类的四至五成。
图片
推动BBF研究的问题是,如何在样本量稀少的情况下扩展深度强化学习网络。
ChatGPT Writer
免费 Chrome 扩展程序,使用 ChatGPT AI 生成电子邮件和消息。
106
查看详情
为了研究这一问题,DeepMind将目光聚焦在了Atari 100K基准上。
但DeepMind很快发现,单纯增大模型规模并不能提高其表现。
图片
在深度学习模型的设计中,每步更新次数(Replay Ratio,RR)是一项重要参数。
具体到雅达利游戏,RR值越大,模型在游戏中取得的成绩越高。
最终,DeepMind以SR-SPR作为基础引擎,SR-SPR的RR值最高可达16。
而DeepMind经过综合考虑,选择了8作为BBF的RR值。
考虑到部分用户不愿花费RR=8的运算成本,DeepMind同时开发了RR=2版本的BBF
图片
DeepMind对SR-SPR中的多项内容进行修改之后,采用自监管训练得到了BBF,主要包括以下几个方面:
消融实验结果表明,在每步更新次数为2和8的条件下,上述因素对BBF的表现均有不同程度的影响。
图片
其中,硬复位和更新范围的缩小影响最为显著。
图片
而对于上面两个图中没有提到的NoisyNet,对模型表现的影响则并不显著。
图片
论文地址:https://arxiv.or
g/abs/2305.19452GitHub项目页:https://github.com/google-research/google-research/tree/master/bigger_better_faster
参考链接:[1]https://www.php.cn/link/69b4fa3be19bdf400df34e41b93636a4
[2]https://www.marktechpost.com/2025/06/12/superhuman-performance-on-the-atari-100k-benchmark-the-power-of-bbf-a-new-value-based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/
— 完 —
以上就是两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏的详细内容,更多请关注其它相关文章!
# 效率
# 速通
# 就能
# 达利
# 两小时
# 开源
# AI
# 甘肃seo培训代理
# 外贸seo黑帽培训
# 网站优化维护多少钱
# 企业网站建设内容域名
# 短视频推广营销拓客话术
# 天津seo优
# 太仓网站建设方案外包
# 营销网站优化选择
# seo心电图
# 广元做推广的网站多少钱
# 上海
# 万个
# 蒙特利尔
# 解决问题
# 谁能
# 更大
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
探索人工智能在物联网领域的影响与改变
Gartner发布中国企业人工智能趋势浪潮3.0
如何对员工进行再培训以充分利用供应链管理中的人工智能创新
上天下海登极,青岛与昇腾AI握手一起探索星辰大海
以计算机视觉技术为基础的库存管理如何改革零售行业
传Meta 2025年推出首款AR眼镜,采用军用级别材料,计划生产1000台
“思享荟”沙龙热议AIGC与元宇宙 复旦大学赵星畅谈深度数字化
笔神作文声讨学而思AI大模型 称用“爬虫”技术盗取数据
清华&中国气象局大模型登Nature:解决世界级难题,「鬼天气」预报时效首次达3小时
成功孵化首个大型模型解决方案的重庆人工智能创新中心
Meta Connect 2025已确定时间为9月27-28,主题涵盖Quest 3与AI技术
Hugging Face发布了基于NASA卫星数据构建的AI地理空间基础模型
苹果AIGC专利:可通过语音指令生成AR/VR虚拟场景
AIGC 风潮刮到游戏产业,巨人网络与阿里云达成“游戏 +AI ”合作
机器人 展才能
人工智能赋能无人驾驶:商业化进程再提速
独家视角:首次展示有人与无人协同打击的7000米高空察打一体无人机
组建团队,字节跳动要造机器人?
OpenAI限制网络爬虫访问以保护数据免被用于AI模型训练
套娃不可取:研究人员证实用AI生成的结果训练AI将导致模型退化
工业机器人及非标自动化设备集成服务提供商
梦想实现!硬核科幻大片VR智能头盔即将问世
普林斯顿大学推出 Infinigen AI 模型,生成真实自然环境 3D 场景
消息称 Meta Quest 将推 VR 游戏订阅:每月 7.99 美元,任选两款
借助ChatGPT快速上手ElasticSearch dsl
特斯拉门店可能启动机器人卖车?也许不是你想的那样
山东机器人编程:Scratch编程基础,认识舞台!~济南机器人编程
上新7款产品,美图继续“蹭”AI
不到2S创作AI图像!Snap发布图像生成器SnapFusion
Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下
OpenAI 已全面开放 GPT-3.5 Turbo、DALL-E 及 Whisper API
AI时代,企业需要什么样的员工?
世界人工智能大会|“AI领航,共筑未来”高端保险论坛成功举办
华为云天筹AI求解器荣获世界人工智能大会最高奖
日本学校探索引入 AI 和无人机:提高安保效率,节省劳动力
微幼科技晨检机器人:幼儿园健康保障的新伙伴
人工智能和你聊天 成本有多高
元宇宙技术带你穿梭“大运河”,江苏书展上的数字阅读馆吸睛小读者
Prompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务
英伟达的AI领域垄断地位:一直无法撼动吗?
生活垃圾智能分类机器人社区展“才能”,征求居民意见
美图影像节演讲实录:191次提及AI,发布7款影像生产力工具
改动一行代码,PyTorch训练三倍提速,这些「高级技术」是关键
陈根:AI工具为游戏软件实时3D内容助力
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
将上下文长度扩展到256k,无限上下文版本的LongLLaMA来了?
食品分销跨国企业Sysco CIDO:我们的增长秘诀是以IT为中心
百亿量化私募:量化投资进入“精耕细作”时代 AI带来行业新变革
云南首例达芬奇机器人微创心脏手术成功开展
江永:精准施训提升通信无人机应急救援能力
2023-07-03
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。