你大脑中的画面,现在可以高清还原了


近几年,图像生成领域取得了巨大的进步,尤其是文本到图像生成方面取得了重大突破:只要我们用文本描述自己的想法,AI 就能生成新奇又逼真的图像。

但其实我们可以更进一步 —— 将头脑中的想法转化为文本这一步可以省去,直接通过脑活动(如 EEG(脑电图)记录)来控制图像的生成创作。

这种「思维到图像」的生成方式有着广阔的应用前景。例如,它能极大提高艺术创作的效率,并帮助人们捕捉稍纵即逝的灵感;它也有可能将人们夜晚的梦境进行可视化;它甚至可能用于心理治疗,帮助自闭症儿童和语言障碍患者。

最近,来自清华大学深圳国际研究生院、腾讯 AI Lab 和鹏城实验室的研究者们联合发表了一篇「思维到图像」的研究论文,利用预训练的文本到图像模型(比如 Stable Diffusion)强大的生成能力,直接从脑电图信号生成了高质量的图像。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

你大脑中的画面,现在可以高清还原了图片

论文地址:https://arxiv.org/pdf/2306.16934.pdf

项目地址:https://github.com/bbaaii/DreamDiffusion

Android 应用框架原理与程序设计36技pdf繁体版 Android 应用框架原理与程序设计36技pdf繁体版

Android应用框架原理与程序设计36技 pdf繁体版,书籍内容适用于Android 1.0,有些朋友可能对Android还不太熟悉吧?不知您是否听说过Google 在HTC定制的高端手机呢?其操作系统是基于Android的,如果还是不太清楚的话,可以Google一下“HTC g2”手机,可以大致了解一下手机操作系统的界面及架构特点。不管怎么说,Android手机编程目前还是主要面向高端,在将来可能会普及,因此Android编程还是很有必要掌握的。

Android 应用框架原理与程序设计36技pdf繁体版 0 查看详情 Android 应用框架原理与程序设计36技pdf繁体版

方法概述

近期一些相关研究(例如 MinD-Vis)尝试基于 fMRI(功能性磁共振成像信号)来重建视觉信息。他们已经证明了利用脑活动重建高质量结果的可行性。然而,这些方法与理想中使用脑信号进行快捷、高效的创作还差得太远,这主要有两点原因:

首先,fMRI 设备不便携,并且需要专业人员操作,因此捕捉 fMRI 信号很困难;

其次,fMRI 数据采集的成本较高,这在实际的艺术创作中会很大程度地阻碍该方法的使用。

相比之下,EEG 是一种无创、低成本的脑电活动记录方法,并且现在市面上已经有获得 EEG 信号的便携商用产品。

但实现「思维到图像」的生成还面临两个主要挑战:

1)EEG 信号通过非侵入式的方法来捕捉,因此它本质上是有噪声的。此外,EEG 数据有限,个体差异不容忽视。那么,如何从如此多的约束条件下的脑电信号中获得有效且稳健的语义表征呢?

2)由于使用了 CLIP 并在大量文本 - 图像对上进行训练,Stable Diffusion 中的文本和图像空间对齐良好。然而,EEG 信号具有其自身的特点,其空间与文本和图像大不相同。如何在有限且带有噪声的 EEG - 图像对上对齐 EEG、文本和图像空间?

为了解决第一个挑战,该研究提出,使用大量的 EEG 数据来训练 EEG 表征,而不是仅用罕见的 EEG 图像对。该研究采用掩码信号建模的方法,根据上下文线索预测缺失的 token。

不同于将输入视为二维图像并屏蔽空间信息的 MAE 和 MinD-Vis,该研究考虑了 EEG 信号的时间特性,并深入挖掘人类大脑时序变化背后的语义。该研究随机屏蔽了一部分 token,然后在时间域内重建这些被屏蔽的 token。通过这种方式,预训练的编码器能够对不同个体和不同脑活动的 EEG 数据进行深入理解。

对于第二个挑战,先前的解决方法通常直接对 Stable Diffusion 模型进行微调,使用少量噪声数据对进行训练。然而,仅通过最终的图像重构损失对 SD 进行端到端微调,很难学习到脑信号(例如 EEG 和 fMRI)与文本空间之间的准确对齐。因此,研究团队提出采用额外的 CLIP 监督,帮助实现 EEG、文本和图像空间的对齐。

具体而言,SD 本身使用 CLIP 的文本编码器来生成文本嵌入,这与之前阶段的掩码预训练 EEG 嵌入非常不同。利用 CLIP 的图像编码器提取丰富的图像嵌入,这些嵌入与 CLIP 的文本嵌入很好地对齐。然后,这些 CLIP 图像嵌入被用于进一步优化 EEG 嵌入表征。因此,经过改进的 EEG 特征嵌入可以与 CLIP 的图像和文本嵌入很好地对齐,并更适合于 SD 图像生成,从而提高生成图像的质量。

基于以上两个精心设计的方案,该研究提出了新方法 DreamDiffusion。DreamDiffusion 能够从脑电图(EEG)信号中生成高质量且逼真的图像。

你大脑中的画面,现在可以高清还原了图片

具体来说,DreamDiffusion 主要由三个部分组成:

1)掩码信号预训练,以实现有效和稳健的 EEG 编码器;

2)使用预训练的 Stable Diffusion 和有限的 EEG 图像对进行微调;

3)使用 CLIP 编码器,对齐 EEG、文本和图像空间。

首先,研究人员利用带有大量噪声的 EEG 数据,采用掩码信号建模,训练 EEG 编码器,提取上下文知识。然后,得到的 EEG 编码器通过交叉注意力机制被用来为 Stable Diffusion 提供条件特征。

你大脑中的画面,现在可以高清还原了图片

为了增强 EEG 特征与 Stable Diffusion 的兼容性,研究人员进一步通过在微调过程中减少 EEG 嵌入与 CLIP 图像嵌入之间的距离,进一步对齐了 EEG、文本和图像的嵌入空间。

实验与分析

与 Brain2Image 对比

研究人员将本文方法与 Brain2Image 进行比较。Brain2Image 采用传统的生成模型,即变分自编码器(VAE)和生成对抗网络(GAN),用于实现从 EEG 到图像的转换。然而,Brain2Image 仅提供了少数类别的结果,并没有提供参考实现。

鉴于此,该研究对 Brain2Image 论文中展示的几个类别(即飞机、南瓜灯和熊猫)进行了定性比较。为确保比较公平,研究人员采用了与 Brain2Image 论文中所述相同的评估策略,并在下图 5 中展示了不同方法生成的结果。

下图第一行展示了 Brain2Image 生成的结果,最后一行是研究人员提出的方法 DreamDiffusion 生成的。可以看到 DreamDiffusion 生成的图像质量明显高于 Brain2Image 生成的图像,这也验证了本文方法的有效性。

你大脑中的画面,现在可以高清还原了图片

消融实验

预训练的作用:为了证明大规模 EEG 数据预训练的有效性,该研究使用未经训练的编码器来训练多个模型进行验证。其中一个模型与完整模型相同,而另一个模型只有两层的 EEG 编码层,以避免数据过拟合。在训练过程中,这两个模型分别进行了有 / 无 CLIP 监督的训练,结果如表 1 中 Model 列的 1 到 4 所示。可以看到,没有经过预训练的模型准确性有所降低。

你大脑中的画面,现在可以高清还原了

mask ratio:本文还研究了用 EEG 数据确定 MSM 预训练的最佳掩码比。如表 1 中的 Model 列的 5 到 7 所示,过高或过低的掩码比会对模型性能都会产生不利影响。当掩码比为 0.75 达到最高的整体准确率。这一发现至关重要,因为这表明,与通常使用低掩码比的自然语言处理不同,在对 EEG 进行 MSM 时,高掩码比是一个较好的选择。

CLIP 对齐:该方法的关键之一是通过 CLIP 编码器将 EEG 表征与图像对齐。该研究进行实验验证了这种方法的有效性,结果如表 1 所示。可以观察到,当没有使用 CLIP 监督时,模型的性能明显下降。实际上,如图 6 右下角所示,即使在没有预训练的情况下,使用 CLIP 对齐 EEG 特征仍然可以得到合理的结果,这凸显了 CLIP 监督在该方法中的重要性。

你大脑中的画面,现在可以高清还原了图片

以上就是你大脑中的画面,现在可以高清还原了的详细内容,更多请关注其它相关文章!


# ai  # 浙江电商网站推广多少钱  # seo里填写什么意思  # 刘学超seo  # 淘宝外部网站的推广特点  # 乌苏营销推广运营思路  # 大气网站建设哪家好  # 并在  # 重构  # 不太  # 很好  # 万元  # 高质量  # 所示  # 程序设计  # 掩码  # 脑中  # stable diffusion  # 创意  # 网站建设优化推广采购  # 昆山建设网站的  # 360网站优化论坛  # 新媒体营销推广的特点 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: “直击”AI新世界,智能机器人再次“火出圈”了  张朝阳陆川谈AI:大数据模型大幅提升工作效率,ChatGPT冲击最大的是内容创作领域  华为昇腾AI原生支持30多种基础大模型,包括GPT  “无人驾驶船”将首次亮相世界人工智能大会,下半年或开进上海迪士尼  陈根教授:离人形机器人时代还有10年吗?  0代码微调大模型火了,只需5步,成本低至150块  研究发现AI聊天机器人ChatGPT不会讲笑话,只会重复25个老梗  即将到来:AI婚纱设计软件实际测试,人工智能即将开创婚纱设计新纪元  Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的  人形机器人概念大热!这些产业链标的或受提振  机器人 展才能  WHEE网页地址入口  AI大模型时代,数据存储新基座助推教科研数智化跃迁  当TS遇上AI,会发生什么?  大模型新品出现井喷,AI产业迎来新时代  Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽  售价14.99万起!小米汽车部分信息疑遭AI曝光,内部人士回应:网传图片明显经过处理,不可轻信  13 个提高生产力的 AI 工具  大模型训练成本降低近一半!新加坡国立大学最新优化器已投入使用  美图秀秀“AI 扩图”功能上线,可根据图像生成更大画幅  GPT-4成功战胜AI-Guardian审核系统:谷歌研究团队的人工智能抵抗人工智能  清华&中国气象局大模型登Nature:解决世界级难题,「鬼天气」预报时效首次达3小时  生成式AI爆发,亚马逊云科技持续专注创新,助力企业数字化转型  真全息产品,亮相深圳文博会——dipal数伴拓展元宇宙非沉浸式体验  史玉柱谈AI:国内最缺是计算数学人才,曾给浙大数学系捐五千万  AI连线 | 专访风平智能CEO林洪祥:让AI数字人拥有漂亮的外表和有趣的灵魂,安全问题是重要考量  重磅! 捷通华声灵云AICC荣获第二届光合组织AI解决方案大赛二等奖  赋能选题探索:AI助手在经济学专业中的应用指南  干货满满,2025昆山元宇宙国际装备展等你来打卡!  智能机器人正在彻底改变客户服务  企业软件行业更将被AI全面重构!Moka李国兴:未来优秀组织和个人将一定是善于使用AI生产力的  实测 AI 建筑设计软件的自动生成效果图能力  Nature发AIGC禁令!投稿中视觉内容使用AI的概不接收  掌阅科技申请阅爱聊商标 掌阅科技申请AI相关商标  能走、能飞、能游泳,科学家打造全能 M4 机器人  利用AI技术更好地发展农村电商  特斯拉首发人形机器人“擎天柱”亮相世界人工智能大会  WHEE使用教程  360发布认知型通用大模型“360智脑4.0” 全面接入360全家桶  Gartner预测:到2025年,全球对话式人工智能支出预计将达到1860亿美元  国网辉南供电:无人机空中巡检 全力护航端午佳节  国内通用人形机器人将发布、产业加速突破  XREAL发布新款硬件XREAL Beam投屏盒子:可悬停AR空间屏  复盘MWC上海:AI大模型时代到来 通信网络将会怎样改变?  清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳  2025年的网络分区:人工智能和自动化如何改变事物  给小朋友最好的科技礼物:乐天派桌面机器人  【澎湃原动力】人工智能产业协同创新中心:全产业链资源在这里汇聚  元宇宙迈入2.0时代,它和生成式人工智能有何关联吗?  GPT-4不能在麻省理工学院获得计算机科学学位 

 2023-07-06

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.