范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

我裂开了人类脑海中的画面,被AI解码了?

  大数据文摘授权转载自夕小瑶的卖萌屋 作者:白鹡鸰
  有没有那么几个瞬间,你要么想把自己脑子里的东西掏出来给别人看,要么想撬开别人的脑子看看里面都装了什么?虽然错过了霍格沃茨的入学时间,但如果从现在开始学习扩散模型和神经学,可能很快你就能实现这个目标了。新加坡国立大学,香港中文大学,和Stanford联手,基于扩散模型实现了从脑电波还原图像的"人类视觉解码器"。效果奇佳,还开源了代码和数据,这还不来一起看看?
  ▲图1 基于脑电波还原的图像与真实图像对比
  论文题目:
  Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding
  论文链接:
  http://arxiv.org/abs/2211.06956
  代码链接:
  https://github.com/zjc062/mind-vis
  背景
  故事要从神经科学的基本理论说起。作为一个唯物主义的麻瓜,我必须相信,我的思维活动都依托于脑神经细胞,其释放的电信号就是大脑内部通信计算的物理媒介。既然我能够流畅地思考,那么脑电波必然传递了某种"有意义"的信号,而一段数据如果能携带某种信息,它必须要有一定规律可言。因此,从理论上来说,我们可以通过分析进行思维活动时产生的生物电信号,去反推思考的具体内容。这个观点已然不新奇了,大量的研究已经证实了反推大脑思维的可行性,脑机接口蒸蒸日上的热度,则是一个风向标,指示了相关技术在实际生活应用中的潜力。
  当然,高情商的说法是有潜力,换个朴实一点的说法,那就是目前还存在大量技术瓶颈,研究中障碍重重。就拿通过脑电波还原人脑海中的图像这个任务来说,虽然脑电波是有规律的,这种规律却非常复杂。不仅如此,"每个人的脑回路不一样"也是物理的,也就是说,对同样的刺激(stimuli) ,每个人大脑做出的反馈都会存在差异。这个问题好解决吗?对于ML人来说,太简单了,大数据驱动。然而,联系到实际问题,脑电数据的采集,特别是有标签(脑电产生者思考内容)的脑电数据的采集,却没有特别丰富的数据。缺乏有标签的数据,缺乏处理数据的方法,是目前这个任务上一直难以取的进展的主要原因。
  方法
  基于fMRI收集的脑电数据
  人脑中有 左右的脑细胞,而它们的激活模式是非线性的(一般会用一组复杂的微分方程建模)。为了能观察如此复杂的神经网络的活动,目前广泛采用的是功能性磁共振成像(fMRI,functional magnetic resonance imaging)技术。这项技术不会对被试者造成物理上的伤害,包括外部创口(侵入式)和辐射问题。它的原理是利用磁共振技术,追踪大脑在思维活动时的血氧变化,依据于此成像。基于fMRI技术,研究者采集了大量的,特别是当人类在进行各种复杂的任务时的大脑活动数据。经过分析,研究者们发现人们在处理同样的任务时,大脑中被激活的区域基本相近 [1]。
  作为1991年的Nature封面,fMRI得到了广泛研究,目前采集数据的技术已经相当成熟。但这一块的原理非常复杂,感兴趣的话可以搜索血氧依赖机理,blood-oxygen-level-dependent, BOLD。
  ▲图2 语言(讲故事)任务中大脑被激活区域
  神经科学方面虽然有相当多fMRI的原始数据,但在实际使用时,会遇到这样一些问题:
  fMRI扫描所得到的数据是以三维形式的体素 (voxel)记录的,每个数据点包括了三维坐标,电信号幅度等信息,维度很高。为了避免对体素直接进行运算,一般采用的方法是划兴趣区域 (Region of Interest, ROI),对电信号求时序上的均值,最终获得一列体素,这样的数据在纬度方面和通常处理的图像数据存在相当的差距; 邻近的体素往往电信号幅度相近,fMRI收集的信息中存在一定冗余; 因为人脑的复杂性,每个个体的数据都会存在一定的域偏移。
  ▲图3 fMRI数据的可视化,一列体素,可视化成了一维折线图
  模型结构
  论文将提出的模型命名为MinD-Vis (Sparse Masked Brain Modeling with Double-Conditioned Latent Diffusion Model for Human Vision Decoding), 也算是给对处理fMRI数据的提示了——掩码。由于fMRI数据中存在大量的冗余,即使将相当大一部分的数据进行了遮掩,最后也能重建得大差不离(见图3)。因此,计算时直接加上掩码也不会对模型效果产生太大影响。因为fMRI数据的格式和图像一样,论文采用了新出的Masked Image Modeling [2] 来生成embedding vector。
  编码-解码部分不是很意外地用了ViT。需要注意的是,中间表达采用的稀疏编码,这是为了保证fMRI表征的细节不被破坏。
  以上是Masked Brain Modeling(图4左)部分的工作,然后就是扩散模型部分,如何从经过如此复杂预处理的fMRI数据中,获取文本信息,并基于此生成图像了(图4右)。
  为了能从抽象的表征中获得视觉信息,论文将解码任务化归成了conditional synthesis问题,因此可以使用扩散模型解决。扩散模型的网络包括一个预训练过的UNet模型。生成图像时的限定条件信息基于fMRI数据生成,通过cross-attention head加入UNet。
  conditional synthesis是指限定某些特征后进行数据生成。例如,生成微笑的不同人脸。
  对于一个conditional generative模型而言,生成图像要能在条件限定的特征上尽量稳定,与条件无关的特征上保持多样性。因为人与人的fMRI脑波数据中已经够为多样,在生成图像的时候,需要对UNet进一步约束,强化条件上的限制。
  ▲图4 MinD-Vis结构
  由于模型的结构较为复杂,当前版本的论文中没有进行更为详细的描述,推荐极度好奇的读者直接看开源代码。由于涉及了像Masked Brain Modeling,Diffusion Model这类前沿方法,在没有一定基础的情况下,想彻底吃透方法会需要相当的时间和精力,大家可以量力而行。
  效果
  在大致了解了模型结构之后,还是来到各位最关心的部分,讲讲模型效果。
  由于fMRI的数据主要面向神经科学方向的研究,满足论文任务的数据量不大,模型的训练、验证、测试数据总共来自三个不同的数据集,不同集合的数据域都有所偏移。Human Connectome Project [1] 提供136,000个fMRI数据片段,没有图像,只有fMRI,主要是用来预训练模型的解码部分。Generic Object Decoding Dataset (GOD) [3] 是主要面向fMRI-图像任务的,包含1250张来自200个类别的图像,其中50张被用于测试。Brain, Object, Landscape Dataset (BOLD5000) [4] 则选取了113组fMRI-图像数据对,作为测试。
  由于BOLD5000是第一次用于论文提出的任务,论文没有在这个数据集上与过往工作进行效果对比。在GOD上基于脑波生成的图像,在效果上相比过往研究显然有了显著进步。
  ▲图5 GOD数据集上,MinD-vis与过往方法效果比较
  论文中还有严谨的消融实验,展示了不同的模型部分对图像生成效果的影响。部分图片较为惊悚,此处不进行展示。感兴趣的读者可以参考图6失败集锦中右下角的图片自行评估承受能力。
  ▲图6 MinD-vis翻车集锦
  尾声
  终于又到了白鹡鸰的快乐废话环节。
  关于生成图像翻车现象的猜想
  这未必完全是模型的锅。根据多个生成模型的对比,可以假设被试者在看到图像时,其实脑内会有一些特定的特征被激活,但是因为被试者对图像的理解方式、关注点有所区别,激活的特征组也存在差异。之所以会有这种想法,是因为论文附件中的效果展示中,一般细节越复杂,角度越怪的图像,越容易生成失败,这很有可能就是因为图像难以用简单的特征组描述导致的。
  这篇论文意义重大,影响深远,后续工作可能上Nature
  这篇论文展示的图像生成效果非常好,展示了通过fMRI精确还原人们脑内图像信息的可行性。在拥有了更大量的数据之后,人类是如何记忆图像的更多细节的机理,可以通过生成图像与被试者所见图片之间的对比去推测,然后进一步完善、验证。这是神经科学和机器学习成功结合的典范,一个起步的信号。
  除此之外,论文本身能快速拥抱前沿技术,对SOTA模型的熟练应用,以及开源代码的底气也令我相当敬佩。对于论文后续的相关工作,我也会持续跟进。
  参考文献: [1] David C Van Essen, Stephen M Smith, Deanna M Barch, Timothy EJ Behrens, Essa Yacoub, Kamil Ugurbil, Wu-Minn HCP Consortium, et al. The wu-minn human connectome project: an overview. Neuroimage, 80:62–79, 2013. [2] He, Kaiming, et al. "Masked autoencoders are scalable vision learners." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. [3] Tomoyasu Horikawa and Yukiyasu Kamitani. Generic decoding of seen and imagined objects using hierarchical visual features. Nature communications, 8(1):1–15, 2017. [4] Nadine Chang, John A Pyles, Austin Marcus, Abhinav Gupta, Michael J Tarr, and Elissa M Aminoff. Bold5000, a public fmri dataset while viewing 5000 visual images. Scientific data, 6(1):1–18, 2019.

吃葡萄正当时,带您了解葡萄的营养价值来源烟台日报大小新闻秋季是葡萄上市的时节,也是吃葡萄的最佳时期。葡萄不仅美味可口,而且营养价值很高。成熟的浆果中葡萄含糖量高达810,以葡萄糖为主,易于人体吸收。葡萄中的多种果酸有即将开学孩子用眼多!建议多做5道菜,富含ampampquot叶黄素ampampquot,明目护眼临近九月即将开学,孩子们又要进入高强度的学习状态,用眼过度时刻发生,据2022年数据显示,我国孩子近视人数已达到60,排在世界第二,爱眼护眼预防近视,已成为迫在眉睫的任务。家长们除老话秋喝汤,胜药方,建议秋天多喝这5碗汤,美味营养好入秋后气温下降,降雨减少,秋风凛冽,秋燥也开始随立秋节气兴起,在这个时节特别的容易出现上火的情况,所以立秋之后多喝汤水,对于身体是极为有益的,不但能够补充营养,而且还能够预防秋燥,米饭别直接蒸了,教你特色做法,孩子两天不吃就馋,营养好吃,香米饭别直接蒸了,教你特色做法,孩子两天不吃就馋,营养好吃,香在南方,几乎一天三顿都在吃米饭,做法也简单,就是加点水蒸熟就行了,是不是吃腻了呢?今天我和大家分享2个做法,也是我家孩子雪梨里加一把百合,教你从没吃过的做法,营养又美味,比肉还香三餐美味,四季幸福,大家好!秋天的时候,人们容易上火,这个时候就需要润肺清火的食物了。今天,我来教大家做一个梨汁百合膏,它用雪梨和百合熬制而成,非常适合在秋天食用。舀出一勺子放在杯孩子爱模仿,不分好坏,怎么引导?有3点要注意彤彤今年一岁半了,最近交了一个好朋友,这位好朋友是邻居家的四岁大的小姐姐。他和邻居小姐姐玩时,特别喜欢有样学样。小姐姐在吃东西,他也要吃,小姐姐在地上打滚儿,他也跟着在地上打滚。小多名资深教育专家幼升小踩过的大坑,直接影响孩子各科学习多名资深教育专家幼升小踩过的大坑直接影响孩子各科学习表妹的孩子今年上大班,眼看着要幼升小了,表妹就在群里问说,需不要要开始让孩子学识字。结果作为过来人的表姐,就非常激动地回答说,一最高画质下,整个显卡轻松过200帧?优化程度一直是玩家评价一款游戏的重要标准。和游戏好玩不好玩没关系。就算好玩,游戏优化一点都不好玩,游戏体验还是不好。明显的例子是赛博朋克2077。刚出来的时候,优化简直把玩家逼疯了网游830新规周年记未成年人冒用身份充值难题待解,防沉迷如何实现多方共治?21世纪经济报道记者蔡姝越上海报道编者按2021年8月30日,国家新闻出版署下发关于进一步严格管理切实防止未成年人沉迷网络游戏的通知,将未成年人玩家游戏时间限制在周五周六周日的晚上神剑3初学五招7月底,众多Switch玩家期待的game3(Xenoblade3成功上线!如果你还在犹豫,可以参考博士之前的文章开始Switch独占游戏前需要知道的四个知识点如果你已经开始了冒险冠军皮肤签名引热议,吕布或再添机甲皮肤,第三款SNK传说皮确定原创兔八哥聊游戏王者荣耀KPL联赛首届夏季赛已经圆满落幕,重庆狼队不负众望捧起了奖杯。同时这也是重庆QGhappy改名重庆狼队获得的第一个冠军,不得不说非常有纪念价值。不过夺冠之后
圆明园新识之廓然大公一历史沿革廓然大公又称双鹤斋,位于福海西北岸,此景在圆明园还是皇子赐园时期即已建成,是一处地理位置相对隐蔽的园中园,其前身为深柳读书堂,雍正四年对此景有所增建,并以此作为其在圆明园关天培为国洒热血关天培是清朝的一位爱国将领。关天培的家住在江苏山阳,就是今天江苏省的淮安县。他曾经担任过许多官职,后来当上了广东水师提督。关天培上任以后,立刻来到广州的虎门。这里有10个炮台,可每在权力斗争中,清朝八旗排位顺序有何变化?八旗的雏形来自于明代女真族的射猎小队牛录,牛录是女真族早期的一种临时性组织,在狩猎时,女真族会将每十个人编为一个小组,名为牛录,每个牛录再选出一位首领,首领称为牛录额真,这九名组员朱三太子隐匿60年,3次改姓,75岁被捕,康熙为何食言而肥?在清朝入关以后,各地曾爆发了数起反清复明案件。追问其案的由来,恐怕与清朝的强权统治有关。剃发易服制度使各地汉官奋起反抗,老百姓多有怨言,加上满清对汉人多有歧视政策,这使得清朝自建立王恢之死常人眼里的救命稻草,为什么却成了他最后的催命符?头条创作挑战赛提到王恢,可能很多人并不熟悉,但提到马邑之谋,很多人就会恍然大悟,而大行令王恢就是马邑之谋的谋主。这是汉武帝第一次主动对匈奴人用兵,并且是一次策划周密的歼灭战,如果获当温文尔雅的人掌握权力之后正统十四年(1449年),经过土木堡之战后,朱祁镇从原本高高在上的皇帝突然变成囚犯。朱祁镇的弟弟朱祁钰也在大臣们的压力之下被迫坐上皇位。他和自己的兄长虽然不是同一母亲,但却和自己哥封神中,神仙们为何要推翻商朝,商朝究竟做错了什么?在封神中,共有三股仙界势力欲推翻商朝,他们分别是一,以元始天尊为首的阐教在商周之战中,阐教先后共派出十一位三代弟子前去帮助西周灭纣兴周,除此之外,阐教二代金仙也会在西周遇到困难时,2月15日今天历史名人十五岁的北周开国皇帝宇文觉今日历史大事件北周政权图公元557年2月15日,年仅15岁的宇文觉建立北周,成为一代开国君王。北周(557年581年),北周是南北朝北方主要的政权之一,北周和北齐,南方的南梁(南陈心狠手辣郑武公嫁女杀臣取信胡国,将郑国做大西周末年,各诸侯国纷纷独立。郑国是其中较为强大的一个诸侯国,国君郑武公纳贤取士,将国家治理得十分强盛。然而郑武公见胡国土地肥沃,便一心想要把它变成自己的国土,但若要举兵讨伐,一时攻孙中山独子孙科曾经三次担任广州市长,他在任上都干了些什么?前言1921年1923年和1925年,孙科曾经三次担任广州市长,为广州市的近代化建设作出了不可磨灭的贡献,那么他在任上具体都干了些什么事情呢?初任市长,改革市政图孙科1921年3月号称虎狼之师的秦军为何后来如此脆弱?大家应该都知道,秦始皇统一六国,第一步就是靠秦军消灭六国武装力量,当时的秦帝国出兵总数几乎都在5万人以上,打楚就60多万人,可见当时灭六国的不易,那么为什么他们到了秦朝末期就不行了