范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

避免信息时代的鸡同鸭讲一文读懂实体对齐技术

  大家都知道,在互联网行业黑话中,拉通、对齐,都是非常常见的用语。表明的都是双方对于同一事物的理解要保持一致,这一点非常重要,因为在实际的工作中,如果双方对于同一事物的理解不一致,就会造成非常多的误解和问题。尤其是在项目规模比较大的时候,对于同一事物的一致理解就尤为重要了。
  而在信息技术中,同样存在着确定不同信息源的数据对齐问题,毕竟描述一件事情的方法有很多种,而同样的一个词可能代表的也是完全不一样的东西。所以,确定双方描述的是同一个实体,将不同来源的知识进行互补融合,从而形成全面、准确、完整的实体描述,就非常重要了。而这里面涉及的工作就是实体对齐(Entity Alignment),也被称为是实体匹配(Entity Matching)。
  实体对齐主要应用在知识图谱和多模态数据检索方向。在前者中,侧重于对于同一个实体的不同描述进行互补统一。在后者中,侧重于不同模态数据描述的同一物体的语义对齐。下面我们来给大家简单介绍一下相关的概念。
  一、对齐同一事物的不同描述
  近年以来,互联网的快速发展,促使各领域都建立了越来越多的包含互补信息的大规模知识图谱(Knowledge Graph)。网络上语义数据的数量不断增加,而各领域之间如何集成来自各方的独立设计且存在于不同知识图谱中的实体,使得大规模知识图谱之间可以高效协调,就显得尤为重要了。
  例如互动百科提到曹操的时候,说他"统一北方",而在维基百科为"统一的东汉帝国核心地区"。显然这两者指的是一件事,而从描述上来说,不仅对于计算机来说,对于很多历史地理知识不太熟悉的人来说,也很难理解这两者描述的是同一件事。
  二、对齐同一名称的不同事物
  大家知道,即使是同一名称,描述的同一事物可能也是千差万别的。例如当年帝吧出征的时候,在脸书上留下了大量诸如沙发、板凳、瓜子、方便面之类的名词,有一些老外还非常尽力地去翻译了过来,然后还在讨论到底是什么意思。为什么要说一件家具之类的。所以这就是同一名称对于不同事物的描述,在这些场景中,不仅要对其进行语义对齐,还需要根据上下文、所在场景,针对其描述进行要素抽取,确定其概率,从而确定其真正想表达的意思。
  这种对于同一名称的不同理解有着很多搞笑的案例。例如中国军方想要把软件质量体系推广下去。就想做一套系统协助完成相关质量体系认证的信息系统。而这一任务就交给了一个老牌单位做。软件质量体系是个什么东西呢,说白了就是一套确定什么级别的软件应该由什么样的软件团队去做的方法。例如说,你把特斯拉的自动驾驶系统交给几个刚毕业的大专生去做,可能就不太合适。而如何区分这个软件团队的能力,对于甲方而言,却是个很难的事情,毕竟一个老牌大所的名头,派来的一堆层层外包下去的新招大专生,大头兵们也分辨不出来他们能力怎么样对吧。所以对于甲方而言,推行这套质量体系,就非常重要。毕竟像健康码这样,看着公司挺大,最后一上线崩了这样,搞不好要背锅的对吧。
  然而那家单位的软件质量体系能力无限接近于0。曾经在疫情初期自己给集团搞了一个健康码结果把一帮子高层领导的身份证号家庭住址等关键信息被人一波拖走,不过好在领导并不知道这个事。
  因此负责这个事的人对此也是表面上压迫员工们积极的996,实际上对整个项目一无所知。于是他看到质量两个字先招了个做质量的,但是这个做质量的做得是流水线上的品控,和软件八杆子打不着。于是在跟着996三个月之后和他们团队中别的正常人一样跑了。然后负责人再加主管副所长又胡折腾了一年多,项目还是黄了。
  所以可见对同一名称进行对齐,是个多么重要的事情。
  三、实体对齐的目标
  实体对齐的主要目标就是判断两个或者多个不同信息来源的实体是否指向真实世界中的同一个对象,如果找到多个实体表征同一个对象,则需要在这些实体之间构建对齐关系,同时对实体包含的信息进行融合和聚集。
  实体过程一般可以分为本体对齐和实例对齐,本体对齐重点关注类、属性和关系,而实例对齐则更加注重真实世界中的具体事物。早期的相关工作主要集中在本体对齐方面,而近几年随着机器学习和深度学习的发展,也逐渐向实例对齐方向发展。
  本体对齐相对于实例对齐而言更加笼统概括,而实例对齐对信息的精细要求更多,也更加复杂。
  通常来讲,实体对齐的基本流程包括数据预处理、分块、记录、负载均衡、结果评估五个模块。
  四、实体对齐中的概念
  实体对齐中常见的基本概念包括以下几种。
  实体对齐(Entity Alignment):目标是在两个不同知识图谱之间,将相同的实体对应起来
  实体解析(Entity Resolution):有时候也叫共指消解(Coherence Resolution),句子中经常会有"他/她/它/这/那"等代词,实体解析负责验证句子中的两个mention是否指向同一个entity,通常是对重复节点的数据删除。
  实体消歧(Entity Disambiguation):目标是找到句子里mention对应到知识库(KB,Knowledge Base. 如Wikipedia)或知识图谱(KB, Knowledge Graph. 如YAGO/DBpedia/Freebase)中的entity。实体消岐可以当做是实体链接任务的一部分,重点在于区分候选实体间的不同,并选出最佳匹配(Gold Entity),因此候选实体经常使用别名表(Alias Table)。
  实体链接(Entity Linking):在实体消岐基础上加一步实体检索(Entity Retrieval)来生成候选实体,便于应对人工Alias Table覆盖不全的问题。此外完整的步骤应该还包括对无对应entity的mention(NIL)进行处理。
  五、常见实体对齐方法
  传统的实体对齐方法大多数集中在文本模态中的句法和结构上,尤其是早期的实体对齐和映射技术主要侧重于计算实体之间标签和字符的距离。常见的方法包括:基于相似性计算的实体对齐方法、基于关系推理的实体对齐方法等。
  对于传统的实体对齐方法来说,实体的各种属性不同,涉及的领域也不同,很难给出统一的相似度计算函数。而离散的属性信息又忽略了多方面隐含的语义信息,使得对齐效果有限。因此,随着机器学习和深度学习的发展,越来越多的新方法被提了出来,例如基于知识表示学习的实体对齐方法、基于联合知识表示学习的多模态实体对齐方法、通用匹配对齐框架等。
  目前,实体对齐任务越来越受到研究者们的关注,但是其中仍然存在着许多问题与不足。随着技术的发展迭代,越来越多的新方法正在不断地涌现。
  喜欢本文的话,欢迎关注活在信息时代 哦:)

重庆武隆仙女山银杏秋色美如画来源中国新闻网一小朋友在银杏树下玩耍。代君君摄金灿灿的银杏叶吸引民众前来玩耍。代君君摄金灿灿的银杏叶吸引民众前来玩耍。代君君摄金灿灿的银杏叶。代君君摄金灿灿的银杏叶。代君君摄金灿灿在四川乐山,有这样一个钓鱼露营的绝佳之地,真的是太巴适啦在乐山有一个钓鱼露营的绝佳之地,它就是我们乐山有名的滟澜洲!滟澜洲地处青衣江大渡河交汇的半岛之上。这里空气清新,环境优美,花草丛生,有不少的钓友喜欢经常来这里野钓!在这里野钓简直就爱美丽推荐打卡点第53个深圳龙岗野餐好去处月季盛开亲子游风已经有了秋天的味道了如果说北方的秋季像是进入了金色的童话世界那么南方的秋季更像是进入了浪漫的春天而龙潭公园的月季也早已迎来它的盛花期广东的秋天是粉红色的异木棉,簕杜鹃,月季,格桑赏景不远行来宝山家门口的宝藏公园瞧桥缓步罗溪公园寻踪清朝古桥罗溪公园位于宝山区罗店镇市一路150号,东靠集贤路南到市一路北至练祁河,总面积为7。4公顷,1990年10月1日正式对外开放。公园按自然式布置,注重植物造景有床不睡睡地板,日本人为什么好这口,当地美女说出其中猫腻随着人们生活水平的不断提高,越来越多的人都喜欢外出旅行,不仅想要感受一下不同城市的风土人情,更想要感受一下不同国家的文化到底有什么样的差异。所以越来越多的人都喜欢外出旅行,也有很多一场青年与乡村的双向奔赴今年,河南八百里伏牛山腹地小县城栾川的一纸乡村运营招募令登上热搜。一批青年大学生纷纷奔赴乡村,以民宿管家旅游主播研学导师剧本杀主持人新型农民等身份,化身绿水青山合伙人,形成了大学生合肥这10个小众旅游景点,你去过几个?合肥旅行找不到答案的时候,就去看看这个世界每个人的生活都是一段旅行在前行中学会选择感悟和欣赏旅行对于大多数人来说只是浅浅的过客,让人忽略了很多繁华背后的文化背景和城市的人文色彩。包成吉思汗葬在哪里?成吉思汗可以说是人类历史上占据土地最多的最富有的国王。他留下了两大谜团。第一个谜团是他是怎么死的?关于他的死因有很多说法,比如从马上摔下来,被闪电击中,被暗杀等等。最可信的一种说法卧薪尝胆一代名臣范蠡范蠡(公元前536年公元前448年),春秋末期越王勾践时将军。字少伯,楚国宛(今河南南阳)人。范蠡是春秋末期卓越的军事家,他殚精竭虑地辅助越王勾践,成就了其霸业。在功成名就之时,他河北省近现代人物,云南省原省长于一川于一川于一川(19171990),原名安吉善,河北省南皮县人,享年73岁。1933年考入济南山东省立第一乡村师范,1934年在校加入中国共产主义青年团。1936年夏考入北平师范大学陆逊家族在东吴灭亡后是什么下场?灭族的真相是什么?晋武帝咸宁六年(公元280年),晋朝灭掉了东吴,自汉末天下三分后,中国再次一统。因为东吴是战败后无条件投降,所以,原本依附于东吴这架大车上的江东豪族们,全部从天上跌倒到地上,原有的
美国通胀见顶押注过于自信?华尔街美联储接连提醒市场勿过度解读美国10月CPI数据回落且低于市场预期,令投资者欢欣雀跃。但一些分析师提示,市场要当心再度犯下预期通胀见顶和美联储政策转向的错误。其实,在美联储理事沃勒(ChrisWaller)1中国斯诺克再创佳绩!颜丙涛成争冠大热门,丁俊晖将上演复仇之战20222023英锦赛资格赛的对决已经全部结束,中国斯诺克军团发挥还算可圈可点,丁俊晖吕昊天徐思周跃龙肖国栋四人突出重围拿到了正赛阶段的入场券。加上以上五位本次英锦赛将有赵心童颜丙0胜9负,净输97分,事实证明不该用3年合同羞辱泰伦卢湖人这些年最怕哪支球队?答案就是泰伦卢执教下的快船,自泰伦卢执教快船以后,湖人9次碰上快船全部输球,总计输了97分,不少网友对此表示这就是湖人羞辱泰伦卢的后果。湖人是如何羞辱泰伦卢拉风!霍华德空降台湾省桃园机场,左拥右抱搂4大空姐,数百球迷接机11月11日消息,11月10日,NBA巨星魔兽霍华德空降中国台湾省的桃园机场,受到了数百名球迷的热情接机,魔兽还享受了最高礼遇,机场为他开辟绿色通道,4名空姐全程陪伴。霍华德日前宣恭喜刘国梁!国乒小将力拼樊振东,23岁黑马110暴击世界冠军北京时间2022年11月11日,全国乒乓球锦标赛进入倒数第2比赛日,女单半决赛,孙铭阳34惜败王艺迪,无缘决赛。比赛的第三局,孙铭阳轰出110,暴击世界冠军王艺迪,让人眼前一亮,可卡塔尔世界杯阿根廷队公布世界杯名单梅西领衔新华社布宜诺斯艾利斯11月11日电阿根廷队11日公布了卡塔尔世界杯的26人大名单,梅西将第五次出征,迪玛利亚奥塔门迪等老将顺利入选,队中只有6人曾经参加过2018年俄罗斯世界杯。潘全锦赛男单牛冠凯将战胜樊振东,林高远会拿下牛冠凯夺冠今天是乒乓球全锦赛最后一个比赛日,同时也迎来了含金量最高的男子单打半决赛和决赛,谁能杀入决赛?谁能男单封王呢?首先让我们看看半决赛的对阵吧一男子单打半决赛第一场比赛时间1240对阵豪取三连胜合砍50,力克鹈鹕,锡安29难敌开拓者常规赛继续进行中,在北京时间11月11日,鹈鹕主场迎战开拓者,伴随着锡安和英格拉姆的相继回归,阵容完整的鹈鹕打算冲击二连胜,欲在主场拿下比赛,最近势头正猛的开拓者同样在冲击连胜,而葡萄牙老帅遭嘲讽,世界杯名单3大争议,6成球迷不满,门德斯躺枪周四,桑托斯公布了葡萄牙国家队26人世界杯名单。然而,这份老的老小的小的名单却引发了巨大的争议,穆蒂尼奥雷纳托桑切斯的落选以及3名为国家队零出场球员进入名单,让这份名单被球迷嘲讽为乌拉圭世界杯大名单苏亚雷斯领衔巴尔韦德努涅斯入选北京时间11月11日,乌拉圭国家队公布了世界杯26人大名单,老将苏亚雷斯领衔,巴尔韦德努涅斯入选。乌拉圭世界杯大名单如下门将穆斯莱拉(加拉塔萨雷)罗切特(乌拉圭民族)索萨(独立竞技韩国队世界杯26人名单孙兴慜带伤入选孙准浩在列中超4旧将入围北京时间11月12日中午,韩国队公布了参加卡塔尔世界杯的26人大名单,头号球星孙兴慜带伤入选,效力于中超山东泰山的外援孙准浩也进入了名单。此外,4名曾在中超效力过的球员也进入了这份