范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

在字节跳动,造赛博古籍

  "你在字节跳动哪个业务?"
  "古籍数字化 。把《论语》《左传》《道德经》这些古籍变成电子版,让大家都能免费看。"
  没错,除了你熟悉的那些 App,字节跳动还在做一些小众而特别的事情,古籍数字化就是其中之一。
  在字节跳动与北京大学的合作之下,识典古籍官网已经上线了 685 部古籍,包括双方参与设计与研发的《永乐大典》高清影像数据库,你可以登录官网或者在今日头条古籍频道看到它们。
  可不要以为古籍数字化只是扫描一个电子版放网上,它对技术能力要求很高,比如:
  1.古籍的排版并非从左到右、行行清晰,这样的文本,怎么提取出来?
  2.茴香豆的「茴」有四种写法,我怎么知道用户要的是哪一种?
  3.我的文言文只有高中语文水平,要怎么做人名、地名等命名实体识别?
  我们找字节跳动的程序员们聊了聊,发现了一些有趣的解决方案。来看看他们在做的究竟是怎样的工作吧。
  Q1:你为什么会对古籍感兴趣?
  我最早做的是直播业务,后来发现古籍项目缺少服务端研发,我就过来了。
  巧的是,我的女朋友是中文系毕业的,学过一些古籍研究的课程。她的同学们做研究的时候经常抱怨没有好的古籍阅读平台,所以当她得知我要做古籍项目的时候还挺开心的。
  后来上线之后也发现,这个产品确实可以帮到很多学生和古籍研究人员。
  Q2:这么说你之前是门外汉,那要怎么搞懂古籍呢?
  这个项目是跟北大合作的,所以北大的老师会给我们讲古籍相关的知识。
  别人开会讨论 GMV、研究 DAU;我们开会张口《永乐大典》,闭口《孙子兵法》。虽然都是研发,但画风完全不一样。
  而且让我非常惊讶的是,北大的老师虽然是研究古籍的,但是很懂计算机,甚至还会写 Python 来进行一些数据处理。
  Q3:古籍数字化这个工作难在哪?
  作为古籍数字化业务的研发,我们业务的复杂度很高。比如古籍的格式里,大字是正文,小字是注解,单独一列的大字是标题,比现代人写的文章复杂多了:
  因此,为了把这些复杂的结构区分开,我们定义了一套古籍的元数据协议。
  最特殊的是,古籍里有一些字是现代汉语里没有的——它不是繁体字或者异体字。比如你看《永乐大典卷之三千五百十八【九真】》的开头:
  右侧这些类似「门」字,或者像横折钩笔画一样的字,现代汉语字库里压根没有,我们就用图片的形式嵌入到文本中:
  这样你就会看到,文本中不仅有正常的字,还有第二行黄色的「注朝门」三个字的注解,还有那些黄底的图片,我们以 Unicode 特殊字符的形式存储下来。
  这样,我们就把一页一页的古籍变成了结构化的数据,可以满足行业通用的 TEI(Text Encoding Initiative)元数据标准,能区分章节、标题、内文,方便搜索、翻看,而且还能进一步编辑整理。
  现在,借助飞书文档提供的 SDK,我们已经为合作方北大的专家学者们提供了古籍整理平台,便于精校现有古籍、增加新的书目。
  Q1:OCR 是怎么识别出文字的?
  我们一般先通过深度学习中的目标检测技术,通过计算机视觉确定图片中的主体在哪里,找到文字的位置。
  然后再识别文字的内容。
  这就类似于一个分类问题,算法自动判断这是一个什么字。
  Q2:这么说它是很成熟的技术了?在古籍场景上会有什么难点吗?
  古籍要复杂一些。
  一般的现代印刷体,我们只要找到一行一行的文字,就可以识别了。但古籍不同,虽然大部分古籍都是竖着读的,但也有横着读的,所以识别出每个字之后,要推理出它的阅读顺序。
  你看,大部分情况下每个字旁边,上、下、左、右、左上、左下、右上、右下一圈一共有 8 个字。
  但识别出来之后,计算机只能知道某个特定位置上是某个字,并不知道这些零散的字的阅读顺序,它不知道应该以怎样的顺序将这些单个字符排列成一段文本。
  因此,每当找到一个字,就需要把它和周围的 8 个左右的字分别连接在一起。
  算法根据语料自动判断每一组连接是否符合阅读顺序,符合便是 1,不符合便是 0,这样,就可以推导出识别出的文字的阅读顺序(下图红色箭头)。
  这样才可以找出阅读顺序,把它变为数字化的文本。
  上面那些保存完好的规整印刷古籍要容易一些,还有一些非常困难的,比如下面的佛经:
  它是手写体而非整整齐齐的印刷体,排版也比较随意,关键还有很多褶皱和残缺,保存状况并不好,亟待整理。
  面对这样的古籍,模型可能没见过此类特殊排版。我们的方法是: 如果某种版式很常见、需要用到 AI 来自动化,那我们就多用一些数据去训练;实在没有数据,那就还是自己用文字渲染或者 GAN 模型 来生成一些「仿制古籍」去训练 AI。
  Q3:你们需要用到很多 AI 技术,有那么多古籍数据可以让你们去训练 AI 吗?
  会有这个问题。有些生僻字出现的太少,我们找不到真正的古籍,只好让 GAN 模型自己写一个生僻字来当做训练集。
  另一种比较聪明的方式是,如果这个生僻字刚好可以根据偏旁部首拆开,比如「毈」字可以拆成「卵」字和「段」字,那就拆开再识别好啦。
  Q4:除了古籍,字节跳动还有哪些业务场景会用到 OCR?
  很多啊,比如当你在抖音搜索视频的时候,视频里并没有几个字,那搜索引擎是怎么把这些视频找出来的呢?因为我们用 OCR 提取了创作者给视频加的字幕。
  虽然 OCR 是一项历史悠久的技术,但也是需要不断创新的。想要把一种技术产品化,不光要把文字识别出来,还要做信息抽取。视觉信息+语义,变成一类多模态的技术。
  Q1:来讲一讲古籍的 NLP 怎么做吧?
  不管是给古文分词、分段、加标点,还是识别文中的人名、地名、书名、官职名这些实体,都是做序列标注 。文本就是一个序列,首先需要模型自动标注文本中的每一个字,就是给它打标签。
  比如给古文加标点符号。就像人类完成这项工作一样,模型会判断这个字的后面是否要加标点。如果应该加标点,再判断这里应该是逗号、句号还是问号,模型会根据这个字上下文的语义来去做判断。
  识别人名地名则是命名实体识别  ,这是一类典型的 NLP 任务。模型会给每个字两个标签:
  一、判断它是不是人名书名这类实体词之内的文字,并且处于词语的哪个位置?
  二、判断它是人名,还是地名、书名、官职名。
  上面这些过程是整体完成的,主要依赖编码,把文字编码成词嵌入,来计算每个字属于不同标签的概率。
  当然,在古籍上,我们训练编码器就需要用一些标注好的古文作为语料。我们的合作方北大的老师就给了我们很多这方面的资料,通过清洗后获得的数据可以帮助我们训练编码器。
  其实在 NLP 任务中,古文和现代文的差距,就像中文和英文的差距一样大,所以会用到一些跨语言的预训练模型,用古文语料在一个中文预训练模型上再进行训练。而且我们内部还有很多现成的工具,可以帮助我们更便捷的完成 NLP 任务。
  Q2:除了语料库不一样,古文 NLP 还有什么难点么?
  其实这项工作就像教一个模型学会古文,给它数据之后,结合一些工具方法,让模型自己学会给古文分词、加标点、识别里面重要的名词。
  模型学会之后,当然就要让它「写作业」,来判断它到底学会了没有。
  然后问题就来了:我不是学汉语言的,不会给它「批作业」,很判断它到底学得怎么样。
  对我来说,读古文比读英文更难一些,只能靠着中学语文学到的那点文言文知识来判断。如果我拿不准,就去和其他句读工具的结果对比一下,实在不同的话就自己去搜索呗。不得不说,这确实帮我巩固了中学语文。
  Q3:在字节跳动,NLP 技术还会用在哪些场景?
  其实我们做 NLP 的方向很多,除了我在做序列标注,还有同学会研究知识图谱、机器翻译之类的技术。
  具体场景也很多,比如会做广告文案的自动生成,飞书会议中的自动翻译,自动识别电商商品的品牌等,这些场景的准确率也都比较高了。
  我们也在支持火山引擎,用 NLP 技术满足各行各业客户的需求。
  Q1:古籍搜索和其他搜索有什么不同?
  古籍搜索主要和其他搜索有两点不同:
  第一个是分词的不同,我们定制了一个古籍的分词器,用于处理古文中句读的问题;
  第二个是排序的问题,由于古文分段都是由后人手工分段,段落长度参差不齐,长度差别可达到几千倍,对于搜索结果的排序有着许多意料之外的影响。公司内部的搜索中台有很多分词、纠错、返回排序之类的功能,可以直接调用,我们在此之上定制了一些古文的排序策略,对排序结果有一定的优化。
  Q2:用的是哪种分词方式呢?
  分词是前面负责 NLP 的同学用 BERT 模型完成的,训练它的语料库是一个叫「史藏」的数据集,模型学完史藏之后就会给古文分词了。
  但是,我们遇到了一个问题:
  李白有一句诗:"天上白玉京,十二楼五城",当用户搜索这句诗的时候,模型有时候会认为「白玉京」是一个姓「白」名「玉京」的人,把它拆成两个词,有时候会认为「白玉京」是一个词,两种情况搜索结果完全不同,用户可能会找不到这首诗。
  在这种情况下,我们就使用单字切词的方式,把整句诗都拆成一个一个的字,就能保证把这首诗搜出来了。
  Q3:看来古文的语法问题比较难处理,识别单字会更简单?
  也没有那么简单。
  正常你用搜索引擎,显示搜索结果的时候,你搜的词会被高亮或者变个颜色展示出来。但有一天产品验收的时候就给我提了一个问题:搜索结果中的异体字不会被高亮。
  比如,「白」字在古籍中还有两个变体字:
  搜出来正常的「白」字都被高亮了,两种异体字却没有被高亮。这种情况很常见,比如搜老子的《道德经》你会发现这三个字,每个都有很多种写法:
  那我就要去解决这个问题,把每个字的每种写法,不管是繁体字、异体字还是通假字,都归一化,就像你搜索大写「ABC」的时候,小写的「abc」也可以被搜出来一样。
  我们搜罗了很多异体字相关资料,甚至包括北大老师他们自己总结出来的异体字映射表,经过数据清洗之后形成了我们自己的繁简归一化程序。用户输入搜索词的时候,我们统一转化成简体字来搜;呈现结果的时候,再把各种写法都变成高亮。
  我试了一下,这套数据非常齐全,比市面上很多主流繁简转换工具都全。
  Q4:你不是专门做搜索的同学,也不是专门做 NLP 的同学,那你怎么完成这项工作?
  因为公司有其他团队可以合作呀,我找到了公司内部搜索相关的中台团队,他们为我提供了很大的帮助,有什么问题都可以去请教他们。
  为了完成古籍定制化的服务,我也学了很多知识,除了学习搜索中台的帮助文档外,我还买了一本巨厚的《信息检索导论》自学 ,努力去了解分词相关的论文资料。
  之前遇到一个问题,用户搜索的那句话的原文总是排在搜索结果的第二而不是第一,我就一点点的去看返回结果的日志,研究其中每一轮排序的相关细节,想尽各种手段研究明白它的打分权重之后才解决了这个问题。总之,做这个项目的过程中,我学到了很多搜索技术。
  -The End-
  看完上面四位程序员同学的经历,你会发现这些能够帮助更多人学习、重温历史文化的工作有其自身的价值和魅力。
  用先进的技术,修复古老的记忆,这本身就是一件很酷的事儿吧。
  关注「字节跳动技术范儿」
  深入了解字节跳动技术团队
  原来这些技术标准,是字节跳动人参与制定的
  字节跳动DevOps交付流程演进之路

英雄联盟lol台服下载慢,台服官网客户端极速下载教程英雄联盟正在台服等亚服服务器中举行欢迎活动,玩家们进入游戏,完成指定的活动任务,可以获得包括欢迎币在内的各种惊喜奖励,用来兑换丰富的活动奖品。目前有很多玩家都想进入台服参加欢迎活动朱棣为什么敢五征漠北,因为他手握地表最强野战军三大营!明成祖朱棣一生颇有作为,文治武功样样精通,永乐一朝经济繁荣,国力强盛,一番盛世场景。特别是他御驾亲征五征漠北,打得瓦剌鞑靼满地找牙,天子守国门,壮士死社稷,非常解气。他倚仗的就是他俄代表团在联合国警告核大国存发生军事冲突风险俄罗斯代表团在联合国裁军谈判会议上表示,向基辅提供用于攻击顿巴斯地区平民的西式武器增加了核大国之间发生冲突的可能性。外交官警告说,通过供应武器,训练雇佣军,提供情报等方式,他们更深部队火锅原来真是韩国人从美军泔水桶里捞出来的食物这些年,中国一直在输入韩国日本的流行文化,日本已经逐渐式微,韩流却依旧强劲,选秀男人娘化跑男到今天依旧在中国大行其道。原本,在文化上,我们是韩日的老师,如今居然反过来了,让人不禁感浅谈在十四世纪下半叶,赫尔松等级制度之间冲突的原因文史纪奇闻编辑史纪奇闻十四世纪下半叶发生的冲突,在克里米亚山区的领土上,一方面是赫尔松大都会,另一方面是哥达和苏格德斯科,富尔斯基的大都会。他们为拥有克里米亚山区领土上的伊利萨和金中国816核工程,神秘部队消失18年,6万工程兵挖空整座大山在中国重庆某处的山区,隐藏了中国的一个绝密超级工程,这个工程的保密程度高到连当年参与建设的人,也不知道自己到底在修建什么,而且地图上的这个地名,也被抹去了50多年,直到2002年国故乡烟火经济实探五菱神车大本营小车争夺小镇33辆柳州街边一条百余米人行道旁,密集停放着一排小汽车。而这样的场景,在这座城市随处可见。一花(紫荆花)一粉(螺蛳粉)一车(五菱)一江(柳江),是柳州留给外人的四大印象。如今,螺蛳权利使狂飙人变节!权利是通往天堂地狱的阶梯!权利是获取一切财富和享受的阶梯!狂飙中几个重要人物都是为了权利而变节的!先说安欣的师傅曹闯。看之前表现朴实忠于职守,支持安欣的工作,异地抓徐江司机,为安欣开异地信函。后边居然因为多金小妹和黑人男友再次分手后散心!穿比基尼超美,哪像生了两个娃富婆金小妹和黑人男友再次分手了,这对还真是分分合合好几次了,两人在第一次复合后,有了二胎儿子,而金小妹的二胎儿子现在才11个月大,两人却再次分手了。当地时间周二,金小妹独自到海边度两个超级大国先后败北,美苏为何难以击败阿富汗?苏联和美国,能打败强大的德军,为什么却难以击败阿富汗?人类历史上爆发过数不清的战争,要说伤亡人数最多破坏力最强的战争,当属上世纪三四十年代发生的几乎波及全球的第二次世界大战。二战的阿里员工抱怨,来了两个拼多多员工,比我们还能卷能让阿里员工感到不爽的,也就拼多多啦!曾经有一个互联网行业资深HR总结了各个大厂的卷值(100分制)。平均卷度字节96分拼多多93美团90阿里腾讯85京东80百度75小破公司55外
浙江投资大佬买下半个互联网,坐拥4万亿朋友圈红杉中国创始人及执行合伙人沈南鹏作者沈南鹏来源邱处机他,连续三年被评为福布斯全球最佳创投人,是全球首位获此桂冠的华人投资家。他,用17年买下中国互联网半壁江山,坐拥价值4万亿的朋友春风绿两岸繁花漫江岛紫荆花入画,远处的梅菉水闸若隐若现。黄花风铃木绽放。紫荆花在枝头开放。盛放的黄花风铃木。火焰树上点缀了朵朵红花。高大的木棉树立于路旁。粉嫩嫩的小花盛开于枝丫间。午后的阳光透过树叶间曲靖兵,出发啦!热血逐梦,青春许国!全市各地举行欢送新兵活动,新兵着戎装佩绶带戴红花,带着家乡人民的殷切期望,启程奔赴军营。看!他们来了宣威市3月16日上午,带着从军报国的理想,带着亲人的嘱托,带陈叔慎之死,南陈最后的绝响与挽歌说起南北朝时期的南陈,人们很自然就会联想到那位亡囯之君陈叔宝,并将南陈的灭亡归咎于他的贪图享乐昏庸无能。其实,在南陈的皇室之中,并不缺乏有血性之人,比如年轻的洛阳王陈叔慎。在国家危象牙女王杨凤兰在上世纪60年代,家境优渥的杨凤兰从北京下乡插队,她一点也不喜欢这里贫苦的生活,心心念念能够重新回到城市。1964年,依靠家庭背景,颇有门路的她,真的被安排回城,并在北京外国语学院烽火戏诸侯,周幽王拿江山开玩笑,最终失了江山丢了命!历史上唯一一个成功把自己玩死的皇帝周幽王。公元前781年,周宣王身死,周幽王即位,整日不理朝事,是一个典型的昏君,只知道吃喝玩乐,这也为他的亡国埋下了伏笔。周幽王继位的第二年,泾渭1959年,官大罪大的战犯先特赦?其中有什么关系引言1959年12月4号上午,在功德林监狱里面的一座小礼堂里,宣布了首批特赦名单,这次被特赦的人只有十个。这次特赦在功德林里面掀起了很大的波澜,一来是人数太少,二来是这十个人当中,古巴人的由来古巴,全称古巴共和国,西印度群岛岛国,由一个大岛和许多小岛组成。在被西班牙人征服前,这里估计有11。2万印第安人,而后则几乎灭绝。现有人口约13为穆拉托人(黑人与西班牙人混血种的后北周八柱国十二将军(三)后世对西魏北周最深刻的印象,除了武帝灭佛,当属八柱国和十二大将军。自宇文泰于大统元年被授为柱国以后,柱国大将军便开始成为西魏军方的代表名称。事实上,八柱国十二大将军是西魏军的高层领1971年,一美国华裔老太对外称钓鱼岛是她家的,还拿出了慈禧手谕在阅读此文之前,麻烦您点击一下关注,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持1972年美国从琉球群岛上撤离,在撤离之后美国方面不仅将琉球群岛的行政管辖权给了灯都古镇靠什么吸引全球目光?这场招商大会告诉您3月17日,第28届中国古镇国际灯饰博览会(以下简称古镇灯博会)开幕前一晚,古镇利和威斯汀酒店内,一场高规格的中山市全球招商推介大会灯饰照明产业专场在此展开。国内外知名企业家灯饰照