范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

本届世界杯冠军是谁?我们用ChatGPT和图数据库一起预测

  图片也是用 OpenAI DALL-E 2 生成,并用 DALL-E 2 Outpainting 扩充的
  本文转载自悦数科技,作者古思为。
  蹭 ChatGPT 热度
  最近因为世界杯正在进行,我受到这篇 Cambridge Intelligence的文章启发(在这篇文章中,作者仅仅利用有限的信息量和条件,借助图算法的方法做出了合理的冠军预测),想到可以试着用图数据库 NebulaGraph 玩玩冠军预测,还能顺道科普一波图库技术和图算法。
  本来想着几个小时撸出来一个方案,但很快被数据集的收集工作劝退了,我是实在懒得去 「FIFA 2022 的维基」抓取所需的数据,索性就搁浅、放了几天。
  同时,另一个热潮是上周五 OpenAI 发布了 ChatGPT 3服务,它可以实现各种语言编码。ChatGPT 可实现的复杂任务设计包括:
  ● 随时帮你实现一段指定需求的代码
  ● 模拟任意一个 prompt 界面:shell、python、virtual machine、甚至你创造的语言
  ● 带入给定的人设,和你聊天
  ● 写诗歌、rap、散文
  ● 找出一段代码的 bug
  ● 解释一段复杂的正则表达式的含义
  ChatGPT 的上下文联想力和理解力到了前所未有的程度,以至于所有接触它的人都在讨论新的工作方式:如何掌握让机器帮助我们完成特定任务。
  所以,当我试过让 ChatGPT 帮我写复杂的图数据库查询语句、解释复杂图查询语句的含义、解释一大段 Bison 代码含义之后,我突然意识到:为什么不让 ChatGPT 帮我写好抓取数据的代码呢?
  抓取世界杯数据
  我真试了下 ChatGPT,结果是:完全可以,而且似乎真的很容易。
  整个实现过程,基本上我像是一个代码考试的面试官,或是一个产品经理,提出我的需求,ChatGPT 给出具体的代码实现。我再试着运行代码,找到代码中不合理的地方,指出来并给出建议,ChatGPT 真的能理解我指出的点,并给出相应的修正,像是:
  让chatGPT写抓取世界杯数据的代码
  这一全过程我就不在这里列出来了,不过我把生成的代码和整个讨论的过程都分享在这里,感兴趣的同学可以去看看。
  最终生成的数据是一个 CSV 文件:
  ● 代码生成的文件 world_cup_squads.csv
  ● 手动修改、分开了生日和年龄的列 world_cup_squads_v0.csv
  上面的数据集包含的信息有:球队、小组、编号、位置、球员名字、生日、年龄、参加国际比赛场次、进球数、服役俱乐部。
  Team,Group,No.,Pos.,Player,DOB,Age,Caps,Goals,Club
  Ecuador,A,1,1GK,Hernán Galíndez,(1987-03-30)30 March 1987,35,12,0,Aucas
  Ecuador,A,2,2DF,Félix Torres,(1997-01-11)11 January 1997,25,17,2,Santos Laguna
  Ecuador,A,3,2DF,Piero Hincapié,(2002-01-09)9 January 2002,20,21,1,Bayer Leverkusen
  Ecuador,A,4,2DF,Robert Arboleda,(1991-10-22)22 October 1991,31,33,2,São Paulo
  Ecuador,A,5,3MF,José Cifuentes,(1999-03-12)12 March 1999,23,11,0,Los Angeles FC
  这是手动删除了 CSV 表头的数据集 world_cup_squads_no_headers.csv。
  数据集部分截图
  图方法预测 2022 世界杯图建模
  本文用到了图数据库 NebulaGraph 和可视化图探索工具 NebulaGraph Explorer,你可以在阿里云免费申请半个月的试用( 申请使用云端 NebulaGraph)。
  图建模(Graph Modeling)是把真实世界信息以"点–>边"的图形式去抽象与表示。
  这里,我们把在公共领域获得的信息映射成如下的点与边:
  点:
  ● player(球员)
  ● team(球队)
  ● group(小组)
  ● club(俱乐部)
  边:
  ● groupedin(球队属于哪一小组)
  ● belongto(队员属于国家队)
  ● serve(队员在俱乐部服役)
  而队员的年龄、参加国际场次(caps)、进球数(goals)则很自然作为 player 这一类点的属性。
  下图是这个 schema 在 NebulaGraph Studio/Explorer(后边称 Studio/Explorer) 中的截图:
  schema 在 NebulaGraph Studio/Explorer中的截图
  我们点击右上角的保存后,便能创建一个新的图空间,将这个图建模应用到图空间里。
  这里可以参考下 Explore 草图的文档:https://docs.nebula-graph.com.cn/3.3.0/nebula-explorer/db-management/draft/
  导入数据进 NebulaGraph
  有了图建模,我们可以把之前的 CSV 文件(无表头版本)上传到 Studio 或者 Explorer 里,通过点、选关联不同的列到点边中的 vid 和属性:
  来自转载
  完成关联之后,点击导入,就能把整个图导入到 NebulaGraph。成功之后,我们还得到了整个 csv --> Nebula Importer 的关联配置文件:nebula_importer_config_fifa.yml,你可以直接拖拽整个配置,不用自己去配置它了。
  来自转载
  这里可以参考 Explorer 数据导入的文档:https://docs.nebula-graph.com.cn/3.3.0/nebula-explorer/db-management/11.import-data/
  数据导入后,我们可以在 schema 界面查看数据统计。可以看到,有 831 名球员参加了 2022 卡塔尔世界杯,他们服役在 295 个不同的俱乐部:
  来自转载
  这里我们用到了 Explorer 的 schema 创建的文档:https://docs.nebula-graph.com.cn/3.3.0/nebula-explorer/db-management/10.create-schema/#_6
  探索数据查询数据
  下面,我们试着把所有的数据展示出来看看。
  首先,借助 NebulaGraph Explorer,我用拖拽的方式画出了任意类型的点(TAG)和任意类型点(TAG)之间的边。这里,我们知道所有的点都包含在至少一个边里,所以不会漏掉任何孤立的点。
  来自转载
  让 Explorer 它帮我生成查询的语句。这里,它默认返回 100 条数据(LIMIT 100),我们手动改大一些,将 LIMIT 后面的参数改到 10000,并让它在 Console 里执行。
  来自转载
  初步观察数据
  结果渲染出来是这样子,可以看到结果自然而然地变成一簇簇的模式。
  来自转载
  这些外围、形成的簇多是由不怎么知名的足球俱乐部,和不怎么厉害的国家队的球员组成,因为通常这些俱乐部只有一两个球员参加世界杯,而且他们还集中在一个国家队、地区,所以没有和很多其他球员、国家队产生连接。
  来自转载
  图算法辅助分析
  在我点击了 Explorer 中的两个按钮之后,在浏览器里,我们可以看到整个图已经变成:
  来自转载
  这里可以参考 Explorer 的图算法文档:https://docs.nebula-graph.com.cn/3.3.0/nebula-explorer/graph-explorer/graph-algorithm/ 2
  其实,Explorer 这里利用到了两个图算法来分析这里的洞察:
  1. 利用点的出入度,改变它们的显示大小突出重要程度
  2. 利用 Louvain 算法区分点的社区分割
  可以看到红色的大点是鼎鼎大名的巴塞罗那,而它的球员们也被红色标记了。
  预测冠军算法
  为了能充分利用图的魔法(与图上的隐含条件、信息),我的思路是选择一种利用连接进行节点重要程度分析的图算法,找出拥有更高重要性的点,对它们进行全局迭代、排序,从而获得前几名的国家队排名。
  这些方法其实就体现了厉害的球员同时拥有更大的社区、连接度。同时,为了增加强队之间的区分度,我准备把出场率、进球数的信息也考虑进来。
  最终,我的算法是:
  ● 取出所有的 (球员)-服役->(俱乐部) 的关系,过滤其中进球数过少、单场进球过少的球员(以平衡部分弱队的老球员带来的过大影响)
  ● 从过滤后的球员中向外探索,获得国家队
  ● 在以上的子图上运行 Betweenness Centrality 算法,计算节点重要度评分
  算法过程
  首先,我们取出所有进球数超过 10,场均进球超过 0.2 的 (球员)-服役->(俱乐部) 的子图:
  子图截图
  为了方便,我把进球数和出场数也作为了 serve 边上的属性了。
  来自转载
  然后,我们全选图上的所有点,点击左边的工具栏,选择出方向的 belongto 边,向外进行图拓展(遍历),同时选择将拓展得到的新点标记为旗帜的 icon:
  来自转载
  现在,我们获得了最终的子图,我们利用工具栏里的浏览器内的图算法功能,执行 BNC(Betweenness Centrality)
  来自转载
  最后,这个子图变成了这样子:
  来自转载
  预测结果
  最终,我们根据 Betweenness Centrality 的值排序,可以得到最终的获胜球队应该是:巴西 !
  其次是比利时、德国、英格兰、法国、阿根廷,让我们等两个礼拜回来看看预测结果是否准确吧 :D。
  注:排序数据(其中还有非参赛球队的点)
  预测结果
  原文地址:https://discuss.nebula-graph.com.cn/t/topic/11584

襄城文商农旅融合发展论坛成功举办湖北日报客户端讯(记者魏婧茹李紫璇欧阳纯朴)100余件文创农特产品推介展示,专家现场分享研究成果,企业踊跃上台交流经验2月10日下午,襄城文商农旅融合发展论坛成功举办,吸引了辖区7谁把本来有解的北方四岛问题搞成无解?原创不易,请多支持。相关视频日本人讨岛一根筋,先还你俩岛为什么不要?为了讨回所谓的北方四岛,七十多年来日本人可谓煞费苦心,可结果怎样?至少现在也看不到解决这个问题的迹象。其实,当年罗马为什么要征服耶路撒冷和犹太人?为了荣耀权力和财富。因为罗马的命运就是征服!因为他们可以!以色列成为亚历山大大帝帝国的一部分,然后成为亚历山大的两个继承王朝塞琉古王朝和托勒密王朝之间的战场。塞琉古人赢了,但不久他三位撤离女人的命运1949年国民党败退台湾,早早就开始经营退路的蒋介石,不仅顺势带走了大量金银,还专门立了一份撤离人员的名单。这份名单上有民国上将有文化大师,甚至还有几位高官太太,成分颇为复杂让人迷两场希波战争的爆发,雅典和斯巴达反目成仇,谁才是古希腊霸主?在阅读此文前,诚邀您点击一下关注,既方便您进行讨论与分享,又给您带来不一样的参与感,感谢您的支持。不少历史学家在研究西方国家的文明发展历史时,都有着一个公认的观点,那就是古希腊文明广东河源1962年曾发生过6。1级地震,烈度为度,震源深度5千米2月11日10时41分在广东省河源市源城区发生4。3级地震,震源深度11公里。广东河源市区震感强烈,暂未接到人员伤亡和财产损失情况报告。地震发生后,省地震局迅速启动IV级地震应急响清朝正黄旗人都有通天纹,通天纹是什么,为何古籍说通天纹开不得在2021年5月,一个视频轰动了全网。在该视频中,时年63岁的闻某珍自诩为满洲正黄旗人,有通天纹,生来高人一等。网友们在气愤的同时,也不由得心生了几分好奇,这通天纹到底是什么?他为武则天跟了太宗11年未有子嗣,为何嫁李治一年就生子?还连生六个武则天起初是唐太宗的后妃,入宫十一载,都没能为皇家延续血脉。所以,在太宗驾崩之后,她就去了佛寺清修。但是在离宫之前,她勾搭上了太子李治。公元649年,李治继承了帝位,而他也将武则天陶鲁即便祖坟被挖,故居被烧,族人被害,也要坚决打击贼寇头条创作挑战赛陶鲁是明朝中期的一名官员,他的父亲是正统年间的浙江副使,在抵御陶得二所领导的农民起义军时力战而死。朝廷感念其牺牲,便将其儿子陶鲁授予了一个八品的新会丞。当时,广西一带宋朝的刑官只负责查案吗?它在历史上的作用远不止于此刑狱司是宋代设立的司法监察机构,又称刑司刑台或刑狱司。转运司转运司提运司昌平司构成宋代路级地方管理机构。宋代狱吏是干什么的?有什么影响?开端宋代初年,在刑狱制度未建立之前,路级转运春秋五霸郑庄公射落了周天子的大权郑庄公郑庄公名寤生郑武公之子,其母武姜,生庄公时难产遂起名寤生。郑庄公母亲因生庄公时难产,而不怎么喜爱这个儿子。等到武姜的小儿子共叔段出生时,武姜就十分偏爱共叔段。并怂恿郑武公把君
雄鹿周观察无字雄鹿冲出迷雾雄鹿本赛季一直饱受伤病侵袭,米德尔顿至今只打了7场比赛,且状态低迷。三成出头的手感,场均只能贡献11。1分。由字母哥霍勒迪和米德尔顿组成的雄鹿三叉戟,在本赛季还远没有发挥出他们应有西部排名榜掘金灰熊争第一,4队并列第7,雷霆4胜东部队有望出线20222023赛季NBA常规赛正在紧张激烈的进行中,1月20日比赛结束后,西部排名榜再次悬念迭起掘金和灰熊屡屡同胜,榜首争夺战持续白热化4支球队胜场差相同,并列第7名,卫冕冠军亦企业服务云随着国家智慧能源互联网战略的实施推进,对于供能侧用能侧的能源综合管理效率要求会越来越高,用户使用能源成本要求会越来越低,如何使得各级能源实现降本增效,需要从源网荷储水电热气等多个维永春堂2。0直销模式怎么样?双分红机制能长久吗?01hr颠覆的制度优势1奖金来自于公司新增营业额,平台足够安全2有销毁机制,能确保不做市场的消费者有可观的消费分红。3门槛低1300元起,不烧伤。4投资就拿到等额产品,是消费也是投成都房价2022年涨疯了,一年上涨9,碾压北京上海深圳等城市成都楼市的2022年结束了,在这一年里面,成都不管是新房房价,还是二手房房价,在统计局那边的数据,显示全部都是上涨的。在12月里面,成都的新房房价环比上涨了0。5,同比上涨了9,二常德高新区科技企业孵化器2022年度孵化成果回顾岁月不居,功不唐捐,常德高新区科技企业孵化器2022年先后获批为湖南省侨联新侨创新创业基地常德市级创业孵化基地。同时孵化器在孵企业也实现了良好的发展,22家企业新申请知识产权67项品牌榜河北发布2022服务业企业100强服务业创新领先企业50强名单1月17日,河北省发展改革委与省企业联合会联合召开新闻发布会,发布了2022河北服务业企业100强和服务业创新领先企业50强名单。此次评选由河北省发展改革委与省企业联合会联合开展,中学校门口手机店做黑心生意,连环中毒模式彻底毁掉孩子一生学校附近是个好地方,在旁边做啥生意都火爆。80年代,书店出租小说,生意很红火。还有录像厅,与书店一样,喜欢做黄颜色的勾当。90年代,游戏机厅总是开在离学校不远的地方。踏入21世纪,上海女生真不愧是配色高手,不管是一身黑还是一身花,都能穿高级女生在穿衣配色方面,需要注意的问题有很多。一身黑虽然极简干练,但穿不好容易显得单调老气一身花回头率高,搭配不当也会看起来艳俗土气。而真正懂穿衣打扮的人,一定懂得拿捏配色关系,即便是特斯拉举起屠刀电池企业已经悄悄行动车企之间的价格战,将进一步倒逼电池企业开发更有竞争力的电池材料体系。自2022年以来,包括宁德时代蜂巢能源亿纬锂能国轩高科欣旺达等主流电池企业,陆续推出M3P高锰铁镍磷酸锰铁锂钠电中国人口经济模式必须从中国制造转向中国设计专家表示,中国人口下降并不一定会导致经济衰退,但必须采取更多措施来应对该国不断下降的出生率,并利用不断变化的人口结构。周二公布的政府数据证实,2022年中国人口减少85万人,至14