范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

大型ESB服务总线平台服务运行分析和监控预警实践

  今天准备谈下ESB总线平台建设项目中的服务运行统计分析,服务心跳监测,服务监控预警方面的设计和实现。可以看到,在一个ESB服务总线平台上线后,SOA治理管控就变得相当重要,而这些运行监控分析本身也是提升ESB总线平台高可用性的关键。
  对于ESB总线本身的高可用性建设,我在前面写过一篇文章可以参考。
  大型集团ESB服务总线平台建设项目高可用性实践总结
  今天主要分享下对于这类大型ESB总线平台建设项目在服务运行统计分析,服务心跳监测,服务监控,服务预警等配合高可用性能力方面的一些实践总结。对接口服务运行统计分析的思考
  对于ESB服务运行监控,从SOA服务管控和治理层面来看,经常会涉及到的KPI性能指标并不多,主要还是体现在运行次数,运行时间等关键的维度,如果考虑到指标本身之间的关联关系方便分析,那么还需要增加服务运行的并发数(分钟级),服务调用的数据量等关键指标。
  举例来说,当我们发现服务调用变慢了,即服务运行时间明显增加了,那么我们需要分析是否是该服务本身的并发量是否增加了,还是说服务本身调用的数据量增加了,还是说其它服务调用的并发量和数据量增加了导致该服务的资源被占用等。这些都是可能需要涉及到关联分析的地方。
  首先我们来看下单次服务运行能够采集和记录的关键数据服务运行时间(服务请求开始 to 服务请求结束)服务运行是否成功(True or False)服务传输的消息报文大小服务名称服务提供的系统,包括服务提供系统归属的组织类别等服务消费方系统正常调用还是非法调用
  接着再来看某个时间周期的情况,比如1个小时,1天,1周或1个月的统计时间周期运行次数,对运行次数进行求和最大分钟级并发数,取并发数的Max值异常数,对异常数按时间点进行求和告警数,对告警数按时间点进行求和服务最大运行时间,最小运行时间,平均运行时间服务消息报文最大报文,最小报文,平均报文容量
  对于时间周期只我们我们统计的一个维度,而对服务进行分析的时候还需要考虑如下维度按服务目录-》按服务按企业-》子公司-》子组织按应用域-》按应用系统-》按模块按服务类型-》服务子类型按服务提供系统,服务消费系统
  经过以上分析,我们看到一个最底层的服务运行日志信息,就有了按时间维度,按组织,服务类型,系统等多个维度进行维度分析和统计的可能。而这些恰好又是我们进行自定义报表和维度分析的基础。所有的统计分析基本都会基于以上基础运行信息展开进行。
  基于以上思考,我们整合了一个面向组织和业务系统的服务运行统计分析报表,可以按系统的维度详细的查看到自己提供和消费的接口服务的运行情况,异常情况,并发量和数据量,异常和告警等各种关键信息。如下参考:
  为了做完整的服务运行和性能分析,我们最好还需要对中间件资源池(应用服务器和数据库服务器)的CPU,内存利用率,存储使用量等关键指标进行实时的性能分析和监控。在实际的性能分析和监控中往往也是首先会从CPU和内存告警上第一时间反应出服务当前运行出现异常(如大并发,超大数据传输等),然后我们在通过实际的日志监控分析功能快速的查看当前服务运行的并发情况,传递的数据量情况等。
  当我们发现如果一个服务经常运行大并发,大数据量的异常调用的时候,则需要对服务单独启用流量控制策略等。比如:对服务传输的数据量及报文大小进行流控。对服务本身的并发量进行流控。对某个服务最大能够使用的资源量进行流控,防止单服务占满所有资源。服务运行指标勾稽关系分析
  服务运行指标相关之间的关联分析是我们进行服务运行问题排查,异常告警问题根源分析的基础。在前面谈SOA治理管控平台中,我们曾经画过一个图来说明,服务运行过程中的基础物理资源,数据库和应用服务器中间件资源,服务运行KPI和SLA设置之间的关联关系,如下:
  基于上图,我们进一步做下扩展分析,先做下基本的关联关系判别:
  JVM内存持续增加不释放,一个是服务并发量增加同时服务调用时间增长,其次是出现大数据量,长执行时间的服务调用,导致服务连接和内存无法快速回收。CPU使用率高升,但是内存利用率一般,一般为出现大并发量的服务调用,其次对于服务调用过程中有过多的数据映射,转换等处理导致CPU利用率增加。
  服务调用运行时间长,首先要分析是否是原始服务本身调用时间就变长,如果不是,则一般是在ESB服务调用上出现大量长周期服务调用,但是连接不能快速是否,线程池满一直排队的情况。
  如果JVM内存溢出,首先要通过Jstat工具监控下内存GC回收的情况,究竟是新时代,老生代,还是PermSize出现溢出。如果是PermSize需要进一步分析是否是程序本身有问题。
  如果没有做流量控制,单个服务本身的大并发,大数据量调用往往会侵占所有资源,对整个ESB上其它运行的服务都造成性能影响。
  对于ESB总线本身的等待线程数增加一定会涉及到内存持续增加,涉及到服务调用响应周期增加。如果是服务调用超时,则需要分析具体是在哪段引起的超时,是原始服务本身超时,还是在ESB中间件上进行服务处理的时候超时。
  对于服务告警和预警,前面也讲到过,再强调下具体场景包括服务单位时间运行次数明显增加,我们可以设置一个阈值,只要超过了就进行报警。服务运行时间明显增加,我们可以设置一个阈值,只要超过了就进行报警。服务单位时间数据量明显增加,我们可以设置一个阈值,只要超过了就进行报警。
  注意对于服务告警策略可以是针对所有服务,也可以是针对某个具体的服务,对于阈值可以是一个百分比数,也可以是一个绝对值。接下来我们再看下服务运行各个指标本身之间的一些关联关系:服务传递数据量大,一定带来内存增加服务运行时长增加,同时更加容易引起服务调用超时。服务调用并发量增加,服务调用时长一般也会增加,如果时长增加明显,则一定导致内存持续增加。单个服务本身的并发量增加,会引起ESB上线程排队增加,导致直接影响到其它服务调用性能。单个服务调用本身的数据量增加,容易引起JVM内存持续增加,导致JVM内存溢出。如果是后端服务本身性能下降,最明显的就是占有连接,资源不释放,导致ESB本身性能下降。
  而对于整个ESB中间件的性能监控和分析,从最底层的IT基础设施,存储和服务器,到ESB中间件资源池,再到具体运行的服务运行包,相互之间存在密切的关联,需要达到的效果往往是第一时间反馈出预警。并且通过预警去采取后续的行动措施和SLA策略设置等。
  1. 从资源池监控发现的CPU和内存异常第一时间找到非法调用服务?
  如果有CPU和内存利用率出现异常,同时某个服务或某几个服务出现运行性能告警,那么我们就有了分析的依据究竟是哪个服务导致的。并快速定位到具体的服务。在定位到具体的服务后,可以再详细查看服务调用的并发数,数据量等信息,然后有针对性的对服务展开流量控制策略。
  2. 如果JVM内存持续上升而没有释放,如何快速定位到服务?
  这个也是经常遇到的问题,当JVM内存持续增加,或者连接数不断的增加而不释放的时候,如果我们不进行及时的处理往往就导致整个JVM内存溢出而影响到所有ESB服务的运行。因此在这种场景下我们需要尽快的发现导致问题的服务,并对服务采取相应的措施。
  3. 从服务运行告警到自动熔断
  为了不因为一个具体服务的异常非法调用而影响到所有服务的运行,对于单个服务在出现持续性的告警后,应该有策略直接对该服务进行熔断处理。比如直接对服务进行禁用处理。增加实时的心跳检查
  在前面部分已经详细分析了服务本身的运行并发,次数和数据量与JVM内存,与CPU和内存利用率等各个关键指标之间的勾稽关系。
  这些指标之间本身相互影响和作用,我们对指标的监控本身应该是风险驱动的,即在系统出现宕机或内存溢出等故障问题前快速的发现问题并进行处理。
  因此,我们就需要对各种关键指标进行心跳监控和实时预警。
  对JVM内存利用率进行监控
  在前面我们已经谈到了,实际上出现JVM溢出的时候,往往会由于请求漂移影响到整个集群大量节点内存溢出而导致集群不可用。
  因此需要时刻监控JVM内存利用率的情况,如果发现JVM内存持续在某个高位,无法通过Gc操作将内存回收下来的时候就应该实时进行预警。
  在预警后我们既可以进行人工处理,也可以设置策略直接对问题节点进行重启操作。
  如上,我们对所有集群节点的JVM内存利用率进行实时监控,当发现利用率持续大于70%的时候就进行相应的预警操作,如果超过80%就推送严重警告信息。
  对后端业务系统和服务本身可用性监控
  其次,ESB服务总线如果出现服务调用异常,除了ESB总线本身的异常故障外,更大的可能性是后端业务系统不可用,或者说后端业务系统提供的业务服务不可用导致。
  对于ESB总线本身,我们可以实时心跳检查ESB总线暴露的服务可用性,如下:
  如果是后端系统本身不可用,那么往往会快速的返回connection timeout异常信息,这样不会影响到整个ESB总线平台稳定性。但是如果是后端业务系统服务假死或处于长时间无响应的状态,那么就会导致大量的连接无法释放,最终导致资源被消耗完。
  因此对后端系统和后端服务进行实时心跳监控也是有必要的。
  不论是对于ESB集群还是后端业务系统的监控,实际上都包括两个方面的监控,一个我们叫技术联通性监控,一个叫业务联通性监控。
  技术连通性即是否出现conneciton timeout访问超时,是就返回异常。而对于业务联通性,则是调用真实的某个业务服务接口,如果出现read time out则返回业务连通失败错误。
  对服务运行进行实时心跳监控
  其次,我们还需要对服务运行进行实时心跳监控,即时刻监控服务运行的并发量,数据量,运行时长等几个关键数据指标。
  在前面已经谈到过以上几个指标本身存在勾稽关系,比如发现服务运行平均时长增加,那么很可能是服务并发量增加或调用数据量增加导致。其次,如果发现服务调用的消息报文数据量猛增,那么很可能导致服务运行时长增加。
  因此需要对以上几个关键指标进行实时监控,时刻监控是否发生了峰值突变情况。
  当发现了峰值或突变的时候,我们就需要进行预警,并分析发生大并发或大数据量调用的原因并及时采取相应的流量管控措施,以确保整个ESB平台的稳定性。通过监控大屏可视化实时监控
  监控大屏更多的是展示基于服务集成层面的总览数据,同时对关键的异常告警信息,关键指标心跳,关键指标排名信息进行展示。这些都应该在Level1级层面的视图或报表。
  我们举一个简单场景,一个企业实施了ESB总线后,集成了20个业务系统,上100个服务接口,每天大概产生100万条服务调用示例记录,高峰时期的分钟级并发在1万次左右。
  总线实际上和硬件类网关很类似,当所有的服务调用全部都有经过总线的时候,我们就更加关心总线上实际的实时并发量,数据流量大小数据。而且这两个数据最好是要实现准实时的监控。以分钟级为例,我们需要监控分钟级的服务调用次数,分钟级的服务调用传输数据量。
  监控着两个指标是否出现突然的峰值调用,如果没有一般来说总线运行本身也不好出现问题。如果出现了各种异常大并发,大数据量调用,则一定会体现到我们的监控时序图上面。这两个数据实际上是适合在大屏上面实时心跳检测并显示的。
  对于大屏可视化展示,我们可以理解为总览,即更多的是当前ESB总线服务,集成的业务系统的总体健康情况。因此在大屏上我们可以考虑对当天的一些统计数据进行统计展示。
  这些统计数据包括了服务调用总次数,平均时长,总数据量,平均数据量,分钟级最大并发,接入总系统数,接入总服务数,总异常数,总告警次数等。对于异常告警往往是一个比较重要的展示内容,特别是异常信息本身还分为了系统级的异常和业务级的异常,对于告警本身又分为严重,一般,轻微等各种级别的告警。这些都需要在大屏进行一个统计的展示。
  如果是做集团到省两级ESB总线实施,在大屏上我们就可以考虑来实现结合地图的可视化效果展示。这个前面有文章说过,可以通过连线,端点节点大小,颜色等来体现服务调用流量,状态等信息。
  即使是单级ESB总线,在大屏展示的时候我们也需要考虑是否能够展示一个集成架构视图,能够展示出当前总线集成的多个业务系统,类似Bus总线的展示方式,可以通过该图将集成的关键系统全部标注出来。同时对于集成的系统上本身可以显示更多的关键信息。
  如果集成的业务系统用一个方框进行展示,那么在方框里面可以考虑展示。方框的颜色用于展示当前提供服务的本身的异常和告警情况方框内可以显示提供服务数和消费服务数方框内可以显示服务当天的服务提供总次数,峰值并发量
  最后,大屏本身也可以展示一些列表数据,但是从大屏可视化效果来说,列表数据不适合展示太多。可以考虑的列表数据展示主要包括了服务运行次数,服务调用异常,服务调用耗时或数据量的Top10排名信息显示等。

顶级名媛朱珠婚后首晒秀恩爱!穿休闲裙肚子大如箩,气质却无变化近日,朱珠在社交平台上晒出一组近照,这也是她在婚后首次晒出了与老公的亲密合照,可谓是难得秀起了恩爱,镜头下两个人站在一起可谓是俊男靓女的组合。如今的朱珠整个人都彰显出孕味十足,披着41岁张柏芝颜值重回巅峰!复原19岁美照状态还惊艳,带火了扎染衣张柏芝可谓是很多人心目中的女神,作为演员的她拍摄了很多经典的作品,最近在乘风破浪的姐姐当中可谓是实火,大家彻底再一次被她的美貌所沦陷。即便如今41岁的张柏芝状态依旧是处于巅峰时期,安吉彻底长残啦!穿国货拍大片不帅气,东北宋仲基发福变憨厚近日,胡可带着两个儿子安吉和小鱼儿拍摄的时尚大片曝光,在看到这组照片的时候不免感叹安吉和小鱼儿都长大了不少,面对着镜头也是自带着小童星的状态,不过肉眼可见小鱼儿和安吉都长胖了不少,40岁董洁颜值终于美回巅峰!穿抹胸羽毛裙变清纯女神,状态却大变4月16日,乘风破浪的姐姐第二季即将迎来成团之夜,单单是看到各位工作室曝光的姐姐造型丝毫不输红毯造型。作为曾经的清纯女神,董洁可谓是收获了不少少男的心,如今再度回到大家的视野当中,吴妈打破传统中国大妈形象!穿包臀裙同框吴昕似姐妹,气质佳4月13日,吴昕在社交平台上晒出一组和妈妈参加迪奥时装大秀的美照,更不忘夸奖道下面是最美女明星海燕姐和她的经纪人,这一方面既是为吴妈妈打Call,另一方面也是新节目宣传吧!但是从吴杨紫留长发太让人惊艳!披慵懒卷发像待嫁新娘,难怪被粉丝叫老婆如今的杨紫可谓是有了很大的逆袭,从最初因为颜值不被看好到现在收获了演技赞赏等,都说明杨紫成为了90后小花当中势不可挡的一员。特别是在时尚领域上面,杨紫气质彻底开挂,化身为美艳端庄大张小斐为李焕英扫墓太感动!穿2千高奢卫衣变顶流,气质彻底开挂4月15日,网友在社交平台上晒出一组张小斐合照,还配文道张小斐来襄阳看李焕英阿姨,莫名的感动,单单是看到网友的配文更是引发了大家的热议,毕竟张小斐靠着出演李焕英这个角色大爆,如今还杜淳首晒全家福!娇妻穿白衬衫肚大若箩,气质颜值超高不输女明星4月14日,杜淳在自己的社交平台上晒出一组家庭合影的美照,并且配文道第一次家庭合影,加上一颗小爱心。单单是看到这组照片也可以看出杜淳在当了爸爸之后,整个人也是将自己的重心放在了家庭高奢代言美照曝光!赵丽颖baby登大刊有排面,刘诗诗刘雯气质最佳对于时尚品牌来说,每一季新出的时尚单品或是系列都会找来品牌挚友或是大使做宣传推广,在最近两天单单是迪奥都派出了大使baby和赵丽颖穿着高定礼服登上时尚大刊,渲染了不一样的美感和高级姚安娜首次现身状态暴跌!生图浮肿成胖大妈,穿西装变土气企业家姚安娜作为华为二公主,虽然没有大公主孟晚舟热度高,但是却备受任正非所宠爱。自从姚安娜出道以后,任正非更是为他的女儿铺面了很多道路,不仅仅自创工作室而且曝光了了众多的代言。4月19日孟晚舟亮相重回顶级名媛!穿大牌变女总裁赢过妹妹,罕见温柔起来在4月19日,久违现身的孟晚舟终于现身了,相较于之前曝光的状态来说,这次的孟晚舟则是化身为美艳大气的时尚女王,如今的孟晚舟终于有了豪门千金的姿态。毕竟从之前曝光的孟晚舟来说,整个人
得奖后大胆推销自己,这位星女郎绝对是娱乐圈一股清流到了年底,各种盛典越来越多,看点也越来越多。在昨天的粤港澳大湾区电影之夜上,备受瞩目星女郎鄂靖文获得了年度女主角与年度新演员两项提名,这在新人演员中格外耀眼。电影之夜当晚,鄂靖文身光明正大蹭老板热度可还行?看了林允和周星驰的连线,我慕了减少了户外活动,追剧刷综艺粉爱豆嗑CP成了小伙伴们消遣的日常。最近小编的快乐源泉就是芒果台的真人秀我家那闺女第二季。追这部综艺除了能窃取变美秘籍之外,还有大写的羡慕嫉妒。而这位让全下饭综艺向往的生活请来周迅后,更加好看下饭了昨晚播出的向往的生活大家看了吗?周迅真乃奇女子啊,又仙又有烟火气。今天必须得唠一下她!很多人不了解私下的周迅的时候,一想到她,脑子里冒出来的绝对是大满贯影后大明星等等词汇。这样长得安家九八五终于开单,沪漂奋斗史看哭网友昨晚,孙俪罗晋领衔主演,张萌海清王自健孙佳雨田雷杨皓宇张晓谦王艺哲等主演的现实主义都市剧安家在腾讯视频北京卫视和东方卫视与观众们如约见面。据官方统计,1号晚上这部剧CSM59城东方迪丽热巴戏里戏外热衷搞事业,新剧收视口碑爆棚,热度居高不下很多观众吐槽现在的都市剧过于悬浮,基本上每个主角的生活都在围绕爱情打转。而真实的社畜生活里,爱情只占比很小一部分,大多数人哪怕失恋了也得振作起来拼命加班。不过我最近在追的幸福,触手昔日问题生变身麻辣女老师,我成了他的班主任原来是姐弟互坑前几天网络流传一个段子每个人上学时应该都看过一部恐怖片叫窗外有眼。说起来,学生时代谁不害怕玩手机看小说被窗外监视的班主任抓包呢?要说能让这种恐怖进一步升级的,恐怕就是这个班主任还是奈何Boss要娶我2靠甜宠出圈的搜狐自制剧真香2020年,因为疫情的原因,很多小伙伴都积极响应宅家的号召,追剧无疑成为日常。今天趴趴这家CP的墙头,嗑嗑那家CP撒的糖,好不欢乐。作为一名资深剧迷,小编深知这种急需糖分续命的感觉隐秘而伟大别再同情赵志勇,生活不易不是为恶的借口李易峰牛骏峰金晨等主演的电视剧隐秘而伟大热播,其中李易峰饰演的男主顾耀东深受观众喜爱,而剧中角色赵志勇却颇多争议,褒贬不一。替他惋惜的观众会觉得,赵志勇只是因为胆小怕事,并且因为母最初的相遇,最后的离别学会林更新这五招,追女孩不难林更新盖玥希杜淳等主演的电视剧最初的相遇,最后的别离正在热播。其中,林更新饰演的是男主严谨,不仅只是一个事业有成的成功人士,也是一个富二代,最重要的身份还是卧底。男主严谨和女主季晓隐秘而伟大赵志勇一句话气炸观众,他和顾耀东的决裂已经开始李易峰金晨王泷正牛骏峰主演的电视剧隐秘而伟大正在热播。其中,牛骏峰主演的赵志勇更是让观众既厌恶也理解,工作以后遭遇现实毒打,人往往都会变得比较现实,这也是人成长的一种体现。但是,电爱的厘米两个男人和一个女人让蓝俏俏面目可憎,她真没那么坏在佟大为和佟丽娅主演的热播剧爱的厘米里,蓝俏俏可能是大多数观众公认,这部电视剧最坏角色。不过,观众对角色的厌恶可以理解,但请别代入演员,毕竟演员是按照剧本演绎角色,观众对角色的厌恶