范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

大型ESB服务总线平台服务运行分析和监控预警实践

  今天准备谈下ESB总线平台建设项目中的服务运行统计分析,服务心跳监测,服务监控预警方面的设计和实现。可以看到,在一个ESB服务总线平台上线后,SOA治理管控就变得相当重要,而这些运行监控分析本身也是提升ESB总线平台高可用性的关键。
  对于ESB总线本身的高可用性建设,我在前面写过一篇文章可以参考。
  大型集团ESB服务总线平台建设项目高可用性实践总结
  今天主要分享下对于这类大型ESB总线平台建设项目在服务运行统计分析,服务心跳监测,服务监控,服务预警等配合高可用性能力方面的一些实践总结。对接口服务运行统计分析的思考
  对于ESB服务运行监控,从SOA服务管控和治理层面来看,经常会涉及到的KPI性能指标并不多,主要还是体现在运行次数,运行时间等关键的维度,如果考虑到指标本身之间的关联关系方便分析,那么还需要增加服务运行的并发数(分钟级),服务调用的数据量等关键指标。
  举例来说,当我们发现服务调用变慢了,即服务运行时间明显增加了,那么我们需要分析是否是该服务本身的并发量是否增加了,还是说服务本身调用的数据量增加了,还是说其它服务调用的并发量和数据量增加了导致该服务的资源被占用等。这些都是可能需要涉及到关联分析的地方。
  首先我们来看下单次服务运行能够采集和记录的关键数据服务运行时间(服务请求开始 to 服务请求结束)服务运行是否成功(True or False)服务传输的消息报文大小服务名称服务提供的系统,包括服务提供系统归属的组织类别等服务消费方系统正常调用还是非法调用
  接着再来看某个时间周期的情况,比如1个小时,1天,1周或1个月的统计时间周期运行次数,对运行次数进行求和最大分钟级并发数,取并发数的Max值异常数,对异常数按时间点进行求和告警数,对告警数按时间点进行求和服务最大运行时间,最小运行时间,平均运行时间服务消息报文最大报文,最小报文,平均报文容量
  对于时间周期只我们我们统计的一个维度,而对服务进行分析的时候还需要考虑如下维度按服务目录-》按服务按企业-》子公司-》子组织按应用域-》按应用系统-》按模块按服务类型-》服务子类型按服务提供系统,服务消费系统
  经过以上分析,我们看到一个最底层的服务运行日志信息,就有了按时间维度,按组织,服务类型,系统等多个维度进行维度分析和统计的可能。而这些恰好又是我们进行自定义报表和维度分析的基础。所有的统计分析基本都会基于以上基础运行信息展开进行。
  基于以上思考,我们整合了一个面向组织和业务系统的服务运行统计分析报表,可以按系统的维度详细的查看到自己提供和消费的接口服务的运行情况,异常情况,并发量和数据量,异常和告警等各种关键信息。如下参考:
  为了做完整的服务运行和性能分析,我们最好还需要对中间件资源池(应用服务器和数据库服务器)的CPU,内存利用率,存储使用量等关键指标进行实时的性能分析和监控。在实际的性能分析和监控中往往也是首先会从CPU和内存告警上第一时间反应出服务当前运行出现异常(如大并发,超大数据传输等),然后我们在通过实际的日志监控分析功能快速的查看当前服务运行的并发情况,传递的数据量情况等。
  当我们发现如果一个服务经常运行大并发,大数据量的异常调用的时候,则需要对服务单独启用流量控制策略等。比如:对服务传输的数据量及报文大小进行流控。对服务本身的并发量进行流控。对某个服务最大能够使用的资源量进行流控,防止单服务占满所有资源。服务运行指标勾稽关系分析
  服务运行指标相关之间的关联分析是我们进行服务运行问题排查,异常告警问题根源分析的基础。在前面谈SOA治理管控平台中,我们曾经画过一个图来说明,服务运行过程中的基础物理资源,数据库和应用服务器中间件资源,服务运行KPI和SLA设置之间的关联关系,如下:
  基于上图,我们进一步做下扩展分析,先做下基本的关联关系判别:
  JVM内存持续增加不释放,一个是服务并发量增加同时服务调用时间增长,其次是出现大数据量,长执行时间的服务调用,导致服务连接和内存无法快速回收。CPU使用率高升,但是内存利用率一般,一般为出现大并发量的服务调用,其次对于服务调用过程中有过多的数据映射,转换等处理导致CPU利用率增加。
  服务调用运行时间长,首先要分析是否是原始服务本身调用时间就变长,如果不是,则一般是在ESB服务调用上出现大量长周期服务调用,但是连接不能快速是否,线程池满一直排队的情况。
  如果JVM内存溢出,首先要通过Jstat工具监控下内存GC回收的情况,究竟是新时代,老生代,还是PermSize出现溢出。如果是PermSize需要进一步分析是否是程序本身有问题。
  如果没有做流量控制,单个服务本身的大并发,大数据量调用往往会侵占所有资源,对整个ESB上其它运行的服务都造成性能影响。
  对于ESB总线本身的等待线程数增加一定会涉及到内存持续增加,涉及到服务调用响应周期增加。如果是服务调用超时,则需要分析具体是在哪段引起的超时,是原始服务本身超时,还是在ESB中间件上进行服务处理的时候超时。
  对于服务告警和预警,前面也讲到过,再强调下具体场景包括服务单位时间运行次数明显增加,我们可以设置一个阈值,只要超过了就进行报警。服务运行时间明显增加,我们可以设置一个阈值,只要超过了就进行报警。服务单位时间数据量明显增加,我们可以设置一个阈值,只要超过了就进行报警。
  注意对于服务告警策略可以是针对所有服务,也可以是针对某个具体的服务,对于阈值可以是一个百分比数,也可以是一个绝对值。接下来我们再看下服务运行各个指标本身之间的一些关联关系:服务传递数据量大,一定带来内存增加服务运行时长增加,同时更加容易引起服务调用超时。服务调用并发量增加,服务调用时长一般也会增加,如果时长增加明显,则一定导致内存持续增加。单个服务本身的并发量增加,会引起ESB上线程排队增加,导致直接影响到其它服务调用性能。单个服务调用本身的数据量增加,容易引起JVM内存持续增加,导致JVM内存溢出。如果是后端服务本身性能下降,最明显的就是占有连接,资源不释放,导致ESB本身性能下降。
  而对于整个ESB中间件的性能监控和分析,从最底层的IT基础设施,存储和服务器,到ESB中间件资源池,再到具体运行的服务运行包,相互之间存在密切的关联,需要达到的效果往往是第一时间反馈出预警。并且通过预警去采取后续的行动措施和SLA策略设置等。
  1. 从资源池监控发现的CPU和内存异常第一时间找到非法调用服务?
  如果有CPU和内存利用率出现异常,同时某个服务或某几个服务出现运行性能告警,那么我们就有了分析的依据究竟是哪个服务导致的。并快速定位到具体的服务。在定位到具体的服务后,可以再详细查看服务调用的并发数,数据量等信息,然后有针对性的对服务展开流量控制策略。
  2. 如果JVM内存持续上升而没有释放,如何快速定位到服务?
  这个也是经常遇到的问题,当JVM内存持续增加,或者连接数不断的增加而不释放的时候,如果我们不进行及时的处理往往就导致整个JVM内存溢出而影响到所有ESB服务的运行。因此在这种场景下我们需要尽快的发现导致问题的服务,并对服务采取相应的措施。
  3. 从服务运行告警到自动熔断
  为了不因为一个具体服务的异常非法调用而影响到所有服务的运行,对于单个服务在出现持续性的告警后,应该有策略直接对该服务进行熔断处理。比如直接对服务进行禁用处理。增加实时的心跳检查
  在前面部分已经详细分析了服务本身的运行并发,次数和数据量与JVM内存,与CPU和内存利用率等各个关键指标之间的勾稽关系。
  这些指标之间本身相互影响和作用,我们对指标的监控本身应该是风险驱动的,即在系统出现宕机或内存溢出等故障问题前快速的发现问题并进行处理。
  因此,我们就需要对各种关键指标进行心跳监控和实时预警。
  对JVM内存利用率进行监控
  在前面我们已经谈到了,实际上出现JVM溢出的时候,往往会由于请求漂移影响到整个集群大量节点内存溢出而导致集群不可用。
  因此需要时刻监控JVM内存利用率的情况,如果发现JVM内存持续在某个高位,无法通过Gc操作将内存回收下来的时候就应该实时进行预警。
  在预警后我们既可以进行人工处理,也可以设置策略直接对问题节点进行重启操作。
  如上,我们对所有集群节点的JVM内存利用率进行实时监控,当发现利用率持续大于70%的时候就进行相应的预警操作,如果超过80%就推送严重警告信息。
  对后端业务系统和服务本身可用性监控
  其次,ESB服务总线如果出现服务调用异常,除了ESB总线本身的异常故障外,更大的可能性是后端业务系统不可用,或者说后端业务系统提供的业务服务不可用导致。
  对于ESB总线本身,我们可以实时心跳检查ESB总线暴露的服务可用性,如下:
  如果是后端系统本身不可用,那么往往会快速的返回connection timeout异常信息,这样不会影响到整个ESB总线平台稳定性。但是如果是后端业务系统服务假死或处于长时间无响应的状态,那么就会导致大量的连接无法释放,最终导致资源被消耗完。
  因此对后端系统和后端服务进行实时心跳监控也是有必要的。
  不论是对于ESB集群还是后端业务系统的监控,实际上都包括两个方面的监控,一个我们叫技术联通性监控,一个叫业务联通性监控。
  技术连通性即是否出现conneciton timeout访问超时,是就返回异常。而对于业务联通性,则是调用真实的某个业务服务接口,如果出现read time out则返回业务连通失败错误。
  对服务运行进行实时心跳监控
  其次,我们还需要对服务运行进行实时心跳监控,即时刻监控服务运行的并发量,数据量,运行时长等几个关键数据指标。
  在前面已经谈到过以上几个指标本身存在勾稽关系,比如发现服务运行平均时长增加,那么很可能是服务并发量增加或调用数据量增加导致。其次,如果发现服务调用的消息报文数据量猛增,那么很可能导致服务运行时长增加。
  因此需要对以上几个关键指标进行实时监控,时刻监控是否发生了峰值突变情况。
  当发现了峰值或突变的时候,我们就需要进行预警,并分析发生大并发或大数据量调用的原因并及时采取相应的流量管控措施,以确保整个ESB平台的稳定性。通过监控大屏可视化实时监控
  监控大屏更多的是展示基于服务集成层面的总览数据,同时对关键的异常告警信息,关键指标心跳,关键指标排名信息进行展示。这些都应该在Level1级层面的视图或报表。
  我们举一个简单场景,一个企业实施了ESB总线后,集成了20个业务系统,上100个服务接口,每天大概产生100万条服务调用示例记录,高峰时期的分钟级并发在1万次左右。
  总线实际上和硬件类网关很类似,当所有的服务调用全部都有经过总线的时候,我们就更加关心总线上实际的实时并发量,数据流量大小数据。而且这两个数据最好是要实现准实时的监控。以分钟级为例,我们需要监控分钟级的服务调用次数,分钟级的服务调用传输数据量。
  监控着两个指标是否出现突然的峰值调用,如果没有一般来说总线运行本身也不好出现问题。如果出现了各种异常大并发,大数据量调用,则一定会体现到我们的监控时序图上面。这两个数据实际上是适合在大屏上面实时心跳检测并显示的。
  对于大屏可视化展示,我们可以理解为总览,即更多的是当前ESB总线服务,集成的业务系统的总体健康情况。因此在大屏上我们可以考虑对当天的一些统计数据进行统计展示。
  这些统计数据包括了服务调用总次数,平均时长,总数据量,平均数据量,分钟级最大并发,接入总系统数,接入总服务数,总异常数,总告警次数等。对于异常告警往往是一个比较重要的展示内容,特别是异常信息本身还分为了系统级的异常和业务级的异常,对于告警本身又分为严重,一般,轻微等各种级别的告警。这些都需要在大屏进行一个统计的展示。
  如果是做集团到省两级ESB总线实施,在大屏上我们就可以考虑来实现结合地图的可视化效果展示。这个前面有文章说过,可以通过连线,端点节点大小,颜色等来体现服务调用流量,状态等信息。
  即使是单级ESB总线,在大屏展示的时候我们也需要考虑是否能够展示一个集成架构视图,能够展示出当前总线集成的多个业务系统,类似Bus总线的展示方式,可以通过该图将集成的关键系统全部标注出来。同时对于集成的系统上本身可以显示更多的关键信息。
  如果集成的业务系统用一个方框进行展示,那么在方框里面可以考虑展示。方框的颜色用于展示当前提供服务的本身的异常和告警情况方框内可以显示提供服务数和消费服务数方框内可以显示服务当天的服务提供总次数,峰值并发量
  最后,大屏本身也可以展示一些列表数据,但是从大屏可视化效果来说,列表数据不适合展示太多。可以考虑的列表数据展示主要包括了服务运行次数,服务调用异常,服务调用耗时或数据量的Top10排名信息显示等。

演员曹曦文,有过一段婚姻,此生不变的爱人是女儿曹曦文曾经和陈思诚在一起3年。分手后嫁给了富商,两人还有一个女儿。可是幸福的日子没过多久两人就离婚了。离婚后她一个人带走女儿生活。如今,她的人生状况怎么样了呢?曹曦文出生于浙江金华曹曦文和陈思诚纠缠3年,演我们的婚姻出圈,39岁的她要爆火由导演沈严,刘海波执导的我们的婚姻正在热播。其中曹曦文饰演的全职妈妈蒋静将老公当作老板一样伺候,把照顾家庭和孩子当作理所当然,在老公面前卑微谨慎。即便如此,老公陆维斌还是背叛了她背12对酷似双胞胎的明星,刘涛曹曦文像姐妹,陈好和阿朵让人分不清在娱乐圈里异父异母的双胞胎明星,你知道哪些呢?下面这十二对明星同框时就让不少人傻傻分不清,快来看看哪一对最让你脸盲。一刘涛和曹曦文刘涛和曹曦文都是气质干练型美女,两人最像的地方莫过和刘涛长得很像的曹曦文如今怎么样了?一眼看去,有没有长得像刘涛呢?很多人可能看过她参演的野鸭子,知道她是曹曦文。曹曦文,原名曹雪,1983年11月16日出生于浙江省金华市。2004年,考入中央戏剧学院表演系,和佟丽娅赵丽颖产后首综喝中药贴膏药骨盆修复?分娩后遗症,受尽了苦母亲是这个世界上最神圣最伟大的职业,她们为这个世界带来鲜活的生命,自己却一夜苍老。妊娠纹身材走样面容憔悴或许每个女人在听到孩子叫自己一声妈妈之前,都要经历这么一段难挨的时光。随着网孔雪儿她真的该被骂吗?不会吃鱼子酱被群嘲,还惨遭王思聪内涵孔雪儿只不过是将鱼子酱一口吞了,就遭到了一群男明星的嘲笑,甚至成了华少等人眼中的乡巴佬。在某综艺节目中,孔雪儿所在队伍获得胜利,因此被奖励鱼子酱大餐。因为孔雪儿从没吃过鱼子酱,因此海清童瑶心居开播,短短三集入戏,网友废柴老公让人太上火自从2022年人世间开播之后,观众们的看剧标准又提升了一个档次,饱满鲜活的人物特点成为人们观看的重要元素。尤其是剧中40的殷桃出演20岁的小姑娘时,竟然无一差评,双麻花辫,在阳光的热巴新剧开播!鞋拔子丝瓜屁股下巴演员的脸怎么了?任嘉伦与迪丽热巴领衔主演的驭鲛记之与君初相识终于开播了!据说该剧涵盖了重生虐恋黑化复仇等众多精彩戏码。小8一口气看了四集,发现剧情还不错,女主的人设比较聪明,但演员们的颜值就让人大我是特种兵演员今昔,小影美出新高度,雷克明混得风生水起我是特种兵演员今昔,小影美出新高度,雷克明混得风生水起。我是特种兵对于这部电视剧可能很多网友不会感觉陌生,甚至看过的都感觉给人一种热血沸腾的感觉。不管是里面饰演特种兵的演员训练的场47岁贾静雯被老公催生4胎?修杰楷好男人形象翻车,都是人设而已贾静雯近日出席活动时,被问到是不是要追生四胎?贾静雯无奈地表示,我已经生了三个孩子了,放过我好不好?催生的不是别人,而是她老公修杰楷,他最近参加小S的节目,说很喜欢孩子,还想要生孩偶遇34岁刘亦菲,路边吃饭接地气!生图毫无ps,被赞气质出众在娱乐圈中,明星们在公共场合被偶遇是难免的,毕竟明星作为大家都熟悉的公众人物,会出现在这些地方,会被认出也是情理之中的事情。而路人在偶遇时拍下的照片,也变成了网友们津津乐道的所谓生
浪姐7美穿婚纱亮相,颜值气质发型缺一不可,有人被衬托成伴娘浪姐7美穿婚纱亮相,颜值气质发型缺一不可,有人被衬托成伴娘。很多观众关注综艺乘风破浪的姐姐,并非在于最后能赢得胜利的是哪几位女星,而是在于节目过程中姐姐们带给观众的亮点和槽点,毕竟35岁寡姐步小李子后尘?卸下性感穿宽松裙子,身形变大一号35岁寡姐步小李子后尘?卸下性感穿宽松连衣裙,身形变大一号。娱乐圈一向都是美的代名词,不仅是帅哥美女集中营,还包括了各种美的东西,如美景美食,引领时尚的美妆和各种漂亮好看的时装。然港剧辉煌难再现?马国明透露内地拍戏一个月,酬劳等于拍港剧半年内地拍戏收入有多高?听香港演员马国明拍了一个多月后怎么说的。眼下暑假已近末尾,看了两个月电视剧的学子们,马上就要回归校园了,对于如今孩子们所看的电视剧,很多70后80后父母都有这样她是最美阿凡达,合作两大影帝戏份比肩影后,却没能红起来她是最美阿凡达,合作两大影帝戏份比肩影后,却没能红起来。一个演员想在演艺圈打出名堂,需要具备的因素有哪些?是人群中脱颖而出的外形颜值和气质?是入木三分的演技实力?是人人艳羡的背景?他具备喜剧电影男主的一切,却连拍5部烂片,未映新片也被嘲他具备喜剧电影男主的一切,却连拍5部烂片,未映新片也被嘲。虽然被寄予厚望的2020年华语电影春节档,在疫情面前无法施展,但华语电影的崛起,以及这个市场的日渐庞大,已经是不争的事实了51岁霸王花拍照被闺蜜故意P丑,颧骨突出小腿变形,怒晒原图51岁霸王花拍照被闺蜜故意P丑,颧骨突出小腿变形,怒晒原图。女性和别的女性合影时,通常都会摆出自己最好看的一面,不愿意自己在镜头中被对方给比下去。而这种事情在娱乐圈,很多时候就是一45岁港片女神退圈相夫教子,昔日作品却被儿子吐槽,气得甩巴掌45岁港片女神退圈相夫教子,昔日作品却被儿子吐槽,气得甩其巴掌。港片辉煌的年代早已远去多时,然而港片的魅力,却刻在了网友们的内心,迟迟都没有散去,王祖贤李嘉欣邱淑贞等一位位港片女神郭德纲率德云社泡温泉,说起烧饼往事眼里泛光,果然坐得离他最近郭德纲率德云社泡温泉,说起烧饼往事眼里泛光,果然坐得离他最近。在郭德纲的带领下,如今的德云社,不仅一只手撑起了相声半边天,另一只手还掌握了娱乐圈很大一部分话语权。这一点,从郭麒麟频甘当郑伊健古天乐绿叶,被曝18年婚姻走到尽头,去年还在秀恩爱甘当郑伊健古天乐绿叶,被曝18年婚姻走到尽头,去年还在秀恩爱。前几天在某品牌发布会上,平均年龄58岁的香港演员张耀扬吴毅将吴启华和郑浩南一起现身时,一度引发了网友热议,人们不禁感叹试戏甄嬛传撒谎至受伤,今参演正午阳光剧,3瞬间看哭观众少数民族花旦以颜值取胜?看山海情热依扎,表情诠释啥叫戏?演艺圈是公认的美女帅哥集中营,若要问哪一方水土最容易出明星,相信很多人的答案会是青岛,而要问哪一省的女明星最漂亮,那么答案必钟汉良李小冉再组cp,同个作者同个制片人,观众吻戏肯定减少时隔10年钟汉良李小冉再合作,不老男神女神大决战,谁赢了?由钟汉良李小冉主演的来不及说爱你,可以说在男女爱情题材的电视剧里,绝对有着举足轻重的地位,尤其是剧中的吻戏,令无数观众都记