设为首页 - 加入收藏
广告 1000x90
您的当前位置:主页 > 前沿领域 > 人工智能 > 正文

AI走进数据中心智能化运维:腾讯与清华联合论文被自动化领域顶级

来源:网络整理 编辑:小编 时间:2020-03-26 17:11
AI走进数据中心智能化运维:腾讯与清华联合论文被自动化领域顶级

近日,腾讯数据中心与清华大学自动化系智网中心团队的贾庆山老师合作论文被第21届IFAC国际自动控制世界大会录取。该大会为自动控制领域三大顶会之一,将于今年7月在德国柏林举办。本届大会将关注可持续资源、绿色能源、数字化和工业4.0等主题,人工智能、控制和计算机科学日益重要的融合也将成为大会关注的焦点。 

AI走进数据中心智能化运维:腾讯与清华联合论文被自动化领域顶级大会IFAC录用

此次腾讯联合团队投中的论文全称为Predictive Maintenance of VRLA Batteries in UPS towards Reliable Data Centers (中文名称:对可靠数据中心UPS使用的VRLA电池的预测性维护)。

据介绍,论文提出的电池故障检测方法,填补了此前行业针对UPS(Uninterruptible Power System,不间断电源)电池基于数据驱动的预测性维护的研究空白,相比当前基于专家经验和阈值规则等进行判断的检测方式有更高的准确率,同时可以提前预警电池健康状态,有效提升数据中心的智能管理水平,是人工智能技术在数据中心落地应用的生动实例。

AI走进数据中心智能化运维:腾讯与清华联合论文被自动化领域顶级大会IFAC录用

据了解,该研究成果也已经整合形成电池AI诊断服务,搭载在腾讯自研的数据中心智能运维平台——腾讯智维上,成功支撑了腾讯深汕数据中心的电池健康管理服务交付工作,目前已覆盖了腾讯自建数据中心的数万只蓄电池。未来,将全面覆盖腾讯数据中心的几十万节电池,并面向广大行业伙伴开放。

通过人工智能对数据中心蓄电池进行预测性维护

UPS供电系统是满足数据中心供电质量的核心部分,而蓄电池又是UPS系统中最重要的组成之一,是整个供电系统的“最后一道屏障”,在UPS系统的故障中,与蓄电池有关的原因占30%以上。如果电池故障引起UPS系统宕机,关键业务中断,将产生很大的经济损失。行业调查机构显示:金融行业的数据中心每宕机一小时的损失为1495134美元,通讯行业的数据中心每宕机一小时的损失为2066245美元。因此通过对蓄电池系统科学的运维管理、监测维护,及时发现故障隐患并及时维护更换,将极大提升数据中心持续运转的可靠性。

AI走进数据中心智能化运维:腾讯与清华联合论文被自动化领域顶级大会IFAC录用

 

不间断电源系统使用的蓄电池

面对数据中心成千上万的蓄电池,通过人工智能自动化的方式进行检测和维护能极大提升效率。但现实中,AI在蓄电池故障预测的落地并不容易。首先,由于日常状态UPS中使用的蓄电池通常在浮充状态下运行,因此监控数据的信息量远不及进行放电测试所收集的数据。第二,没有统一的电池更换标准,现有的维护策略依赖于专家知识。第三,电池故障相关的数据量不足,使寻找高质量模型的任务具有挑战性。

此前行业关于用数据驱动电池寿命预测的研究,也多关注于电动汽车电池这类可循环使用的电池,针对UPS类等常态处于浮充状态电池的健康管理,此前未见已有研究。

针对这些问题,腾讯清华联合团队依托于腾讯智维平台提供的海量数据中心运营数据,研究了一种用于UPS中VRLA电池的预测维护的新型数据驱动技术。据介绍,为了提高数据采集和标注的效率,团队首先对电池自然老化和内部急剧衰退两种情况,提出了一种可以自动标注电池退化时间点的算法,分别以电池内阻和电压离群程度进行自动标注,避免了数据标注过程中的重复和繁重的体力劳动。然后,针对蓄电池监控数据数据量大、数据维度低的问题,应用特征工程技术对数据维度进行扩展。在完成特征工程后,研究人员分别训练了逻辑回归、随机森林、梯度提升决策树和人工神经网络模型,对蓄电池是否发生故障进行预测。实验结果表明,AI模型对故障电池的预测准确率为98%,和现有的基于阈值的判断规则相比,AI模型平均能够提前15天预测电池的故障。

目前上述研究成果已经被研究团队整合形成电池AI诊断服务,并在腾讯自研的数据中心基础设施管理软件平台——腾讯智维平台上发布落地,覆盖了腾讯自建数据中心的数万只蓄电池。该服务能够方便地集成进现有的电池管理服务中,并能够自动对采集到的蓄电池电压、内阻和温度数据进行分析预测。

AI走进数据中心智能化运维:腾讯与清华联合论文被自动化领域顶级大会IFAC录用

 

应用数据驱动进行UPS蓄电池健康管理流程图

现场专家工程师对AI故障诊断的效果进行了持续的跟进验证,验证结果表明,相比于原有的电池维护策略,AI诊断服务能够更加准确地对电池的故障状态进行提前预测,同时还可以检测出超出专家知识范围的潜在电池故障,这使得数据中心的运维工程师能够对蓄电池的维护更换进行更加有针对性地规划,有效提高了蓄电池的运维效率,进一步保障数据中心的可靠性。在对腾讯天津数据中心3号楼的6880节电池进行现场实际落地验证发现,电池健康管理服务可以实现96.2%的告警准确率,且告警时间比实际故障提前5~30天,大大优于传统的基于经验规则的分析方案。

目前,腾讯团队正在逐步扩大落地范围,未来将通过智维平台,实现对腾讯几十万节电池的业务覆盖。

据了解,腾讯智维平台由服务腾讯内部的星云平台升级而来,是腾讯将近20年数据中心运营经验与智能化、云化技术相结合,自研的一款数据中心基础设施管理软件平台。通过腾讯智维平台,可以实现数据中心的智能告警、智能巡检、智能容量分析和透明化的客户体验,为全局把控、精细化管理、优化运营成本提供基础,同时也为技术专家实时、异地处理告警和数据中心的无人值守创造可能。它可以帮助客户360°掌握数据中心的运行情况,持续提升运营的质量与效率,降低成本投入,将数据中心的价值极大化。腾讯智维平台就像是数据中心的“大脑”,为腾讯数据中心赋予了精密的感知能力和快速迭代进化的能力。

AI走进数据中心智能化运维:腾讯与清华联合论文被自动化领域顶级大会IFAC录用

 

腾讯智维平台功能简介


    本文网址:http://www.shlzwl.cn/a/qianyanlingyu/rengongzhinen/2020/0326/143112.html ,喜欢请注明来源。

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
AI走进数据中心智能化运维:腾讯与清华联合论文被自动化领域顶级

站长沙龙 www.shlzwl.cn 中国百万站长的福音,一站式服务。网站地图

Copyright © 2002-2019 站长沙龙 客服

Top