当前位置:首页 > 新闻中心 > 新闻资讯 感谢一直陪伴的你们!

腾讯栗权:腾讯智维平台与数据中心运营体系结合

作者:      时间:2022-05-10 10:18:50

在大数据时代,数据呈爆炸式增长,全球掀起了建设数据中心的热潮。在新时代,如何建设和运营未来的数据中心,将呈现出什么样的发展趋势?2019年12月19日,第十四届中国IDC产业年度仪式(IDC2019)第二天继续精彩,行业专家和企业代表聚集'>腾讯天津滨海数据中心经理栗权

腾讯天津滨海数据中心经理栗权

早上好,我很高兴参与今天的分享。我今天分享的主题是腾讯的智能维护平台如何实际应用于数据中心的市场运营。

首先,自我介绍。我是腾讯天津滨海数据中心经理李泉。天津滨海机房是腾讯第一个自建机房,是腾讯运营中最大的单体公园。天津滨海机房单机服务器数量已超过10万台,机架数量约为5400台。

我今天分享的主要问题有三个。首先,让我们回顾一下腾讯智能维护平台的发展过程。其次,详细介绍腾讯智能维护平台在日常运营和数据分析中在运营过程中的作用。第三,智能维护平台的优势和着陆应用。

腾讯于2000年建立了自己的第一个数据中心。当然,当时我们是与深圳电信租赁的机房。直到2006年,腾讯在深圳宝安机房拥有第一个正式被视为IT机房的数据中心。到2011年,腾讯在天津拥有第一个自建的数据中心,即我运营的机房。到2013年,腾讯发布了第三代以微模块为主导的MDC数据中心技术。2015年,第四代TBLOCK集装箱数据中心。到目前为止,我们已经经历了第四代数据中心的发展过程。在这么多年的建设和运营过程中,有一点深刻的经验:一个高效可用的管理平台可以为整个数据中心的运营质量和效率带来指数级的帮助。因此,基于这一概念,我们在2014年独立开发并推出了腾讯智能维护平台的前身。

数据中心在运营过程中会遇到不同的挑战。我总结的日常运营过程中可能面临的最大挑战有四点:管人、管物、管服务、控制成本。智能维护平台构建了这四个模块的核心能力。DCOM,我们在腾讯定义为日常运营流程平台,所有事件的变化和维护都是DCOM驱动的。它的主要目的是管理我们的外包人员和人员。现场运数万台设备,每天生成数十万个监控点和数T数据。如何应用和分析这些数据,最大限度地发挥其价值是在DCRM平台扩展和分析。此外,腾讯云还将提供大量的外部托管业务。因此,我们为用户提供的服务目录的管理将在DCIM平台上进行控制。我们将在DCSM模块中统一监督所有操作过程中发生的材料和资源成本。

让我分别向你介绍一下。DCIM平台是腾讯智能维护整个产品的核心。五年前,它与BA和其他制造商打开了底层数据接口,通过标准接口连接数据中心中的50万个测点,并自行统一存储。基于这些数据,我们制定了N多个操作场景,并为每个操作场景设置了一个模型。这个数据模型可以应用于我们的视觉试图、报警分析和智能分析,这可能更抽象。你可以看到两个具体的例子。

腾讯天津数据中心3号楼共享实时数据。由于我们已经切断了节约模式,功率法计算的实时PUE为1.18,负载为12.4兆瓦。作为一名运营经理,你可以每天都做通过这个页面,我们可以全面了解整个机房的当前操作容量、外部电源和当前机架的使用情况。通过收集的监控数据,可以进一步跟踪外部室电的供电质量以及每个变压器的质量和供电质量。这些数据可以通过简单的模型处理显示在综合操作视图中。

如何将收集到的50多万数据应用到综合视图中,我们将进一步应用到监控报警中。由于传统的监控报警只是对纸质收据的监控,设置了上下限来描述物理过程,腾讯智能维护平台很早就实现了基于拓扑的逻辑收敛。从室电进线到中压侧到UPS到终端,我们建立了从空状态到收集值的拓扑关系。基于这种拓扑关系,我们设置了我们的报警策略。这样,一旦源头发生任何报警,我们就可以通过拓扑关系和设置的报警策略收敛报警,快速定位故障,防止报警发红,帮助一线人员快速处理和响应故障。

第二个例子是健康管理。仅仅拥有这些报警数据是不够的,因为报警往往具有滞后效应。当管理人员看到它并被处理时,这表明它已经产生了一定的影响。基于大量的现场数据,除了被动的报警响应外,我们还将进行许多积极的健康状态预警测试。这里分享的是我们对电池健康状态测试的案例。除了监测电池的温度、内阻和传统电压相量外,我们还引入了机器学习、监督学习人工智能算法,通过组和落后电池分析各种人工智能分析方法,帮助我们发现哪些电池虽然当前容量和电压正常,但在以往放电或操作过程中存在落后风险,或落后风险。我们还积累了半年的数据进行分析。通过人工智能发现的电池故障或电池异常的准确性高于传统电压和内阻监测。

下一个智能平台的亮点是容量管理。容量对数据中心的运行安全非常重要,但传统的IDC可能需要大量的报告或在终端部署大量的智能PDU来实现精细的容量管理。然而,基于腾讯的DCIM接口,我们可以检测电压和电流,所有检测到的数据都可以在容量视图中绘制。通过平面图,结合CMBD中框架位置的实际空闲状态,可以立即绘制综合功率和位置的物理状态资源表,并根据该表进一步分配后续设备上架时使用的资源状态。

我们不仅做了容量管理,还基于现有的空闲容量。未来,我们还对不同类型的服务器和新设备进行了预测模型。该模型可以为我们的后续资源分配和资源上架提供该模型的准确性超过90%。

另一个亮点是能耗分析。首先,我们可以根据刚才提到的18个测点的收集和监控,一目了然地分析和统计现场发生的每一个千瓦,甚至每一台设备的实际能耗,以及它对整个能耗成本的贡献和缺点。分析这些数据后,最终目标可能是合理控制能耗。腾讯模仿谷歌的做法,采用基于网络的算法,在数据中心进行PUE节能预测。首先,我们导出了历史五年来从BA冷站到终端到服务器的近70维历史数据。根据影响因素对所有数据进行建模和排序序的,这里有很多影响因素变化。其中一个重要的参考是我刚才提到的拓扑,因为我们的每个设备,无论是通过管道连接的,还是通过冷冻水能量形式连接的,都有一种内部关系。根据这些关系,我们可以排列出一个影响因素。

你可以理解,影响因素排名第一的是对机房PUE的巨大贡献。基于对这些影响因素的分析,我们引入了一种灵敏度分析算法,并通过人工智能计算能计算输出的推荐值意见。该平台告诉我们,基于当前的供水温度和供气温度,您可以有多少优化空间,以及PUE值在确保我们输入的安全边界不被打破时会降低多少。本项目出于谨慎,我们有一个严格的变更过程来控制系统给出的每一个优化建议。变更后,我们应该根据测量值与系统的推荐值进行比较。因为我们需要消除很多干扰因素,所以我现在不能直接告诉你我们的PUE通过人工智能算法减少了多少,但PUE可以在一定的空间内通过人工智能算法安全调整,这个方向已经被我们的实验证明了。

在分析了DCIM后,我将介绍DCOM模块中智能维护平台的设计概念。DCOM是指我们日常操作过程中的过程和过程之间的关系。当我们构建DCOM时,我们有一个基本的概念,海恩法则。任何数据中心的事故,如影响我的服务,导致停机或冷却中断,都有许多潜在的隐患和未遂的风险。因此,只要我们在日常操作过程中尽可能多地消除隐患,使隐患不成立,就可以在一定程度上保证终端服务的连续性和稳定性。这是我们DCOM构建的核心概念。由于数据中心运营行业的使用相对成熟,我将重点关注腾讯正在使用的智能检测模块。

基于一个概念,我们以结构化的方式处理或翻译现场的每个设备,或我们管理的每个设备,以结构化的方式处理或翻译其检查相、检查标准和设备编号。在RFID扫描码的帮助下,现场激活每个待检查设备,获得检查项目,自然提高检查效率,保证检查质量,降低执行检查人员的能力门槛。

在这个概念上,腾讯在2019年下半年升级了巡逻工作。我们认为,检查只是人工确认监控系统的不足和监控系统无法覆盖的设备。我们已经从检查系统中剥离了监控系统已经能够实现远程监控的设备。因此,我们经历了从复杂到简单的现场检查过程。

关于智能维护平台的DCSM管理。腾讯云有多种业务形式。其中一个重要的是,托管用户,如58个城市。他租用了我们腾讯机房的整个机架,并在机架上托管了自己的服务器。对于像58这样的用户,他更关注当前的温度和湿度,环境如何,我的设备分布在你的机房的哪个位置,我有多少空间或容量可以继续使用。基于这一需求,DCSM专注于解决用户关注的综合视图、资源查看和操作过程透明度的挑战。托管用户可以在平台上看到所有使用或托管设备的操作,并通过平台看到每个设备的资源信息,启动我们在所有服务目录中与他签订的每个服务项目,以确保所有需求都可以在线记录并准确地传输到我们的网站。这将操作过程中的风险控制到最低。

腾讯智能维护本身起源于腾讯自己的运营平台。自2014年以来,该平台已推广到腾讯的四个区域,包括我们所有的自建机房和合建租赁机房。到目前为止,该运维平台已经覆盖了腾讯10万个机架和100万服务器所在数据中心的基础设施运营管理。如果您对腾讯智能维护平台更详细的功能和特点感兴趣,您可以继续与我联系,我们将进一步沟通。

今天的分享结束了,谢谢!



免费客户服务热线:4006-618-418   027-87315200  87315211  业务咨询:15527777548    13260607300(微信同号)
业务咨询QQ:   欢迎光临老兵IDC 27325619   欢迎光临老兵IDC 81455950  欢迎光临老兵IDC 13640069   
技术支持QQ: 欢迎光临网盾科技 908624     技术支持电话:15307140247(微信同号)

公司地址:湖北省武汉市江夏区五里界街五园路16号

网盾运营中心:湖北省武汉市东湖高新技术开发区华师园北路18号光谷科技港1B栋4楼

《中华人民共和国增值电信业务经营许可证》: 鄂B1-20170032   
Copyright © 2007-  武汉极风云科技有限公司 All rights reserved. 鄂ICP备2020016614号-3

请所有客户积极遵守《中华人民共和国网络安全法》要求,合理合规的使用极风云数据的各类IDC云服务产品,网盾科技会遵照安全策略管理和安全制度的执行!