浅谈数据中心运维数据治理
近年来,数字经济的发展趋势越来越明显,作为底层基础设施的数据中心也随之转向智能化、数字化。2016年全球知名IT咨询机构Gartner正式提出智能运维(AIOps)概念,明确运维数据是构建和落地智能运维的基石。
目前,数据中心运维数据普遍存在四大问题亟需进行治理:
1)数据孤岛现象十分严重,各类数据之间彼此不能共享互通;
2)数据可用性较差,标准不统一,无法挖掘其内在价值;
3)数据质量不高,其准确性、唯一性、及时性等有待商榷;
4)数据安全难保证,数据存在被滥用和泄露的风险。
编者从事数据中心运维工作十余年,针对上述问题开展了一些卓有成效的举措,但限于当下整体环境对运维数据治理的认识及应用还处于初级阶段,可能还存在一些问题或不足之处。
一、基本模型
数据治理已经被认定为是信息化的一项基础工作,而且已经被提升到企业数字化转型基础保障的高度。从国内外理论、方法论、标准以及企业实践的角度,经过多年的发展,传统的数据治理已经相对趋于成熟。
1.1经典数据治理模型
数据治理的标准化工作是破除管理困境、提高数据质量、释放数据价值的第一步,也是关键所在。目前主流的数据治理标准有ISO/IEC38500系列标准[4]、GB/T34960.5-2018标准、GB/T36073-2018标准[5]、ITU-T系列标准等。其中ISO/IEC38500系列标准是数据治理领域第一个国际标准,适用范围广,在业内具有高度知名性和通用性,为大多数组织或机构所应用。
在ISO/IEC38500系列标准基础上,数据治理研究所(DGI)提出了第一个权威的数据治理模型,如图1所示。该模型在数据治理组织、目标、流程等方面都给出了指南级说明,主要分为人员与组织机构、规则与协同工作规范、过程三大部分,包括最终目标与愿景、关注点、数据规则与定义等10个小组件,系统性回答了为什么需要数据治理(Why)、数据治理治什么(What)、谁参与数据治理(Who)、什么时候开展数据治理(When)、如何开展数据治理(How)等关键性问题,为组织或机构实现数据价值、最小化数据管理成本和复杂性、保证数据安全合规使用等提供了专业性标准依据。
1.2运维数据治理模型
借鉴传统数据治理标准、模型以及沉淀下来的经验方法,数据中心运维数据治理可以从以下四方面来构建治理模型:一是根据运维数据治理的意义和价值创造,将经过治理的运维数据提升至运维信息资产级别;二是制定运维数据治理工作制度、相关流程等,形成体系化、标准化数字运维;三是确保运维数据的准确性和高可用性,监测数据质量,提高数据安全性,实现数据价值最大化;四是开发高效治理所需的平台或工具,在技术手段层面上向智能化运维发展。
基于以上四大方面,构建数据中心运维数据治理模型如图2所示。首先明确为什么要进行运维数据治理(Why),其核心意义是实现运维价值最大化(如增强风险保障能力、提高服务质量、提升用户体验等)。为实现运维价值最大化,引出了运维数据治理的目标,即获得准确、好用的运维信息资产。为了使作为智能运维基石的原始运维数据转化为高级别的运维信息资产,可以围绕治理方法、治理工具、治理过程三要素进一步完善治理模型:治理方法(How)包括基于数据标准、质量管理和安全管理的关键治理工作,其中质量管理和安全管理中涵盖了组织架构建设与管理(Who),用以明确治理角色及分工;治理工具(What)包括运维数据平台等,主要为在原有工具层面上建立统一平台;治理过程(When)包括策划、建设、运维,围绕着治理方法进行相关操作。
鉴于本数据中心的组织规模,由本数据中心主要负责人担任运维数据治理整体决策角色,设立相应的牵头人整体把控数据质量治理的运营管理,并组建运维数据质量治理小组,将与数据质量管理相关的各项工作统一纳入管理。同时,设立一套较为完整的制度机制来保证运维数据平台持续发展和完善,主要包括不定期反馈制度、定期会议制度和定期维保制度。一线维护人员将系统日常使用过程中遇到的问题和建议,不定期向运维数据质量治理小组汇报,由治理小组对问题和建议进行统一分类、筛选和分析;并通过定期会议,由治理小组向各个子系统建设厂家反馈经过整理总结后的问题建议,敦促建设厂家对问题分析总结和处理;同时对系统的各设备进行定期维护,以保证其可以正常稳定工作。