《科技创新与品牌》杂志社学术

基于云平台的新型电力系统运维管理研究

摘要:党的二十大报告指出,“深入推进能源革命”及“加快规划建设新型能源体系”。随着电网数字化转型的快速发展,以及云计算、大数据技术在大电网中的深入应用,电力系统建设正向着云上微服务化架构快速演进。与此同时,在运维阶段也暴露出系统建运脱节、统一监控能力不足、瓶颈风险被动感知、运维知识储备不足等痛点、难点问题,建立健全覆盖电力系统全生命周期的运维管理策略已迫在眉睫。为此,本文从统一技术架构管控标准、全景监控工具、全链路压测工具、交流沟通平台及企业级运维知识库入手分析,提出解决方案,发挥整体运维合力,逐步提升安全运行水平,以期在全生命周期管理过程中实现统一、刚性管控。

关键词:全生命周期管理;全景监控;全链路压测;运维交流沟通平台;企业级运维知识库

引言


新一轮的科技革命和产业变革席卷全球,实体经济与数字经济深度融合[1],国家作出数字中国、新型基础设施等重大战略部署,加速推进企业数字化转型,并指出要探索构建适应企业业务特点和发展需求的“业务中台”“数据中台”等新型IT架构模式,加快形成集团级数字技术赋能平台。因此,电力系统建设也朝着云上微服务架构快速演进[2]。为满足业务快速迭代的需求,系统检修频率激增,对运维人员的技能水平要求越来越高,运维面临的痛点难点问题日趋严重,有必要对运维管理问题开展深入研究,提供更佳的问题解决方案[3]。

一、运维管理面临的挑战


(一)建设服务支撑运维能力不足

虽然企业已经出台多项通用制度,规定了数字化项目建设的工作职责、流程要求,但由于可研、设计、测试、运维承担主体不同,各自执行的标准与规范不统一,部分项目技术路线执行不刚性,如果在上线前期出现架构不合理等问题,则难以整改。此外,部分系统建设存在系统设计对运维支撑能力考虑不足、系统应用日志可读性较差等问题,严重影响系统异常排查效率。

(二)全链路监控能力不足

巡检监控能够先于用户发现平台运行问题,争取问题消缺时间,是运维管理的核心工作。目前,各专业监控工具存在多、小、散的特点,云上用户无法整体感知云平台PaaS层、IaaS层,以及相关云外主机、安全、网络等软硬件设备运行状态,跨专业临时协同排查时效率低、沟通成本高;同时,云上系统集成关系复杂、耦合性大,缺乏共享业务能力的固化沉淀,上层业务与下层应用组件、基础平台组件关联关系不明晰,且微服务数量大、调用链路长,这些都给系统问题的排查定位增加了较大难度。

(三)系统瓶颈主动发现能力不足

以往,我们主要依靠压力测试来发现系统瓶颈。但压力测试主要在测试环境开展,而测试环境的节点规模、压测并发量及业务数据均与生产环境存在较大差异。考虑脏数据的影响,生产环境的压力测试目前也只能开展点对点查询类的并发测试,这会导致压力测试结果并不准确,更无法有效确定系统全链路各环节的性能瓶颈及缺陷。

(四)运维知识沉淀及共享能力不足

运维人员沟通交流渠道较少,人员技能水平差异较大,相同故障在不同业务系统中重复发生,整体协同支撑机制较弱,运维经验未能有效沉淀及共享,全网运维力量未能发挥合力。


二、运维管理问题解决方案


(一)建立统一技术管控标准,强化建运协作管控机制

1.全面梳理分散在建设、运行阶段的规章制度、标准规范和技术要求,结合在长期运行工作中沉淀积累的系统部署规范、安全基线配置、集成规范、微服务设计原则等技术要点,统筹制定覆盖系统全生命周期的统一技术架构管控标准,确保衡量尺度一致性,全生命周期管控统一性。

2.运维关口前移,从可研编制、需求审查、概设评审、安全防护方案制定、系统研发测试等关键环节入手,由运维人员提前介入、参与把控,及时发现问题、解决隐患,及时提出运维支撑功能及日志输出标准等非功能性需求,提高系统自描述、自监测及自恢复能力。

(二)建立统一全景监控共享平台,强化运维数据价值挖掘

1.基于智能一体化运维支撑平台,汇聚、整合各专业、各层级运维监控数据,打造公司级统一全景监控共享平台,建立信息化职能管理部门牵头的运维数据管理体系,打通各专业监控数据壁垒,各专业部门分层维护治理,企业级共享共用,确保运维数据灵活接入、可用好用。

2.基于全景监控共享平台数据支撑,开展运维数据智能分析应用,以微应用形式快速构建以业务为视角、业务-平台纵向关联、总部-省侧两级贯通的全链路可视化监测场景,增强业务异常感知能力及故障定位效率;结合人工智能[4][5]、大数据等技术加强运行状态及应用日志关联分析,深入挖掘系统运行监测分析数据价值,开展“系统画像”及“业务画像”,分析系统健康状态和运行特点,精准绘制业务潮汐图,实现系统精益运维。

(三)建立全链路压力测试平台,强化瓶颈缺陷主动发现能力

明确系统响应时间、处理能力、吞吐量、并发用户数、内存使用率等各项性能指标,依照大型互联网企业压测经验,结合企业业务特点,构建全链路压力测试平台,在生产环境以核心业务场景为试点开展全链路、高并发压力测试,最大程度模拟用户真实并发请求流量,有效探知系统真实负载能力,及时发现系统性能瓶颈及缺陷,主动提前开展优化消缺,确保系统能够可靠支撑业务运营活动。

(四)建立运维交流支撑平台,强化知识沉淀及共享

1.建立运维交流支撑平台,具备丰富编辑形式、高效分享交流和互动次数、贡献排行、热门文档,以及点赞排行等功能,为全网信息运维人员提供一个便于日常运维交流、经验分享的公共平台,激发运维人员相互学习、主动分享的积极性,发挥高水平运行人员能力,持续沉淀运维经验知识。

2.建立企业级运维知识库,制定全生命周期的知识管理流程,覆盖知识上传、知识筛选、知识审核、知识入库、知识反馈、知识更新六大环节,对知识进行全生命周期管理,构建知识库生态化运营机制,为知识的高效利用和价值发挥打好基础。


结语


云上微服务架构的电力系统性能突出,但运维难题也日益凸显,研究微服务架构系统的运维管理技术也变得越来越重要。云计算、大数据、人工智能等新技术的愈发成熟助力智能化运维的发展,运维管理将趋向于集、管、控一体化。本文详细探讨运维管理策略,提出建立统一技术管控标准、统一全景监控共享平台、全链路压力测试平台、运维交流支撑平台,从技术标准管控、运维工具支撑、运维人员能力等多方面强化提升,确保电力系统安全稳定运行。



参考文献

[1] 孙益清. 加快数字化转型打造协同发展新格局[C] . 能源研究与利用, 2019 (3): 4-5, 7.

[2] 张晋宾,周四维. 探析互联网下的电力系统运维管理[J].中国电力, 2018, 51 (10): 2-7, 42. PMT

[3] 陈昊阳,唐晋生.电力信息系统运维管理自动化的解决措施[J].信息系统工程,2022,33(04):141—144.

[4] 钱世超. 人工智能技术在电力系统故障诊断中的运用分析[J]. 通信电源技术,2020,37(06):72-73.

[5] 林信, 覃晖. 研究人工智能技术在电力系统故障诊断中的应用[J]. 通讯世界,2020,27(01):245-246.

责编 / 马铭阳