服务器之家:专注于服务器技术及软件下载分享
分类导航

服务器资讯|IT/互联网|云计算|区块链|软件资讯|操作系统|手机数码|百科知识|免费资源|头条新闻|

服务器之家 - 新闻资讯 - 云计算 - 云平台存储应急演练常见问题分析

云平台存储应急演练常见问题分析

2023-11-21 12:00未知服务器之家 云计算

相比于传统架构成熟的应急处置体系,业界关于云平台存储开展应急演练和管理方面则稍显欠缺。本文将梳理云平台存储应急演练与传统IT架构的区别,列举云平台存储常见的故障场景,并分析如何针对各类场景更有针对性的制定

相比于传统架构成熟的应急处置体系,业界关于云平台存储开展应急演练和管理方面则稍显欠缺。本文将梳理云平台存储应急演练与传统IT架构的区别,列举云平台存储常见的故障场景,并分析如何针对各类场景更有针对性的制定应急演练计划。

云平台存储应急演练常见问题分析

俗话说,“光说不练假把式”。IT系统的应急演练是实现企业验证业务连续性能力、组织、预案、团队能否满足既定目标的最佳方式。随着云计算技术的推广,云平台存储逐渐成为一种有效解决企业海量数据存储和管理问题的方式。但相比于传统架构成熟的应急处置体系,业界关于云平台存储开展应急演练和管理方面则稍显欠缺。以下内容将进一步梳理云平台存储应急演练与传统IT架构的区别,列举云平台存储常见的故障场景,并分析如何针对各类场景更有针对性的制定应急演练计划。

一、居安思危,云平台存储的应急演练缺失之殇

云平台存储能够对企业日常生产过程中产生的不同类型非结构化数据进行统一存储和管理。企业可选择相应类型的云平台存储(包括文件存储、对象存储、块存储等),并利用分布式存储架构所提供的软件即存储能力,构建具有高可用特性的企业云服务的基础存储服务层,为云上各类的微服务应用提供云存储和云共享服务。可以说云平台存储的底层架构设计比传统存储更加关注数据和服务的持久性和高可用性,不仅为上层应用提供了更为灵活的软硬件一体化部署模式,同时也兼具更加健壮的高可用模式。

但很多企业没有针对云平台存储形成一整套成熟的应急演练机制,大多数应急方案仍然是针对传统存储架构所设计的。云平台存储在开展应急演练和容灾管理方面,应更加关注弹性云计算资源、云硬盘设备、分布式存储设备等服务。

但是在开展应急演练方面和管理方面,则需要基于现有云上的业务策略,按需配置云存储的保护实例,并通过存储同步复制技术、磁盘映射技术、数据缓存冗余等技术构建云存储的高可用性,为业务提供数据的可靠性以及业务连续性。在演练过程中,通常是将云存储弹性云服务器的数据、配置信息复制到容灾站点,并支持应用所在的服务器停机期间从另外的位置启动并正常运行,从而提升业务连续性。相比于传统存储,基于云平台存储的容灾方式,能够更好的降低容灾建设成本。

二、有备无患,云平台存储应急演练中的常见问题分析

相比于传统存储较为成熟的应急预案、流程,针对云平台存储的应急演练进行测试和评估,则可发现大多存在如下问题:

1. 缺乏针对云平台存储的演练标准体系

由于基于云平台存储的业务平台,采用分布式计算机存储系统,天然形成了数据冗余存储、具有自动恢复机制,提高了存储数据抵抗外界诸如硬件故障、单台存储设备故障等不可抗风险。因此,在构建基于云架构的演练标准体系方面,缺乏了应有的关注。

笔者认为构建基于云平台存储的演练体系应至少应包括:

1)明确云平台存储突发事件应急各环节中的角色和责任,提高云平台存储各项响应和操作能力; 对存储的运维也从硬件层面转变为对应用和微服务的支撑。

2)构建云平台存储应急演练手段技术体系,利用真实可模拟的微服务存储故障等突发事件应急环境,增强参演人员的心适应能力和调整能力。

3) 明确云平台存储在应急演练各环节关键的功能要素,包括SSD云盘的IOPS、吞吐量和访问时延。并据此从定性和量化两个方面构建科学的演练效果评估指标体系;

2. 缺少以云原生视角去拓宽演练领域的思路

分布式云存储日益复杂,但是业内普遍缺乏以云原生视角去扩展演练领域的思路,仅仅是按诸多传统架构中不存在的不确定因素。比如,机器高负载、网络异常、磁盘 IO、节点调度等故障,以及云平台自身的资源、应用服务、容器以及基础设施各环节导致的问题。

笔者认为以云原生视角拓宽演练领域至少应该包括如下颗粒度。其中,以下几项尤为重要:

1)评估IaaS层、PaaS层是否健壮:模拟云存储不可用,验证系统的容错能力、测试调度任务是否自动迁移到可用节点。

2)衡量容器及微服务的容错能力:查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的QPS或RT是否受影响。

3)验证容器编排配置是否合理:模拟杀服务Pod、杀节点、增大Pod资源负载,观察系统服务可用性,验证副本配置、资源限制配置以及Pod下部署的容器是否合理。

4)验证监控告警的时效性:对系统注入故障,验证监控指标是否准确,监控维度是否完善,告警阈值是否合理,告警是否快速,告警接收人是否正确,通知渠道是否可用等,提升监控告警的准确和时效性。

三、战时心不慌,梳理云存储应急预案场景

针对不同类型的云存储类型及故障场景建立不同的应急预案

场景一:块存储集群中,单台设备故障无法正常使用

使用技术:备份一体机 DP 进行恢复

RPO =1Day (可恢复 1 天前的备份副本);RTO = 2-3Hour(200G 数据需恢复需10Min)。

业务恢复步骤:选择存储卷及备份副本,完成云存储及业务恢复。

场景二:文件存储中的部分非结构化数据被误删除或丢失

使用技术:备份一体机 DP 进行恢复

RPO =1Day (可恢复 1 天前的文件);RTO = 30Min-2Hour(200G 数据需恢复需10Min)。

业务恢复步骤:选择虚拟机及备份副本,确认丢失文件的路径,选择恢复的目标,完成丢失文件的恢复。

场景三:对象存储损坏或丢失

使用技术:备份一体机 DP 进行恢复

RPO =1Day (可恢复 1 天前的文件);RTO = 30Min-2Hour(200G 数据需恢复需10Min)。

业务恢复步骤:选择数据库副本文件进行数据恢复,恢复后确保数据完整性及数据库可用性。

场景四:核心业务系统发生宕机无法快速恢复

使用技术:通过 RP 技术进行恢复

RPO = 30sec ;RTO = 5min。

业务恢复步骤:选择相应的时间点,进行容灾切换,将备机直接开启,并确认业务是否可以使用。

云平台存储的应急切换演练能够显著减少和预防企业在云架构模式下发生安全事件。在当下,数字化转型时代逐步会成为构建业务连续性方面需要考虑的重要环节。然而与IT传统架构在应急演练方面的所具备的成熟体系和经验相比,在云架构模式下,对云平台存储的应急演练起步较晚且存在诸多不足,亟需从标准体系、演练领域、演练流程、演练形式、人才等角度进行完善、创新。

【作者】珺祎 某国有银行系统架构师

延伸 · 阅读

精彩推荐
  • 云计算云计算是物联网的重要支柱

    云计算是物联网的重要支柱

    随着科技基础设施的不断发展,我们的大环境变得比以往任何时候都更加紧密。 物联网 (IoT)已经产生了一个由互联设备和传感器组成的网络,这些设备和传...

    千家网4722020-12-17
  • 云计算了解私有云监控和报告的六个工具

    了解私有云监控和报告的六个工具

    云计算报告可帮助管理员解决容量问题并减少中断。有效的工具应包括基于角色的仪表板并跟踪虚拟和物理硬件。以下是一些可帮助组织监控和报告其私有...

    机房3606152021-09-09
  • 云计算张勇发全员信,阿里云将分拆上市

    张勇发全员信,阿里云将分拆上市

    5月18日,在阿里云诞生的第14年,阿里巴巴集团董事会主席兼CEO张勇发布了一封重要的公开信,宣布阿里云智能集团将在未来12个月内从阿里巴巴集团中完全...

    未知642023-05-19
  • 云计算华胜天成云计算业务上半年实现营收7亿元 同比增长27.7%

    华胜天成云计算业务上半年实现营收7亿元 同比增长27.7%

    8月27日消息,上交所上市公司华胜天成(SH:600410)刚刚发布了2019年半年度报告。报告显示,华胜天成云计算业务上半年实现营收7亿元,同比增长27.7%。 华胜天...

    Techweb4282019-09-03
  • 云计算云计算基础架构管理的5个要点

    云计算基础架构管理的5个要点

    云计算架构师们都知道,构建云计算的开始,便是着手建设云计算基础架构,明确建设云计算基础架构平台应用需求后,然后在云计算建设的整个过程中采...

    今日头条2512020-07-21
  • 云计算云计算是什么意思?广为接受的云计算定义解读

    云计算是什么意思?广为接受的云计算定义解读

    云计算 (Cloud Computing) 是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网...

    挖链网4972019-06-13
  • 云计算什么是边缘计算?什么是雾计算?

    什么是边缘计算?什么是雾计算?

    随着物联网的不断进步,出现了雾计算和边缘计算这样的名词。“雾计算”是一个比较新的词。因为它比云更紧靠设备,故此表示为雾。Cisco和其他公司提...

    今日头条5412020-11-22
  • 云计算2020年的优秀云计算技巧

    2020年的优秀云计算技巧

    2020年发生的冠状病毒疫情对我们这个世界产生了重大影响,对于IT行业尤其是云计算市场来说也是重要的一年。随着新一年的来临,人们需要了解云计算市...

    企业网D1Net6642020-12-29