敢不敢随机挑选几台数据库机器,拔掉网线?
演练时间
- 2023-09-26 19:30
演练目的
- 模拟线上服务器异常时
- 1.业务产生的影响
- 2.数据库高可用的生效时间
- 3.业务影响程度
前期准备
- DBA将负责的三条数据库线的机器列表提供给运维
- 由运维同学采用抽奖程序,随机每条业务线抽到一台服务器
- DBA检查抽中的服务器上的数据库及影响的业务范围
- 拉上受影响业务线的研发负责人和相关人士 注:各种leader 开会沟通时间点和风险点
- 确认时间点2023-09-26 19:30 开始
实际演练过程
影响范围
- 部分业务线在切换时产生短暂报错(计划中,影响可忽略不计)
- 数据库这边高可用方案可正常发挥作用,流量切换和高可用都是按预期的进行
- 总体演练结果,非常顺利。
2023-09-27 更新
- Redis的演练导致大数据部门的一个故障
- 表现为flink的任务卡住了。
- 排查时还跑错了key和任务,用时较长,故障影响较大
- Redis_Cluster集群 ,从节点的断网,也会影响业务短暂异常,如果程序处理不好,会造成很大的问题