从蓝屏事件看运维的长与短

会议主要讨论的核心内容 - 微软7月19日发布声明,称一次CloudStrike更新导致多个IT系统故障,引发全球范围内的系统故障 [1][2] - 这次事故的直接原因是软件供应商更新出错误版本,给用户IT人员造成大量工作量,业务损失难以计量 [2] - 公司在交付验证、运维管理等环节存在问题,未能及时发现和解决问题,导致事故扩大 [3][4][5][6] - 公司内部可能存在一些不可告人的故事,掩盖了一些重大缺陷 [5] - 这次事故可能会推动国产软件替代进程,加速企业自主可控 [7][8] 问答环节重要的提问和回答 - 问:这次事故解决的时间比较长,是否与运维标准"1小时发现,5分钟定位,30分钟解决"不符? [12] 答:这个标准最初是金融行业提出的,因为金融业务直接关系到公众利益,对响应时间要求更高。对于大规模系统故障,达到这个标准确实很难。但公司应该有更完善的应急响应机制。 [12][13] - 问:运维除了预警和解决问题,还有哪些价值? [13] 答:运维的核心价值是支撑业务连续性和收益,通过监控、分析等手段优化资源配置、提升系统可靠性,最终实现业务目标。随着技术变革,运维需要不断升级手段,满足企业数字化转型需求。 [13][14][15][16] - 问:博瑞数据未来发展战略如何? [39][40][41][42][43] 答:博瑞数据将在2023-2024年进行产品和运营优化,2025年目标实现盈利。公司看好未来运维市场机会,因为企业数字化转型需求持续增长,对专业运维服务的需求也将不断提升。 [39][40][41][42][43]