如何看待2022年12月18日阿里云香港区大宕机事件?

Question

如何看待2022年12月18日阿里云香港区大宕机事件?

12月18日，阿里云发布公告称，阿里云香港地域故障确认系香港PCCW机房制冷设备故障所致，影响香港地域可用区C的云服务器ECS、云数据库、存储产品（对…

关注者

605

被浏览

1,802,998

95 个回答

我就想说一点：

故障赔付不包含使用代金券购买的资源，但我这次宕机的资源就是上一次故障赔付的代金券购买的怎么办？

编辑于 2022-12-20 16:03

知乎用户 · Accepted Answer

emmm作为一个技术人，很明白里面的弯弯绕绕

所有底层技术中间件，都喜欢对外吹嘘几个9.什么稳定性4个9，5个9

一年内故障时间不超过
3个9：(1-99.9%)*365*24=8.76小时
4个9：(1-99.99%)*365*24=0.876小时=52.6分钟
5个9：(1-99.999%)*365*24*60=5.26分钟

喜欢出去吹嘘自己技术了的。比如开大会，然后今年稳定性又提升了多少。

其实都是KPI而已。利用扩大自身影响力然后捞取业绩，老板有晋升的资本，然后老板才会把更多的经费偏向你。比如给你更多的HC，你可以多招人。你招的人越多，那么随之而来就是你项目越大，更容易拿到成绩。你的绩效就不会差。你的岗位也会水涨船高，今年P7，明年P8，后年P9.以此类推。都是政治手法而已。

实际内部或者用的人多的都知道怎么个回事。

其实大家使用一些技术，一开始肯定是因为某些特性出类拔萃被吸引，然后上马某个项目。比如对外吹我性能牛。比xxx强了50%，又或者我稳定性几个9，绝对高可用。又或者降低了多少成本。

等你被骗进去实操的时候，就会发现，新人文档太监是常事。很多新特性你压根用不到。或者用到了发现随着项目迭代，文档输出完全跟不上技术迭代，因为没有人喜欢写文档。因为写文档是没有KPI的。只有做技术才有KPI。这也是为啥越来越多的工程师需要技术支持，用来帮忙进行答疑。应该没几个工程师不讨厌值班答疑的吧？也许人家速度是真的快，但是bug也是真的多。兼容性也是真的差。

同时内部也要面临其他部门的互相内卷，比如A部门开发了个东西长时间运行稳定，随着时间迭代，大家慢慢发现你维护也就那么回事，经常遇到问题，或者答疑不给力。又或者使用起来稀烂。然后这时候其他部门就会找到一个痛点推出其他的项目来跟你竞争。这时候你就会继续上马2.0项目，然后1.0就会强制用户升级，不升级就各种报错。甚至以后不给你处理问题。你只能迫不得已去升级。一线的工程师最苦逼，平时处理业务不说。时不时还要去升级中间件，每天光解决中间件的各种冲突就要花费一大摞的时间。跟驴一样。

本质都是因为大家太卷。让大家只能一直被推着往前跑。不会静下心来踏踏实实把一些基础的东西给做好。因为反正你已经被骗进来了。那么后面就会不断加价套牢你。随着前面一波从0到1的人因为拿到成绩，晋升了或者走人了。这个项目就交给后面进来的人进行维护。可是以KPI导向的公司对于维护的人是不能算绩效的。因为没人在乎从1-100.只在乎从0-1.因此后面的人想要晋升，就必须要再重新做一个项目。然后重新上马一个新的项目，再起一个高大上的名字。美其名曰全方面升级。

什么时候程序员能少点内卷。少点KPI就好了。也许大家才能安心写文档，安心处理BUG。安心提高用户体验。

越写越气，却又无可奈何，因为大家只是打工仔而已。被这个大环境圈住。

对了。对比下阿里云的官网和亚麻的官网就知道差距了。一个是销售公司，一个是技术公司。阿里云官网经常随意变动改版。因为改版也是产品的KPI之一。

编辑于 2022-12-22 00:06