学习理财博客空间

理财鱼

您现在的位置是:理财鱼 > 理财方法 >

理财方法

春节不宕机保卫战:14亿人,百亿红包,和加班的工程师丨新年有此氪

发布时间:2022-01-30 13:59理财方法 评论

在距离北京200多公里、被称为阿里巴巴“数据心脏”的坝上数据中心,冬季气温最低能到零下38度,风大得让人张不开嘴。这里的除夕,每年都有阿里云的“巡查兵”驻守在Ecc监控室里,除了要确保水电油的基本设施正常运转,还要预防严寒给服务器带来的突发状况。

2019年的除夕到初二,由阿里云的太佑在这里值班。因为知道自己是最后一道防线,对于整个系统的运作来说非常重要,所以他的心态还不错:“这里的好处是鞭炮可以随便放!”

数据中心作为服务器的“家”,是用户网络生活的正常进行的基础,在春节这种流量高峰,更容不得一丝差池。

而太佑只是为了让我们春节抢红包、发朋友圈、看网络春晚、打游戏更顺利的工程师之一。

在除夕佳节,万家欢聚,共享团圆的时刻,来自各大厂的工程师们,或在公司大厦,或在机房,或在家却对着电脑,他们都在加班,为的是对抗十几亿流量对服务器带来的冲击:

2022年,京东成立8个项目组,由京东零售集团主导,物流、科技等子公司协助,负责春晚红包的发放;

2021年除夕,腾讯云及腾讯底层技术团队有数百位工程师选择留在公司值班、客户现场、各地数据中心等一线值班;

金山云今年组建了百余人的运维团队,保证春晚直播的顺利进行;

2020年,快手投入几百人参与春晚红包研发团队;

2019年百度想方设法搞到了10万台服务器,上千名百度同事除夕加班,让百度App平稳度过因红包发放造成的流量冲击;

……

 春节不宕机保卫战:14亿人,百亿红包,和加班的工程师丨新年有此氪

阿里云的太佑在室外巡检风冷冷水机组

当春晚按时播放,当年夜饭上桌,当烟花绽放,对着电视刷手机的你或许不会知道,全国十多亿人同时拿起手机,将会汇聚起怎样的数据海啸。

保证数字世界的正常有序运作,成为了各大厂及其工程师在春节时期的特殊使命。

这是一场春节不宕机的保卫战。

01 宕机:在流量高峰时到来

在PC互联网时代,宕机很少发生,一是人们能够上网的设备有限,又受地理位置限制,对于网络热点事件的参与度低,服务器收到的流量冲击就少;二是,PC时代大家往往是“围攻”一个热点图片或者视频,服务器只需缓存这一个内容就好。

但在移动互联网时代,以朋友圈、微博为代表的UGC(User Generated Content,即用户内容)每个都不相同,服务器需要对每一个都进行缓存。在这个基础上,越大的流量,对服务器造成的冲击就越大,宕机就会发生。

因此,春节时期,十几亿人无事可做,频繁网络冲浪的行为,就很容易给服务器带来冲击和压力。

腾讯是第一批经历移动互联网时代突如其来的流量高峰的厂商。

腾讯工程师在PC时代大多都正常过节休假,9天的假期也不带电脑——去网吧连上VPN,上线、搬迁、下线就相当于值班了。

变化在2014年除夕夜发生。那是4G开始普及、移动互联网起势的一年,那年春节前十几天,为活跃新年气氛,腾讯在微信里加入了抢红包功能。春节红包正式上线前,团队内测时便发现,这个“小功能”使用人数远远超过预期:从广州等一线城市开始,发红包的习惯逐渐扩展到二、三、四线城市,直至全国。

但这个功能一开始便是按照小系统来设计的,临时为了用户增长做改动已经来不及了。

当时的微信DAU刚超过1亿,用户数大概在4亿左右,在除夕夜几乎所有拥有微信的人,都开始发红包、抢红包。春节红包团队迅速启动了过载保护。过载用户想发红包时,系统会提示“当前系统繁忙”。当时开发红包的技术团队临时调来了10倍于原设计数量的服务器,才扛住了考验。

与此同时,腾讯存储那边也出问题了。大家抢到的红包截图以及新年祝福,都密集地在朋友圈发送,触发了已设置好的过载预警线。用户的直观感受就是你的消息对方无法及时看到,你也可能无法及时收到朋友发给你的微信/朋友圈。存储团队和微信团队都紧急调出了运维工程师进行处理,扩容、改良分发策略。

2014年之后,腾讯吸取教训,开始了每年春节加班值班的“传统”。

其他所有要参与到春节活动的大厂,也从那时开始学会了提前准备。

02 红包:全民的狂欢,大厂的加班

提前准备的内容并没有大家想想的那么简单。

一个明显的“洪峰”是每年的抢红包活动。自2015年微信开启春晚抢红包后,每年有一家顶尖互联网公司走上舞台,给十几亿人发红包,今年是抖音,去年是快手,2019年是百度,2018年是淘宝,2016年是支付宝,每年金额逐渐加码,新玩法也层出不穷。

 春节不宕机保卫战:14亿人,百亿红包,和加班的工程师丨新年有此氪

图片更新:2022年,京东准备15亿互动红包和实物

红包会在某一个或某几个时间点集中揭晓和发放。看似只是发了几亿的红包,但其背后对技术的投入远不止这些。

抢红包非常容易带来宕机状况,原因基本是这几个:1.不可预见的峰值流量瞬间涌入,2.红包系统架构复杂带来了协调成本,3.春节返乡导致地区间流量资源分配要临时调整,4.与外部资源协作出现问题,5.新形式需要新技术做匹配。

为了解决这些问题,红包承办方和云厂商没少费心思:

不可预见的峰值流量瞬间涌入,这点在前几年的摸着石头过河后,后面的大厂基本能做到“心中有数”。

2018年春晚,淘宝红包项目的技术团队虽然很早就预估到了登录系统压力,但当时基于一些历史数据推导出了极端情况,最终决定以2017年双十一的容量为基础,对登录数扩容3倍。结果,春晚当晚登录的实际峰值超过了2017年双十一的15倍,尤其新用户的瞬时登录更是完全超出预料。

好在有了前几年的数据基础,后来者对数据的估算也会相对准确一些。百度技术部门在春晚前就测算过,春晚期间登录值可达到日常用户登录峰值的2500倍,流量据测算每秒峰值将会达到5000万次,每分钟的峰值将会达到10亿次,而能支撑这些流量的云计算系统,由10万台服务器组成。

红包系统架构复杂带来了协调成本。与单纯的登录、发布、评论不同,抢红包项目往往和红包业务系统、交易支付系统、零钱账户系统这三个层级之间转换,因为一个红包如果是通过银行卡发出,必须要先向银行提出申请,银行会进行扣款,扣款成功后,后台会通知支付系统,红包系统到这时才会把红包放出。在其他用户抢到红包后,又会以零钱形式进入用户账户中。

红包几秒钟现金出出进进,都需要耗费服务器资源,由于资金频繁进出银行,部分银行的技术能力又非常有限,因此大厂还需要前提和银行协调测试。

春节返乡导致地区间流量资源分配要临时调整的情况,在“鼓励就地过年”的今年或许会稍有好转。

共3页: 上一页下一页

>相关《 春节不宕机保卫战:14亿人,百亿红包,和加班的工程师丨新年有此氪》内容:


1、 今年为啥没有大年三十,竟是月亮“惹的祸”?这年还有两个春节

理财鱼小提示:今年为啥没有大年三十,竟是月亮“惹的祸”?这年还有两个春节 你发现了吗? 今年 没有大年三十 腊月二十九之后就是春节了 大年三十去哪了? 都是月亮“惹的祸” 原来 这都是月亮“惹的祸” 中国农历历法 是根据月相的圆缺变化 来计算一个月的天数...【继续阅读】


2、 每经午时丨中央网信办等十六部门联合公布国家区块链创新应用试点名单;2022年春节档新片预售总票房突破5亿

1丨央行:2021年股票市场主要股指上涨,两市成交金额增长明显 每经AI快讯,央行发布2021年金融市场运行情况,2021年,债券市场规模稳定增长,国债收益率整体震荡下行;债券市场高水平对外开放稳步推进,投资者结构进一步多元化;货币市场交易量持续增加,银...【继续阅读】


3、 30余位川渝艺人齐聚,2022川渝春节联欢晚会今晚看起来!

理财鱼小提示:30余位川渝艺人齐聚,2022川渝春节联欢晚会今晚看起来! 9朵“梅花”同台,沈伐、媛凤、赵亮、刘军、仇小豹等多位巴蜀笑星集结,再加上张杰、刘晓庆、蒋勤勤、黄绮珊、王铮亮、降央卓玛、冯提莫、吕一、江映蓉等川渝歌手、演员汇集,川渝两地携手...【继续阅读】