支付寶大面積癱瘓 系統(tǒng)災(zāi)備能力讓人擔(dān)憂

作者: oqinaj  2015-05-28 09:23 [查查吧]:m.uabf.cn

   對于螞蟻金服和阿里巴巴來說,2015年5月27日絕對是值得記住的一天,就在銀監(jiān)會網(wǎng)站于當(dāng)日下午發(fā)布關(guān)于浙江網(wǎng)商銀行的開業(yè)批復(fù)的同時(shí),支付寶的系統(tǒng)在下午5點(diǎn)左右出現(xiàn)了故障,這導(dǎo)致全國部分用戶支付寶錢包的功能無法使用,出現(xiàn)了“網(wǎng)絡(luò)繁忙、請稍后再試”的提示語。

  對此,支付寶錢包官方微博在當(dāng)天晚間6:05解釋稱,此次事故的是“由于杭州市蕭山區(qū)某地光纖被挖斷”而“造成目前少部分用戶無法使用支付寶”,支付寶表示,運(yùn)營商正在搶修,而支付寶的工程師正在緊急將用戶請求切換至其他機(jī)房。支付寶還稱,用戶的資金安全并不會因此而受到影響,而交易數(shù)據(jù)不同步的情況也會在修復(fù)后恢復(fù)同步。

  從下午5時(shí)許到晚間7時(shí)左右,系統(tǒng)的故障在持續(xù)了兩個(gè)小時(shí)左右后被排除。擁有超過4萬億年交易總額的支付寶是中國第一大第三方交易平臺,約占中國整體社會消費(fèi)金額的六分之一。由于支付寶的在金融領(lǐng)域的系統(tǒng)重要性程度,以及其獨(dú)特的基于云計(jì)算的IT技術(shù)架構(gòu),此次故障受到各方關(guān)注。

  對于導(dǎo)致此次事件的原因,螞蟻金服方面的解釋并未獲得金融和互聯(lián)網(wǎng)界的廣泛認(rèn)同。業(yè)界聚焦于這樣一個(gè)問題,如果按金融機(jī)構(gòu)系統(tǒng)災(zāi)備標(biāo)準(zhǔn)衡量的話,即使在出現(xiàn)光纜被挖斷的情形,系統(tǒng)的運(yùn)行也應(yīng)該正常無誤。

  一位資深電信領(lǐng)域?qū)<冶硎?,現(xiàn)在網(wǎng)絡(luò)架構(gòu)多中心制決定了,任何一個(gè)節(jié)點(diǎn)出現(xiàn)問題,它的任務(wù)將由其他中心來承接。而支付寶肯定是多節(jié)點(diǎn)多中心制。任何一點(diǎn)斷服,都會由其他節(jié)點(diǎn)來進(jìn)行服務(wù)。而且支付寶的路由非常多,其系統(tǒng)也不可能只接一家運(yùn)營商,即便是只接一家,肯定也是多路由接入。

  另一位傳統(tǒng)金融機(jī)構(gòu)的系統(tǒng)安全領(lǐng)域?qū)<曳Q,從理論上講,支付寶應(yīng)該全部是互聯(lián)網(wǎng)出口,也就是說,所有的入口和出口都是基于互聯(lián)網(wǎng)通信或者電信的節(jié)點(diǎn)來實(shí)現(xiàn)數(shù)據(jù)的交換和通信,關(guān)鍵節(jié)點(diǎn)出現(xiàn)斷電或者光纖挖斷的情況,理論上應(yīng)該有備份的接口,就相當(dāng)于可以放棄出現(xiàn)故障的線路,通過其他的專線可以繼續(xù)保證運(yùn)行。他因此推斷斷的電纜應(yīng)該是離主機(jī)房比較近的一根線。

  簡而言之,在光纜被挖的情況下,整個(gè)系統(tǒng)的切換應(yīng)該可以更加順暢。

  在我國金融領(lǐng)域,金融機(jī)構(gòu)涉及客戶資金的重要系統(tǒng)都有災(zāi)備系統(tǒng)。比如,目前國有大型銀行基本上是采用“兩地三中心”的模式,即同城除了有一個(gè)災(zāi)備中心以外,異地也有一個(gè)災(zāi)備中心,這樣就可以應(yīng)對戰(zhàn)爭、重大災(zāi)難等極端情形。因此,當(dāng)一個(gè)機(jī)房出問題時(shí),系統(tǒng)會切到同城或者異地的災(zāi)備中心。

  湯森路透的金融網(wǎng)絡(luò)網(wǎng)絡(luò)號稱世界最大的,它處理著全球?qū)崟r(shí)的金融數(shù)據(jù),其系統(tǒng)的建設(shè)要求就是在自然災(zāi)害或戰(zhàn)爭的時(shí)候也不能宕機(jī),兩條不同電信公司的光纜和不同電力公司的電纜分別從機(jī)房的兩個(gè)方向浸入,同一個(gè)機(jī)房的所有系統(tǒng)實(shí)時(shí)雙備份,并建立異地(巴黎、日內(nèi)瓦)機(jī)房同時(shí)實(shí)時(shí)處理相同的數(shù)據(jù)。

  一位國有大型銀行的專業(yè)人士分析,通常來說,如果是同城災(zāi)備,客戶根本感受不到延遲,如果是異地,系統(tǒng)的切換也會在較短的時(shí)間內(nèi)完成。但無論同城還是異地,兩個(gè)小時(shí)的系統(tǒng)切換的時(shí)間對于支付寶這樣一個(gè)金融支付系統(tǒng)來說顯然太長。

  這一說法得到多位接受采訪的電信技術(shù)人士的支持。中國電信的一位技術(shù)高層人士分析,服務(wù)故障切換機(jī)制應(yīng)該是自動(dòng)的,根據(jù)一定的事先設(shè)置的策略,無需人為干預(yù),人工可以在服務(wù)切換后,再重新定義流量疏導(dǎo)方式。

  一位螞蟻金服的高管解釋了切換時(shí)間較長的原因。他表示,大流量網(wǎng)站實(shí)時(shí)切換涉及資金時(shí)有難度。切換時(shí)的數(shù)據(jù)要確保不丟不錯(cuò),所以放緩速度是為了安全,對此,他們也在內(nèi)部討論這個(gè)選擇的利弊,但認(rèn)為,首先要保證客戶資金安全,當(dāng)然未來仍有優(yōu)化空間。在這次恢復(fù)中,支付寶已發(fā)現(xiàn)了可以更快恢復(fù)的一些環(huán)節(jié),未來出現(xiàn)類似情況有把握更快且更安全的恢復(fù)。

  而某大型國企網(wǎng)絡(luò)運(yùn)維人員則認(rèn)為,從技術(shù)角度看,支付寶此次事故可能是內(nèi)部應(yīng)用模塊出了問題,未經(jīng)嚴(yán)格驗(yàn)證的應(yīng)用被統(tǒng)一升級后,被意外觸發(fā)到未知狀態(tài),導(dǎo)致出現(xiàn)此類問題。

  上述運(yùn)維人員還表示,經(jīng)他觀察,支付寶DBA(數(shù)據(jù)管理人員)緊急恢復(fù)了RPO=10days的完整數(shù)據(jù)(RPO,Recovery Point Objective,復(fù)原點(diǎn)目標(biāo),是指當(dāng)服務(wù)恢復(fù)后,恢復(fù)得來的數(shù)據(jù)所對應(yīng)時(shí)間點(diǎn),理想的狀態(tài)是RPO=0,故障出現(xiàn)立即恢復(fù),但需要極大投入),并不停地進(jìn)行分段增量數(shù)據(jù)恢復(fù),歷時(shí)約2小時(shí)余,這就是應(yīng)用模塊的問題。 ?

發(fā)表評論

醫(yī)療健康