上星期二,香港賽馬會因為內部網絡問題,令到全港102間場外投注站無法接受投注接近兩小時,需要啟動另外一個數據中心,並要啟動數據轉移,確保所有投注不受影響,服務才恢復正常,不過上星期三又有五十多間場外投注站局部無法接受投注。其實我認為投注並不算是一種緊急、有迫切性的公眾服務,所以即使投注時間少了兩小時其實亦「唔死得人」,但這類嚴重資訊系統事故,竟然發生在資源充足的香港賽馬會身上,那就難免有點匪夷所思了。
一般高質素的網絡系統,為了提供無間斷服務,通常都會設有最少兩個或以上的數據中心同時間運作,數據庫會在同一時間處理及儲存每一項交易,兩個數據庫更會有心跳(Heartbeat)互聯,如果其中一個數據中心因為內部機件發生故障、資料庫出錯、網絡問題,甚至區域性停電等,另外一個數據中心就會立即負責承接全部運作,直到有問題的數據中心恢復正常運作為止,業內術語稱之為故障轉移(Failover)。此外兩個數據中心亦盡量不會放置在同一區內,避免發生網絡問題或者區域性大停電時,影響到同一區的兩個數據中心一起不能運作。如果這些數據中心還涉及人手操作的問題,那麼兩邊都應該準備充足人手,一旦發生問題的時候,最少仍然可以維持局部運作,直到有問題的中心妥善調配人手到另外一個中心為止。
今次香港賽馬會出現的問題,可能只是冰山一角,希望香港賽馬可以徹查問題,並盡快找出修補方案,倘若下一次再發生同樣的問題時,損失未必只是兩個小時的投注額,或者只是順延六合彩攪珠的日期這麼簡單了。