1.
风险概要與影響面
- 停电直接造成机房伺服器宕机,影響網站與API可用性。
- 對交易型服務,平均每分鐘損失可達數十萬台幣(視業務規模)。
- DNS解析、SSL更新、電子郵件服務皆可能中斷,衍生連鎖故障。
- 停电期間若無發電/UPS,資料庫可能因非正常關機而損壞。
- 法規與SLA違約風險,企業形象與客戶信任受損。
2.
基礎設施技術對策
- 建議雙機房(主/備)跨台北與台中/高雄,採用同步或異步複寫。
- 設置兩組以上UPS(例如2×10kVA N+1)與自動啟動柴油發電機。
- 機房網路採BGP多線路、不同電信業者匯流出口。
- 伺服器採用冗餘硬體(RAID10、雙電源、熱備件)。
- 建立自動化故障切換腳本與健康檢測(heartbeat + keepalived)。
3.
DNS、域名與流量切換策略
- 將主DNS與備援DNS分別放在不同ISP與位置。
- TTL設定為60秒到300秒以加速切換(高頻業務建議60秒)。
- 使用域名託管商API實現自動化CNAME/ A 切換。
- 結合Anycast與GeoDNS將流量導向可用節點。
- 定期演練DNS切換流程並記錄RTO、RPO數據。
4.
CDN與DDoS防禦佈局
- 採用多家CDN(例如Cloudflare/Akamai/本地CDN)做流量分散。
- 在CDN邊緣緩存靜態資源減少起源伺服器負擔。
- 配置DDoS即時防護策略與速率限制、IP黑名單。
- 設置WAF規則防止應用層攻擊。
- 建立與CDN廠商的緊急聯絡與流量清洗SLA。
5.
伺服器/VPS/主機實際配置範例
- 主站實體伺服器:Dell R740x2,CPU Intel Xeon Silver 4214×2,RAM 192GB,NVMe RAID10。
- 備援VPS群:10台 vCPU 4 / RAM 8GB / SSD 100GB,分散於不同機房。
- 資料庫主從:Primary MySQL 8.0(同步複寫)、Replica 延遲<200ms。
- 網路:兩條10Gbps光纖(ISP-A、ISP-B),BGP Anycast路由。
- 備援恢復目標:RTO ≤ 5 分鐘(DNS切換+自動化啟動腳本)。
6.
真實案例與演練紀錄
- 案例:台北某大型電商(化名A公司)因機房配電維護未通知,導致30分鐘內訂單下單失敗,系統P99響應時間從0.6s飆至12s。
- 採取措施:增設第三方CDN、啟動異地備援資料庫並將TTL降至60s。
- 演練結果:切換後平均恢復時間由原先的30分鐘降至4分鐘,資料損失為0。
- 建議定期季度演練並記錄RTO/RPO,以數據作為改善基準。
- 建立事後回顧與技術報告,納入變更管理流程以降低再發。
7.
總結與行動建議
- 優先投入電力與網路冗餘(UPS+發電機+BGP);
- 實施跨區域備援、CDN+WAF+DDoS清洗;
- 自動化DNS切換與健康檢測,TTL設定為60~300秒;
- 定期演練、監控、容量估算並納入SLA;
- 建議由IT與營運共同制定「停電應變手冊」,並每半年檢視。
| 項目 |
主站 |
備援 |
| CPU |
2×Xeon Silver 4214 |
vCPU 4×10台 |
| 記憶體 |
192GB |
8GB×10台 |
| 網路 |
2×10Gbps BGP |
各機房1×1~10Gbps |
| RTO / RPO |
≤5 分鐘 / 0 |
≤15 分鐘 / 1小時 |
来源:台北大型企业如何应对台湾机房停电带来的风险与对策