步骤1:确认物理接口状态(交换机/路由器)。在设备上执行:
- Cisco:show interfaces GigabitEthernet0/0/0 | include line|input|output|Last clearing
- Juniper:show interfaces ge-0/0/0 terse; show interfaces ge-0/0/0 statistics
- Linux:ip link show eth0; ethtool eth0(检查Speed/duplex/tx-errors/rx-errors)
步骤2:检查SFP光模块与光功率:确认Rx/Tx dBm 在供应商范围内,替换怀疑模块。
步骤3:检查链路聚合(LACP)与VLAN:在对端确认聚合配置、LACP状态为active/partner;确认本端/对端MTU一致(常见MTU问题导致 MSS/分片)。
小提示:发现CRC、align错误先更换光模块或光纤,排除链路层问题再往上查路由/BGP。
步骤1:Ping 外部目标(运营商网关 / 对端BGP邻居 / 目标服务IP),记录丢包与RTT:ping -c 50 -s 1400
步骤2:使用traceroute/mtr定位丢包节点:mtr --report --report-cycles 100
步骤3:抓包确认:tcpdump -i eth0 host
小分段:若丢包在运营商侧(mtr 显示跳跃丢包),记录时间与频率并联系运营商提供 BGP/网管协助。
步骤1:检查BGP邻居状态:
- Cisco:show ip bgp summary | include
- Juniper:show bgp neighbor
步骤2:确认对端是否撤回前缀或发送了不期望的属性(AS-PATH、COMMUNITY、LOCAL_PREF、MED)。查看本地 BGP 表:show ip bgp
步骤3:对比全网可达性:从公网上不同检测点(e.g. bgp.he.net, RIPE RIS, Looking Glass)查看你的前缀是否被全网接受或被污染。
小提示:若邻居 flapping,检查 keepalive/holdtime、对端防火墙和中间防护设备及 TCP MSS。
步骤1:确认 DNS 是否解析到正确 IP:dig +short www.example.com @你的DNS;查看多个公共 DNS(8.8.8.8、1.1.1.1)结果。
步骤2:用 curl 或 wget 测试具体业务端口:curl -v --connect-timeout 5 https://
步骤3:若网站可达性受影响,确认后端服务器与负载均衡器状态,检查 NAT/PAT 规则或防火墙策略是否在链路故障切换中生效。
小分段:同时检查日志(nginx/Apache/应用日志)以排除应用自身问题。
策略1:启用 BFD + BGP Adj-RIB 快速检测与切换(亚秒级)。配置示例(Cisco):
- config t
- bfd template single-hop 1
- interface Gig0/0/0
- ip address x.x.x.x 255.255.255.0
- neighbor
策略2:采用 BGP 本地优先(local-preference)与路由策略控制主备:在主链路对外宣告更高 local-pref,或在备链路上注入更差的 local-pref/AS-Path prepend。示例:route-map SET_LOCAL_PREF permit 10 set local-preference 200。
策略3:控制平面快速切换:在边界路由器上配置 IP SLA / SLA tracking(Cisco)或 NQA(Huawei)监控目的 IP,故障时通过 tracked static route 或 route-map 自动切换BGP下一跳。
小分段:结合 VRRP/Keepalived 在二层实现网关冗余;结合防火墙会话同步减少切换抖动对会话影响。
步骤1:上报与监控:部署 Zabbix/Prometheus+Grafana 监控链路抖动、BGP邻居状态、丢包/RTT、interface errors;配置告警阈值并通知值班人。
步骤2:自动化脚本与安全回退:使用 Ansible/Netmiko 编写切换脚本(调整 route-map、BGP-prepend、interface shutdown/no shutdown),并在脚本中加入回滚点与审批日志。
步骤3:制定演练计划:每季度与运营商做切换演练(计划维护窗),记录影响并优化流程。演练中验证 BFD 超时、BGP 本地优先、VRRP 切换时间并收集指标。
小分段:保持配置在版本控制中,变更要走变更管理流程并在低峰期先做灰度验证。
答:第一时间按优先级执行:1) 检查物理链路与接口错误(ethtool/show interfaces);2) 使用 ping/traceroute/mtr 定位丢包节点并记录时间段;3) 检查 BGP 邻居是否 flapping(show ip bgp summary);4) 抓包(tcpdump)确认是数据面问题还是握手被丢弃;同时通知运营商并提供 mtr/traceroute 与抓包证据以便他们协助排查中间链路问题。
答:推荐组合:BFD + BGP(快速检测并重路由)+ VRRP/Keepalived(网关冗余)+ 会话同步(如防火墙状态同步)+ 应用层健康检查(IP SLA/NQA)。同时使用 BGP local-preference 控制主备,演练切换并在应用层做重试机制(短时重试和幂等设计)来降低用户感知的中断。

答:请提供:1) 具体时间点与时区;2) 源IP/目标IP与端口;3) mtr/traceroute 输出(含每跳IP与丢包率);4) BGP邻居状态与show ip bgp