1.
概述与准备
说明:确认新增的台湾服务器位于区域 asia-east1;先启用 API(Cloud Monitoring、Cloud Logging、IAM)。在 Cloud Console -> APIs & Services 启用 Monitoring API 和 Cloud Logging。准备好项目 ID、服务帐号权限(roles/monitoring.editor、roles/logging.viewer、roles/logging.privateLogViewer)。
2.
在 VM 上安装 Google Cloud Ops Agent(采集日志与指标)
步骤:SSH 登录到 VM。Debian/Ubuntu 执行:
curl -sSO https://dl.google.com/cloudagents/add-google-cloud-ops-agent-repo.sh && sudo bash add-google-cloud-ops-agent-repo.sh && sudo apt-get update && sudo apt-get install google-cloud-ops-agent -y
RHEL/CentOS 使用 rpm/ yum 安装。安装后 sudo systemctl restart google-cloud-ops-agent,并确认日志 /var/log/google-cloud-ops-agent/。
3.
配置应用日志收集与解析
步骤:编辑 Ops Agent 配置 /etc/google-cloud-ops-agent/config.yaml,添加你的应用日志路径与解析器示例:
logs:
- type: files
include_paths: ["/var/www/myapp/log/*.log"]
labels: {env: "prod", region: "asia-east1"}
重启 agent 并在 Cloud Logging 搜索资源类型为 gce_instance 的日志验证。
4.
建立日志导出(长期保存与分析)
步骤:若需长期存储或 BI 分析,创建日志 Sink 导出到 BigQuery 或 Cloud Storage。示例:
gcloud logging sinks create sink-tw bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET --log-filter='resource.labels.zone:"asia-east1" AND resource.type="gce_instance"'
随后为 sink 的服务帐号赋予 BigQuery Data Editor 角色。
5.
监控指标与自定义指标
步骤:默认收集 CPU、内存(需 Ops Agent)、磁盘、网络;如需业务指标(请求数、延迟),在应用中通过 Cloud Monitoring API 推送自定义指标,或使用 Prometheus -> Managed Service for Prometheus。示例:采用 OpenMetrics exporter 部署并在 Monitoring 中添加指标视图。
6.
创建仪表盘(Dashboard)
步骤:进入 Cloud Monitoring -> Dashboards -> Create Dashboard -> Add Chart。选择 Metric 类型(例如 compute.googleapis.com/instance/cpu/utilization),在 Filter 中加入 resource.labels.zone="asia-east1"。为网络延迟、丢包、磁盘 IOPS 建立独立图表,并保存为团队共享。
7.
配置告警策略与 Uptime Checks
步骤:在 Monitoring -> Uptime checks 新建检查,目标填写实例外网 IP 或负载均衡器的域名,选择检查来源(可选东京、新加坡等节点做跨区比对)。随后在 Alerting -> Create Policy 添加条件(如 CPU>80% 连续 5 分钟,或 HTTP 响应时间 > 1s),并设置通知渠道(邮件、SMS、Webhook、PagerDuty)。
8.
网络监控与流量日志
步骤:在 VPC subnet 级别启用 VPC Flow Logs(Console -> VPC network -> Subnets -> Edit -> Flow logs)。将 flow logs 导出到 Logging 或 BigQuery,用于流量分析与异常检测。若需深度包分析,考虑 Packet Mirroring 与第三方工具。
9.
问:添加台湾服务器后,优先配置哪三项监控?
答:优先:1) 安装 Ops Agent 收集系统与应用日志;2) 建立 Uptime Check 与基础性能告警(CPU、内存、磁盘);3) 配置日志导出(BigQuery/Cloud Storage)用于长期分析与合规。
10.
问:如何快速验证日志已正确采集到 Cloud Logging?
答:在 VM 触发一条测试日志(如 echo "test" >> /var/log/mytest.log),在 Cloud Console -> Logging -> Logs Explorer 使用 filter:resource.type="gce_instance" AND textPayload:"test" 搜索,若能看到日志条目则采集成功。
11.
问:跨区延迟或丢包如何监测与定位?
答:使用 Uptime Checks 在多区域发起合成请求并记录响应时间;开启 VPC Flow Logs 分析网络路径;结合 Traceroute 与 Cloud Monitoring 自定义指标,若应用层出现问题则引入 Cloud Trace/Profiler 定位请求链路。
来源:监控方案 谷歌云添加台湾服务器后的日志与性能监测建议