运维手册
这些 runbook 是 k8s-config 仓库 docs/ 目录下的 Markdown 文档,记录 etcd 恢复、节点宕机、备份恢复、kube-vip、监控、OIDC 等场景的处置流程。它们以 .md 形式存在,不在本文档站的路由里,下面每条链接都指向 GitHub 仓库的源文件。
事故应急
集群级故障与节点宕机的应急处置。
- Name
- worker3 / infra 节点宕机应急 Runbook
- Description
infra-node-down-runbook.md —— worker3(
workload=infra,pve3 上的 VM113)是集群唯一的 infra 承载点,同时承载全部数据库。说明它整机宕机(或 pve3 宕机)时哪些能自动/手动快速拉回、哪些必须等节点或从备份恢复、按什么顺序恢复。
- Name
- 集群网络抖动 / 节点网络分区 排查与处置 Runbook
- Description
cluster-network-instability-runbook.md —— 记录一次集群级网络不稳事件的根因、处置以及最终的物理根治(三台 PVE 迁至同一台有线交换机、放宽 corosync token)。每日约 20:00 UTC 控制器集体重启潮的定位证据存档于此。
节点与 PVE
节点上下线、drain、扩缩容,以及底层 Proxmox VE 集群与仲裁。
- Name
- k8s 节点运维手册
- Description
node-operations-runbook.md —— 节点合并、新增、资源重配比的实操与事故复盘。核心教训:drain 的前提是"pod 有地方去",必须验证 nodeSelector 绑定,不能假设(2026-06-12 因此误删唯一 infra 节点导致 DNS / 入口停服约 10 分钟)。
- Name
- PVE 集群与 QDevice
- Description
pve-cluster-and-qdevice.md —— Proxmox 层文档:集群拓扑、QDevice 仲裁、新节点加入流程、VM 创建规范。
- Name
- kube-vip 部署指南
- Description
kube-vip-deployment-guide.md —— kube-vip 的部署与配置,为 Kubernetes 控制平面提供高可用虚拟 IP(VIP
192.168.88.99:6443)。
备份与恢复
数据备份的总纲与 etcd 控制面状态恢复。
- Name
- 备份与恢复手册
- Description
backup-and-restore-runbook.md —— 集群所有重要数据的备份与恢复总纲,覆盖三类数据源(Oracle 主机服务、集群 etcd、Velero)、三层存储(源 → 集群 MinIO → Synology NAS)以及完整的解密 / 恢复流程。
- Name
- etcd 备份和恢复方案
- Description
etcd-backup-and-recovery-guide.md —— etcd 是 Kubernetes 集群的"大脑",存储所有集群状态(资源定义、ConfigMap、Secret 等)。本文档说明其备份与恢复方案。
监控与可观测
Prometheus / Grafana / Loki 的部署、Dashboard、日志查询、告警与备份。
- Name
- 监控系统部署指南
- Description
monitoring-deployment-guide.md —— 完整的监控系统配置,涵盖 Prometheus 告警规则完善、Grafana Dashboard 配置等。
- Name
- 监控系统备份与恢复指南
- Description
monitoring-backup-restore.md —— 监控组件的自动定时备份配置:备份时间、保留期限与备份内容,以及恢复流程。
- Name
- Grafana Dashboard 配置指南
- Description
grafana-dashboards-guide.md —— Grafana Dashboard 的导入方式与数据源(Prometheus)配置。
- Name
- Loki 日志查询和告警指南
- Description
loki-query-and-alerts-guide.md —— Loki 的 LogQL 日志查询示例与告警配置。
认证与接入
集群与监控组件的 SSO / OAuth / OIDC 登录配置。
- Name
- Kubernetes OIDC 认证使用指南
- Description
OIDC-LOGIN-GUIDE.md —— kubectl 通过 OIDC authcode 登录集群的配置与使用流程。
- Name
- Monitoring Dex OAuth2 认证配置
- Description
monitoring-dex-oauth2-setup.md —— 为 Prometheus 和 Grafana 配置基于 Dex(
dex.yldm.tech)的 Google OAuth 认证。
- Name
- Grafana SSO 配置说明
- Description
grafana-sso-setup.md —— Grafana 单点登录的认证链路与配置说明。
main 分支的最新内容为准。新增 runbook 后记得在本索引页补一条对应链接。