yldm 平台文档

这里是 yldm 自托管 K3s 高可用集群的平台文档:集群是怎么搭起来的、改动如何通过 GitOps 落地、每一类服务跑在哪、出问题查哪本手册。所有运行配置由 ArgoCD 从 yldm-tech/k8s-config 仓库的 main 分支自动同步。

这套集群是什么

一个由 4 台 Proxmox VE 主机承载的 7 节点 K3s HA 集群(3 master + 4 worker),上面跑着业务应用、平台服务、游戏服务器,以及支撑它们的数据库、消息队列、可观测性和 CI/CD 基础设施。没有手动 kubectl apply —— 合并到 main 几分钟后,改动就会被 ArgoCD 自动同步进集群。承载集群的 PVE 虚拟机本身由另一个仓库 pve-infra 用 Terraform 管理。

快速导览

集群架构

从 PVE 到 K3s 再到 ArgoCD,集群怎么搭起来的。

Read more

GitOps 工作流

App-of-apps 与 ApplicationSet 两层编排。

Read more

节点与调度

7 节点拓扑、workload 标签与调度约束。

Read more

运维手册

etcd 恢复、节点宕机、备份还原等手册。

Read more

Resources

业务服务

app / platform / game 三类业务服务。

数据与消息

Postgres、MongoDB、Redis、Kafka 等数据与消息。

基础设施

ArgoCD、Vault、cert-manager 等支撑组件。

可观测性

Prometheus / Grafana / Loki / Tempo 四件套。