Kubernetes容器服务运维实战经验分享从部署到优化的全流程指南涵盖集群搭建应用发布服务发现负载均衡自动扩缩容等核心运维技能

威震华夏关云长 · 发表于 2025-9-5 17:00:00

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

引言

Kubernetes（简称K8s）作为容器编排的事实标准，已经成为了现代云原生应用部署和管理的核心平台。它提供了自动化部署、扩展和管理容器化应用程序的能力，极大地简化了运维工作。然而，Kubernetes的复杂性也给运维人员带来了不小的挑战。本文将分享从Kubernetes集群搭建到应用优化的全流程实战经验，涵盖集群搭建、应用发布、服务发现、负载均衡、自动扩缩容等核心运维技能，帮助读者掌握Kubernetes容器服务的运维要点。

Kubernetes集群搭建

环境准备

在开始搭建Kubernetes集群之前，我们需要准备合适的环境。以下是基于Ubuntu系统的环境准备步骤：

# 更新系统包
sudo apt update && sudo apt upgrade -y
# 安装Docker
sudo apt install -y docker.io
sudo systemctl enable docker
sudo systemctl start docker
# 配置Docker驱动
sudo mkdir -p /etc/docker
cat <<EOF | sudo tee /etc/docker/daemon.json
{
"exec-opts": ["native.cgroupdriver=systemd"],
"log-driver": "json-file",
"log-opts": {
"max-size": "100m"
},
"storage-driver": "overlay2"
}
EOF
sudo systemctl restart docker
# 禁用swap
sudo swapoff -a
sudo sed -i '/ swap / s/^$.*$$/#\1/g' /etc/fstab
# 安装kubeadm, kubelet和kubectl
sudo apt install -y apt-transport-https ca-certificates curl
curl -s https://packages.cloud.google.com/apt/doc/apt-key.gpg | sudo apt-key add -
echo "deb https://apt.kubernetes.io/ kubernetes-xenial main" | sudo tee /etc/apt/sources.list.d/kubernetes.list
sudo apt update
sudo apt install -y kubelet kubeadm kubectl
sudo apt-mark hold kubelet kubeadm kubectl
# 配置内核参数
cat <<EOF | sudo tee /etc/sysctl.d/k8s.conf
net.bridge.bridge-nf-call-ip6tables = 1
net.bridge.bridge-nf-call-iptables = 1
net.ipv4.ip_forward = 1
EOF
sudo sysctl --system

复制代码

使用kubeadm部署集群

使用kubeadm部署Kubernetes集群是最简单的方式之一。以下是部署主节点和工作节点的步骤：

主节点部署：

# 初始化主节点
sudo kubeadm init --pod-network-cidr=10.244.0.0/16
# 配置kubectl
mkdir -p $HOME/.kube
sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
sudo chown $(id -u):$(id -g) $HOME/.kube/config
# 安装网络插件（这里使用Flannel）
kubectl apply -f https://raw.githubusercontent.com/coreos/flannel/master/Documentation/kube-flannel.yml
# 允许主节点也运行Pod（可选，适用于单节点测试环境）
kubectl taint nodes --all node-role.kubernetes.io/master-

复制代码

工作节点加入：

# 在主节点上获取加入命令
kubeadm token create --print-join-command
# 在工作节点上执行输出的加入命令
# 例如：sudo kubeadm join <master-ip>:<master-port> --token <token> --discovery-token-ca-cert-hash <hash>

复制代码

验证集群状态

集群部署完成后，我们需要验证集群状态是否正常：

# 查看节点状态
kubectl get nodes
# 查看系统组件状态
kubectl get pods -n kube-system
# 查看集群信息
kubectl cluster-info

复制代码

如果所有节点都处于Ready状态，并且系统组件正常运行，那么我们的Kubernetes集群就已经成功搭建了。

应用部署与管理

创建Deployment

Deployment是Kubernetes中最常用的资源对象之一，用于管理Pod和ReplicaSet，提供声明式的更新方式。以下是一个简单的Nginx应用部署示例：

apiVersion: apps/v1
kind: Deployment
metadata:
name: nginx-deployment
labels:
app: nginx
spec:
replicas: 3
selector:
matchLabels:
app: nginx
template:
metadata:
labels:
app: nginx
spec:
containers:
- name: nginx
image: nginx:1.21
ports:
- containerPort: 80
resources:
requests:
memory: "64Mi"
cpu: "250m"
limits:
memory: "128Mi"
cpu: "500m"

复制代码

使用以下命令部署应用：

kubectl apply -f nginx-deployment.yaml

复制代码

使用ConfigMap和Secret管理配置

在实际应用中，我们通常需要管理配置信息和敏感数据。Kubernetes提供了ConfigMap和Secret来实现这一功能。

ConfigMap示例：

apiVersion: v1
kind: ConfigMap
metadata:
name: nginx-config
data:
default.conf: |
server {
listen 80;
server_name localhost;
location / {
root /usr/share/nginx/html;
index index.html index.htm;
}
error_page 500 502 503 504 /50x.html;
location = /50x.html {
root /usr/share/nginx/html;
}
}

复制代码

Secret示例：

apiVersion: v1
kind: Secret
metadata:
name: mysql-secret
type: Opaque
data:
# echo -n 'admin' | base64
username: YWRtaW4=
# echo -n 'password' | base64
password: cGFzc3dvcmQ=

复制代码

在Pod中使用ConfigMap和Secret：

apiVersion: v1
kind: Pod
metadata:
name: nginx-pod
spec:
containers:
- name: nginx
image: nginx:1.21
volumeMounts:
- name: nginx-config-volume
mountPath: /etc/nginx/conf.d/
env:
- name: DB_USERNAME
valueFrom:
secretKeyRef:
name: mysql-secret
key: username
- name: DB_PASSWORD
valueFrom:
secretKeyRef:
name: mysql-secret
key: password
volumes:
- name: nginx-config-volume
configMap:
name: nginx-config

复制代码

使用PersistentVolume管理存储

对于需要持久化存储的应用，Kubernetes提供了PersistentVolume（PV）和PersistentVolumeClaim（PVC）机制。

PersistentVolume示例：

apiVersion: v1
kind: PersistentVolume
metadata:
name: nfs-pv
spec:
capacity:
storage: 10Gi
volumeMode: Filesystem
accessModes:
- ReadWriteMany
persistentVolumeReclaimPolicy: Retain
nfs:
path: /data/nfs
server: nfs-server.example.com

复制代码

PersistentVolumeClaim示例：

apiVersion: v1
kind: PersistentVolumeClaim
metadata:
name: nfs-pvc
spec:
accessModes:
- ReadWriteMany
resources:
requests:
storage: 5Gi

复制代码

在Pod中使用PVC：

apiVersion: v1
kind: Pod
metadata:
name: nfs-pod
spec:
containers:
- name: nfs-container
image: nginx:1.21
volumeMounts:
- name: nfs-storage
mountPath: /usr/share/nginx/html
volumes:
- name: nfs-storage
persistentVolumeClaim:
claimName: nfs-pvc

复制代码

服务发现与负载均衡

Service资源的使用

Service是Kubernetes中用于实现服务发现和负载均衡的核心资源对象。以下是几种常见的Service类型：

ClusterIP（默认类型）：

apiVersion: v1
kind: Service
metadata:
name: nginx-service
spec:
selector:
app: nginx
ports:
- protocol: TCP
port: 80
targetPort: 80
type: ClusterIP

复制代码

NodePort：

apiVersion: v1
kind: Service
metadata:
name: nginx-service
spec:
selector:
app: nginx
ports:
- protocol: TCP
port: 80
targetPort: 80
nodePort: 30080
type: NodePort

复制代码

LoadBalancer：

apiVersion: v1
kind: Service
metadata:
name: nginx-service
spec:
selector:
app: nginx
ports:
- protocol: TCP
port: 80
targetPort: 80
type: LoadBalancer

复制代码

Ingress控制器配置

Ingress是管理集群外部访问到集群内部服务的规则集合。以下是使用Nginx Ingress Controller的示例：

安装Nginx Ingress Controller：

kubectl apply -f https://raw.githubusercontent.com/kubernetes/ingress-nginx/controller-v1.1.1/deploy/static/provider/cloud/deploy.yaml

复制代码

创建Ingress资源：

apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
name: nginx-ingress
annotations:
nginx.ingress.kubernetes.io/rewrite-target: /
spec:
rules:
- host: example.com
http:
paths:
- path: /
pathType: Prefix
backend:
service:
name: nginx-service
port:
number: 80

复制代码

DNS和服务发现

Kubernetes内置了DNS服务，用于服务发现。在集群内部，可以通过服务名称直接访问其他服务：

# 在Pod中访问服务
curl http://nginx-service
# 使用完全限定域名访问
curl http://nginx-service.default.svc.cluster.local

复制代码

对于跨命名空间的服务访问，可以使用以下格式：

curl http://nginx-service.another-namespace.svc.cluster.local

复制代码

自动扩缩容

HPA (Horizontal Pod Autoscaler)

Horizontal Pod Autoscaler（HPA）可以根据CPU使用率或其他自定义指标自动调整Deployment的副本数量。

创建HPA：

apiVersion: autoscaling/v2beta2
kind: HorizontalPodAutoscaler
metadata:
name: nginx-hpa
spec:
scaleTargetRef:
apiVersion: apps/v1
kind: Deployment
name: nginx-deployment
minReplicas: 3
maxReplicas: 10
metrics:
- type: Resource
resource:
name: cpu
target:
type: Utilization
averageUtilization: 50
- type: Resource
resource:
name: memory
target:
type: Utilization
averageUtilization: 70

复制代码

或者使用命令行创建：

kubectl autoscale deployment nginx-deployment --cpu-percent=50 --min=3 --max=10

复制代码

VPA (Vertical Pod Autoscaler)

Vertical Pod Autoscaler（VPA）可以自动调整Pod的资源请求和限制。首先需要安装VPA：

git clone https://github.com/kubernetes/autoscaler.git
cd autoscaler/vertical-pod-autoscaler/
./hack/vpa-up.sh

复制代码

创建VPA：

apiVersion: autoscaling.k8s.io/v1
kind: VerticalPodAutoscaler
metadata:
name: nginx-vpa
spec:
targetRef:
apiVersion: "apps/v1"
kind: "Deployment"
name: "nginx-deployment"
updatePolicy:
updateMode: "Auto"
resourcePolicy:
containerPolicies:
- containerName: "nginx"
minAllowed:
cpu: "250m"
memory: "100Mi"
maxAllowed:
cpu: "2000m"
memory: "2048Mi"

复制代码

Cluster Autoscaler

Cluster Autoscaler可以根据集群中资源的使用情况自动调整节点数量。安装Cluster Autoscaler的方法因云提供商而异，以下是在AWS上的安装示例：

# 下载Cluster Autoscaler清单文件
wget https://raw.githubusercontent.com/kubernetes/autoscaler/master/cluster-autoscaler/cloudprovider/aws/examples/cluster-autoscaler-autodiscover.yaml
# 编辑配置文件，将<YOUR CLUSTER NAME>替换为你的集群名称
sed -i 's/<YOUR CLUSTER NAME>/my-cluster/g' cluster-autoscaler-autodiscover.yaml
# 应用配置
kubectl apply -f cluster-autoscaler-autodiscover.yaml

复制代码

监控与日志

使用Prometheus和Grafana监控

Prometheus是一个开源的监控和告警系统，特别适合于Kubernetes环境。Grafana则是一个可视化工具，可以与Prometheus集成。

安装Prometheus Operator：

kubectl create namespace monitoring
helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
helm repo update
helm install prometheus prometheus-community/kube-prometheus-stack -n monitoring

复制代码

创建自定义监控规则：

apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
name: nginx-rules
namespace: monitoring
labels:
app: prometheus-operator
spec:
groups:
- name: nginx
rules:
- alert: NginxDown
expr: up{job="nginx"} == 0
for: 5m
labels:
severity: critical
annotations:
summary: "Nginx实例不可用 (实例 {{ $labels.instance }})"
description: "Nginx实例 {{ $labels.instance }} 已停机超过5分钟。"

复制代码

配置Grafana仪表板：

可以通过Grafana UI导入预定义的仪表板，或者创建自定义仪表板。以下是一个简单的Grafana仪表板配置示例：

{
"dashboard": {
"id": null,
"title": "Nginx监控",
"tags": ["nginx"],
"timezone": "browser",
"panels": [
{
"id": 1,
"title": "CPU使用率",
"type": "graph",
"targets": [
{
"expr": "rate(container_cpu_usage_seconds_total{container="nginx"}[5m])",
"legendFormat": "{{pod}}"
}
],
"yaxes": [
{
"format": "short"
}
]
}
],
"time": {
"from": "now-1h",
"to": "now"
},
"refresh": "5m"
}
}

复制代码

日志收集与分析

在Kubernetes环境中，可以使用EFK（Elasticsearch、Fluentd、Kibana）或PLG（Promtail、Loki、Grafana）等日志收集方案。

安装Loki和Promtail：

helm repo add grafana https://grafana.github.io/helm-charts
helm repo update
helm install loki grafana/loki-stack -n monitoring

复制代码

配置日志收集规则：

apiVersion: v1
kind: ConfigMap
metadata:
name: promtail-config
namespace: monitoring
data:
promtail.yaml: |
client:
url: http://loki:3100/loki/api/v1/push
positions:
filename: /tmp/positions.yaml
scrape_configs:
- job_name: kubernetes-pods
kubernetes_sd_configs:
- role: pod
pipeline_stages:
- docker: {}
relabel_configs:
- source_labels:
- __meta_kubernetes_pod_label_name
target_label: __service__
- source_labels:
- __meta_kubernetes_pod_node_name
target_label: __host__

复制代码

故障排查与优化

常见问题及解决方案

Pod处于Pending状态：

可能原因：资源不足、节点不可用、镜像拉取失败等。

排查方法：

# 查看Pod详细信息
kubectl describe pod <pod-name>
# 查看事件
kubectl get events --sort-by='.metadata.creationTimestamp'

复制代码

解决方案：

# 检查节点资源
kubectl describe nodes
# 检查镜像是否存在
kubectl describe pod <pod-name> | grep Image
# 如果是资源不足问题，可以增加节点或调整资源请求

复制代码

Pod处于CrashLoopBackOff状态：

可能原因：应用程序错误、配置问题、资源限制等。

排查方法：

# 查看Pod日志
kubectl logs <pod-name>
kubectl logs <pod-name> --previous
# 查看Pod详细信息
kubectl describe pod <pod-name>

复制代码

解决方案：

# 检查应用程序日志，修复错误
# 调整资源限制
# 检查配置文件是否正确

复制代码

服务无法访问：

可能原因：网络策略、服务配置错误、端点问题等。

排查方法：

# 检查服务配置
kubectl get svc <service-name>
kubectl describe svc <service-name>
# 检查端点
kubectl get endpoints <service-name>
# 检查网络策略
kubectl get networkpolicy

复制代码

解决方案：

# 确保选择器正确匹配Pod标签
# 检查目标端口是否正确
# 检查网络策略是否阻止了流量

复制代码

性能优化策略

资源优化：

apiVersion: apps/v1
kind: Deployment
metadata:
name: optimized-nginx
spec:
template:
spec:
containers:
- name: nginx
image: nginx:1.21-alpine # 使用更小的镜像
resources:
requests:
memory: "32Mi" # 适当的资源请求
cpu: "100m"
limits:
memory: "64Mi" # 适当的资源限制
cpu: "200m"
env:
- name: GOMAXPROCS # 优化Go应用
valueFrom:
resourceFieldRef:
resource: limits.cpu
divisor: 1
livenessProbe: # 健康检查
httpGet:
path: /
port: 80
initialDelaySeconds: 30
periodSeconds: 10
readinessProbe:
httpGet:
path: /
port: 80
initialDelaySeconds: 5
periodSeconds: 5

复制代码

网络优化：

apiVersion: v1
kind: Pod
metadata:
name: network-optimized-pod
annotations:
k8s.v1.cni.cncf.io/networks: macvlan-conf # 使用更高效的网络插件
spec:
containers:
- name: app
image: myapp:latest
resources:
limits:
kubernetes.io/egress-bandwidth: 10M # 限制带宽
kubernetes.io/ingress-bandwidth: 10M

复制代码

存储优化：

apiVersion: v1
kind: PersistentVolumeClaim
metadata:
name: optimized-pvc
spec:
accessModes:
- ReadWriteOnce
storageClassName: fast-ssd # 使用更快的存储类
resources:
requests:
storage: 10Gi

复制代码

最佳实践与安全考虑

安全配置

使用RBAC控制访问：

apiVersion: v1
kind: ServiceAccount
metadata:
name: nginx-sa
---
apiVersion: rbac.authorization.k8s.io/v1
kind: Role
metadata:
name: nginx-role
rules:
- apiGroups: [""]
resources: ["pods", "services"]
verbs: ["get", "list", "watch"]
---
apiVersion: rbac.authorization.k8s.io/v1
kind: RoleBinding
metadata:
name: nginx-rolebinding
subjects:
- kind: ServiceAccount
name: nginx-sa
roleRef:
kind: Role
name: nginx-role
apiGroup: rbac.authorization.k8s.io

复制代码

使用Pod安全策略：

apiVersion: policy/v1beta1
kind: PodSecurityPolicy
metadata:
name: restricted-psp
spec:
privileged: false
allowPrivilegeEscalation: false
requiredDropCapabilities:
- ALL
volumes:
- 'configMap'
- 'emptyDir'
- 'projected'
- 'secret'
- 'downwardAPI'
- 'persistentVolumeClaim'
runAsUser:
rule: 'MustRunAsNonRoot'
seLinux:
rule: 'RunAsAny'
fsGroup:
rule: 'RunAsAny'

复制代码

使用网络策略：

apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
name: app-network-policy
spec:
podSelector:
matchLabels:
app: nginx
policyTypes:
- Ingress
- Egress
ingress:
- from:
- namespaceSelector:
matchLabels:
name: default
- podSelector:
matchLabels:
app: frontend
ports:
- protocol: TCP
port: 80
egress:
- to:
- namespaceSelector:
matchLabels:
name: default
ports:
- protocol: TCP
port: 3306

复制代码

资源管理最佳实践

使用资源配额：

apiVersion: v1
kind: ResourceQuota
metadata:
name: namespace-quota
spec:
hard:
requests.cpu: "4"
requests.memory: 8Gi
limits.cpu: "8"
limits.memory: 16Gi
pods: "10"
persistentvolumeclaims: "5"

复制代码

使用LimitRange：

apiVersion: v1
kind: LimitRange
metadata:
name: default-limits
spec:
limits:
- default:
memory: 512Mi
cpu: "1"
defaultRequest:
memory: 256Mi
cpu: "0.5"
type: Container

复制代码

使用命名空间隔离环境：

# 创建开发环境命名空间
kubectl create namespace dev
# 创建测试环境命名空间
kubectl create namespace test
# 创建生产环境命名空间
kubectl create namespace prod
# 为每个命名空间设置资源配额
kubectl apply -f dev-quota.yaml -n dev
kubectl apply -f test-quota.yaml -n test
kubectl apply -f prod-quota.yaml -n prod

复制代码

总结

Kubernetes作为容器编排的事实标准，为现代应用的部署和管理提供了强大的能力。本文从集群搭建、应用部署、服务发现、负载均衡、自动扩缩容等方面分享了Kubernetes容器服务的运维实战经验，并提供了大量的代码示例和最佳实践建议。

在实际运维过程中，我们需要根据具体业务需求和环境特点，灵活运用Kubernetes的各种功能和特性，不断优化和改进运维策略。同时，我们也需要关注Kubernetes社区的发展，及时了解和应用新的功能和技术，以提高运维效率和应用性能。

通过深入理解Kubernetes的核心概念和运维技能，我们可以更好地利用这一强大的平台，为企业的数字化转型提供坚实的技术支撑。希望本文的分享能够帮助读者更好地掌握Kubernetes容器服务的运维要点，在实际工作中取得更好的成果。

	通知：关于部分勋章领取条件及购买价格调整的通知	05-18 21:22
	通知：本站资源由网友上传分享，如有违规等问题请到版务模块进行投诉，资源失效请在帖子内回复要求补档，会尽快处理！	10-23 09:31

活动公告

Kubernetes容器服务运维实战经验分享从部署到优化的全流程指南涵盖集群搭建应用发布服务发现负载均衡自动扩缩容等核心运维技能

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块

塔罗

立华奏

站长推荐 /1

友情链接

Tencent QQ