HPA автоматически меняет количество реплик Deployment (или другого масштабируемого ресурса) в зависимости от метрик - обычно загрузки CPU или памяти, либо кастомных метрик из Prometheus.
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
name: api-hpa
spec:
scaleTargetRef:
apiVersion: apps/v1
kind: Deployment
name: api
minReplicas: 2
maxReplicas: 10
metrics:
- type: Resource
resource:
name: cpu
target:
type: Utilization
averageUtilization: 70
При средней загрузке CPU реплик выше 70% HPA добавляет поды; при падении ниже - убирает (но не меньше minReplicas). VPA (Vertical Pod Autoscaler) меняет запросы/лимиты ресурсов подов; Cluster Autoscaler масштабирует сами ноды.