NỘI DUNG

Horizontal Pod Autoscaler là gì? Tổng quan về Horizontal Pod Autoscaler

Đặng Tuấn

Đã kiểm duyệt nội dung

Ngày đăng:22/04/2026

Cập nhật cuối:12/05/2026

Lượt xem

Quy trình sản xuất nội dung

Theo dõi Vietnix

Đánh giá

[esi kkstarratings cache="private" ttl="3"]

Theo dõi trên

Horizontal Pod Autoscaler (HPA) là cơ chế autoscaling trong Kubernetes dùng để tự động tăng hoặc giảm số lượng Pod cho các workload như Deployment, StatefulSet hoặc ReplicaSet dựa trên các metrics như CPU, memory hoặc custom metrics thu thập từ hệ thống. Từ kinh nghiệm triển khai ứng dụng có lưu lượng biến động theo giờ/ngày, mình xem HPA là “lớp bắt buộc phải có” trước khi nghĩ tới mở rộng hạ tầng. Trong bài viết này, mình sẽ giúp bạn hiểu rõ hơn về Horizontal Pod Autoscaler, từ lợi ích khi sử dụng, cách thức hoạt động, đến cấu trúc tài nguyên và hướng dẫn cách cấu hình chi tiết để bạn áp dụng an toàn trên môi trường production.

Những điểm chính

Quan điểm của mình: Với các ứng dụng có lưu lượng biến động, HPA nên được xem là mặc định phải có nếu bạn muốn hệ thống vừa giữ được hiệu năng, vừa tránh cảnh luôn phải scale thủ công hoặc overprovision tài nguyên.
Khái niệm: Hiểu rõ Horizontal Pod Autoscaler (HPA) là một cơ chế tự động co giãn, giúp bạn nhận biết vai trò của nó trong việc đảm bảo ứng dụng luôn đáp ứng được nhu cầu tải thực tế.
Lợi ích chính: Nhận thức được các lợi ích vượt trội như tối ưu chi phí và tăng tính sẵn sàng, giúp bạn hiểu rõ giá trị chiến lược mà HPA mang lại cho hệ thống.
Cách thức hoạt động: Nắm vững cơ chế hoạt động dựa trên vòng lặp điều khiển và phân tích metrics, giúp bạn hiểu rõ cách HPA tự động ra quyết định mở rộng hay thu hẹp quy mô một cách chính xác.
Cấu trúc tài nguyên: Nắm vững các thành phần cấu hình chính trong tài nguyên HPA, giúp bạn hiểu rõ cách khai báo mục tiêu, giới hạn và các loại metrics để xây dựng một chiến lược autoscaling hoàn chỉnh.
Cách cài đặt và cấu hình: Nắm vững các bước cài đặt và các lệnh kubectl cần thiết, giúp bạn có thể tự tin triển khai và quản lý HPA cho các ứng dụng của mình.
Giới thiệu Vietnix: Biết thêm Vietnix là nhà cung cấp Enterprise Cloud mạnh mẽ, giúp bạn có một nền tảng hạ tầng đáng tin cậy để triển khai mọi chiến lược Autoscaling Kubernetes.
Câu hỏi thường gặp: Giải đáp các thắc mắc liên quan đến Horizontal Pod Autoscaler.

Horizontal Pod Autoscaler là gì?

Horizontal Pod Autoscaler (HPA) là cơ chế autoscaling của Kubernetes dùng để tự động thay đổi số lượng Pod trong các workload như Deployment, StatefulSet hoặc ReplicaSet dựa trên mức sử dụng tài nguyên đo được từ metrics. HPA điều chỉnh số replica theo chiều ngang (scale out/in) dựa trên các chỉ số như CPU utilization (tính theo requests) và memory usage (giá trị tuyệt đối), custom metrics hoặc external metrics, nhằm giữ cho giá trị đo được tiến gần mục tiêu đã cấu hình (target) trong khoảng minReplicas-maxReplicas, từ đó giúp workload đáp ứng tải thực tế và sử dụng tài nguyên cluster hiệu quả hơn.

Horizontal Pod Autoscaler (HPA) tự động thay đổi số lượng Pod dựa trên metrics tài nguyên

HPA đảm bảo ứng dụng của bạn có thể linh hoạt mở rộng để xử lý tải cao, nhưng hiệu quả của việc này hoàn toàn phụ thuộc vào khả năng đáp ứng của hạ tầng. Enterprise Cloud của Vietnix chính là nền tảng vững chắc, cung cấp hiệu năng và tài nguyên cần thiết để cơ chế scaling của bạn hoạt động một cách trơn tru, giúp hệ thống luôn ổn định ngay cả khi lưu lượng truy cập tăng đột biến.

Tại sao nên sử dụng Horizontal Pod Autoscaler?

Bạn nên sử dụng Horizontal Pod Autoscaler khi muốn workload trong Kubernetes tự động thích ứng với biến động tải, thay vì phải cố định số replica hoặc điều chỉnh thủ công theo từng giai đoạn vận hành.

Đảm bảo ứng dụng thích ứng với tải biến động: HPA điều chỉnh số replica dẫn đến việc tạo hoặc giảm Pod dựa trên metrics (CPU, memory, custom, external), giúp workload vận hành ổn định trong nhiều kịch bản tải khác nhau mà không cần ấn định trước quy mô cố định.
Kiểm soát chi phí tài nguyên hiệu quả: HPA chỉ tăng số Pod khi metrics vượt ngưỡng và giảm Pod khi tải giảm, giúp cụm Kubernetes sử dụng tài nguyên ở mức cần thiết thay vì duy trì số lượng Pod lớn liên tục, từ đó giảm chi phí hạ tầng cloud.
Hỗ trợ nhiều loại metrics phù hợp với đặc thù ứng dụng: HPA có thể scale dựa trên resource metrics (CPU/memory), custom metrics (như RPS, I/O per second) hoặc external metrics (như độ dài hàng đợi Pub/Sub), nên phù hợp cả với ứng dụng gặp bottleneck về mạng hoặc I/O, không chỉ CPU/memory.
Giảm nhu cầu tuning và can thiệp thủ công: Khi sử dụng HPA, đội ngũ vận hành không phải thường xuyên chỉnh lại replica theo giờ/ngày, vì controller tự động đánh giá metrics và quyết định scale up/down theo quy tắc đã cấu hình.
Tăng khả năng sẵn sàng và chịu lỗi của hệ thống: Việc duy trì số Pod phù hợp theo tải giúp hệ thống có thêm replica để xử lý request khi nhu cầu tăng, đồng thời vẫn đảm bảo có đủ Pod hoạt động khi một số Pod gặp sự cố, nâng cao tính sẵn sàng tổng thể.

Lợi ích khi sử dụng Horizontal Pod Autoscaler

Cách Horizontal Pod Autoscaler hoạt động

Vòng lặp điều khiển và nguồn metrics
Cách tính toán replica từ metrics
Xử lý nhiều metrics và tránh dao động liên tục
Cập nhật trường scale của workload target

Horizontal Pod Autoscaler hoạt động theo cơ chế vòng lặp điều khiển định kỳ, mỗi chu kỳ sẽ đọc metrics của workload, so sánh với ngưỡng mục tiêu đã cấu hình và tính toán lại số replica mong muốn, sau đó cập nhật trường scale của đối tượng Deployment/StatefulSet/ReplicaSet tương ứng.

Vòng lặp điều khiển và nguồn metrics

Mỗi HPA controller chạy như một control loop, với chu kỳ được cấu hình qua tham số --horizontal-pod-autoscaler-sync-period của kube-controller-manager (mặc định khoảng 15 giây), mỗi chu kỳ controller sẽ tìm workload mục tiêu thông qua spec.scaleTargetRef và selector của resource đó, sau đó truy vấn metrics từ các API như metrics.k8s.io, custom.metrics.k8s.io hoặc external.metrics.k8s.io. HPA có thể sử dụng nhiều loại metrics gồm resource metrics (CPU/memory per Pod), custom metrics (do object trong cluster expose) và external metrics (từ dịch vụ bên ngoài như hàng đợi Pub/Sub), tùy cấu hình trong spec.metrics của HPA.

Cách tính toán replica từ metrics

Với resource metrics trên từng Pod (CPU/memory), controller lấy metrics từ Resource Metrics API cho tất cả Pod thuộc HPA, sau đó tính utilization theo phần trăm so với requests nếu dùng target dạng phần trăm hoặc dùng trực tiếp giá trị raw nếu target là giá trị tuyệt đối. Giá trị trung bình (mean) của metric trên toàn bộ Pod được dùng để tính tỷ lệ current / target, từ đó suy ra số replica mong muốn; với custom và external metrics, controller cũng tính tỉ lệ tương tự dựa trên giá trị metric và target, có thể chia đều theo số Pod trong autoscaling/v2 trước khi so sánh nếu được cấu hình.

Xử lý nhiều metrics và tránh dao động liên tục

Khi HPA được cấu hình nhiều metrics, controller sẽ đánh giá từng metric độc lập, chạy thuật toán autoscaling cho từng metric để ra một con số replica đề xuất, sau đó chọn giá trị lớn nhất làm scale cuối cùng để tránh under-provision. Trong trường hợp một hoặc một vài metrics tạm thời không khả dụng, HPA vẫn cho phép scale up dựa trên metrics còn lại nhưng không scale down, đồng thời dùng các cơ chế như stabilization window và việc lấy max recommendation trong khoảng thời gian gần (ví dụ 5 phút) để tránh thrashing, tức là tránh tình trạng scale lên/xuống liên tục trước khi workload kịp ổn định.

Cập nhật trường scale của workload target

Sau khi tính được số replica mong muốn, HPA dùng subresource scale của workload mục tiêu (Deployment, StatefulSet, ReplicaSet, ReplicationController) để ghi giá trị spec.replicas mới và đọc status hiện tại. Việc sử dụng subresource scale giúp HPA tương tác với nhiều loại controller một cách thống nhất, đảm bảo quá trình scale diễn ra qua API chuẩn của Kubernetes và được workload controller thực thi bằng cách tạo thêm hoặc giảm bớt Pod tương ứng.

Horizontal Pod Autoscaler hoạt động theo cơ chế vòng lặp điều khiển định kỳ

Cấu trúc tài nguyên Horizontal Pod Autoscaler

Tham chiếu workload và giới hạn số replica
Định nghĩa mục tiêu autoscaling và metrics
Hành vi scale up/scale down và trạng thái HPA

Tham chiếu workload và giới hạn số replica

Trường spec.scaleTargetRef chỉ ra workload mà HPA điều khiển với các thuộc tính apiVersion, kind (Deployment, StatefulSet, ReplicaSet, ReplicationController) và name, dựa trên đó controller tìm đúng nhóm Pod cần autoscale. Bên cạnh đó, spec.minReplicas và spec.maxReplicas xác định số Pod tối thiểu và tối đa mà HPA được phép set cho workload, đóng vai trò giới hạn phạm vi scale để vừa đáp ứng tải vừa không vượt quá tài nguyên cho phép.

Định nghĩa mục tiêu autoscaling và metrics

Trong autoscaling/v1, trường spec.targetCPUUtilizationPercentage được dùng khi autoscale dựa trên CPU utilization, còn trong autoscaling/v2 cấu hình chi tiết hơn qua trường spec.metrics, cho phép khai báo nhiều loại metrics như Resource (CPU/memory), Pods, Object và External. Mỗi phần tử trong spec.metrics mô tả loại metric, nguồn metric và kiểu target (ví dụ Utilization, AverageValue, Value), từ đó HPA controller sử dụng các giá trị này làm ngưỡng so sánh để tính toán số replica mong muốn.

Hành vi scale up/scale down và trạng thái HPA

Với API autoscaling/v2, trường spec.behavior cho phép tinh chỉnh hành vi scale up/scale down thông qua các chính sách như tốc độ tăng/giảm (theo số Pod hoặc phần trăm) và stabilizationWindowSeconds để làm mượt quá trình thay đổi số replica. Phần status của HorizontalPodAutoscaler thể hiện các thông tin như currentReplicas, desiredReplicas, metrics hiện tại so với target và các điều kiện (conditions), giúp người vận hành theo dõi HPA đang scale theo hướng nào và đánh giá mức độ phù hợp của cấu hình autoscaling.

Cấu trúc tài nguyên Horizontal Pod Autoscaler

Hướng dẫn cấu hình Horizontal Pod Autoscaler

Điều kiện tiên quyết khi sử dụng HPA
Tạo HorizontalPodAutoscaler đơn giản cho Deployment
Cấu hình autoscaling nâng cao với autoscaling/v2
Quan sát và kiểm thử Horizontal Pod Autoscaler

Điều kiện tiên quyết khi sử dụng HPA

Để cấu hình Horizontal Pod Autoscaler, cụm Kubernetes cần có Metrics Server hoặc hệ thống metrics tương đương để cung cấp số liệu CPU/memory qua API metrics.k8s.io, đồng thời phải cấu hình Custom/External Metrics API nếu muốn autoscale theo custom hoặc external metrics. Workload mục tiêu cần được quản lý bởi controller như Deployment, StatefulSet, ReplicaSet hoặc ReplicationController, vì HPA thao tác thông qua subresource scale để điều chỉnh trường spec.replicas của các đối tượng này.

Tạo HorizontalPodAutoscaler đơn giản cho Deployment

Người vận hành có thể tạo HPA cơ bản dựa trên CPU utilization bằng lệnh kubectl autoscale, ví dụ kubectl autoscale deployment my-app --cpu-percent=50 --min=1 --max=10 sẽ sinh ra một HPA autoscaling từ 1 đến 10 Pod dựa trên CPU trung bình 50%. Ngoài ra, bạn có thể khai báo manifest YAML với apiVersion: autoscaling/v1 hoặc autoscaling/v2, trong đó định nghĩa scaleTargetRef trỏ đến Deployment/StatefulSet, đặt minReplicas, maxReplicas và cấu hình mục tiêu như targetCPUUtilizationPercentage (v1) hoặc spec.metrics (v2) để điều khiển behavior autoscaling.

Cấu hình autoscaling nâng cao với autoscaling/v2

Khi sử dụng autoscaling/v2, bạn có thể khai báo nhiều metrics trong spec.metrics, ví dụ resource CPU/memory, custom metrics gắn với đối tượng trong cluster hoặc external metrics từ dịch vụ bên ngoài, mỗi metric có kiểu target riêng như Utilization, AverageValue hoặc Value. Trường spec.behavior cho phép tinh chỉnh cách scale up/scale down bằng các policy giới hạn tốc độ tăng/giảm (số Pod hoặc phần trăm) và stabilizationWindowSeconds để hạn chế việc thay đổi replicas quá nhanh, từ đó phù hợp với đặc thù tải của ứng dụng trên GKE hoặc EKS.

Quan sát và kiểm thử Horizontal Pod Autoscaler

Sau khi triển khai HPA, người vận hành sử dụng kubectl get hpa và kubectl describe hpa <tên-hpa> để xem các thông tin như currentReplicas, desiredReplicas, giá trị metrics hiện tại và target nhằm đánh giá hoạt động autoscaling. Việc tạo tải thử nghiệm (load test) lên workload, quan sát cách HPA tăng/giảm số Pod theo thời gian và điều chỉnh lại ngưỡng target hoặc minReplicas/maxReplicas là bước quan trọng để HPA hoạt động ổn định trong môi trường production trên GKE hoặc EKS.

Theo kinh nghiệm triển khai thực tế, HPA chỉ phát huy hiệu quả khi bạn thiết lập ngưỡng scale hợp lý và có dữ liệu metrics đủ ổn định. Nếu đặt target quá thấp hoặc không có cơ chế stabilization, hệ thống rất dễ rơi vào trạng thái scale liên tục (flapping), gây lãng phí tài nguyên và ảnh hưởng hiệu năng ứng dụng. Vì vậy, hãy luôn test kỹ với workload thực tế trước khi đưa vào production.

Vietnix – Nền tảng Enterprise Cloud cho chiến lược Autoscaling Kubernetes

Để triển khai hiệu quả Horizontal Pod Autoscaler và đảm bảo ứng dụng Kubernetes của bạn luôn phản hồi tức thì dưới mọi biến động tải, đòi hỏi một hạ tầng đám mây với hiệu năng tính toán cao và khả năng cung cấp tài nguyên linh hoạt. Vietnix cung cấp dịch vụ Enterprise Cloud hiệu suất vượt trội, lý tưởng để bạn xây dựng và vận hành các cụm Kubernetes. Với các tùy chọn cấu hình mạnh mẽ, bộ vi xử lý hiệu suất cao, ổ cứng NVMe siêu tốc và băng thông ổn định, Vietnix đảm bảo bạn có đủ tài nguyên để HPA hoạt động trơn tru, điều chỉnh số lượng Pod một cách chính xác và giúp ứng dụng của bạn luôn được tối ưu.

Thông tin liên hệ:

Website: https://vietnix.vn/
Hotline: 1800 1093
Email: sales@vietnix.vn
Địa chỉ: 265 Hồng Lạc, Phường Bảy Hiền, Thành Phố Hồ Chí Minh

Câu hỏi thường gặp

Horizontal Pod Autoscaler có thể được tự động hóa không?

Horizontal Pod Autoscaler được thiết kế để vận hành hoàn toàn tự động sau khi cấu hình, không cần can thiệp thủ công để tăng/giảm số lượng Pod. HPA controller chạy theo vòng lặp, tự động đọc metrics (CPU, memory, custom, external), so sánh với ngưỡng target và cập nhật trường replicas trong workload, nên quá trình autoscaling chính là một dạng tự động hóa quy mô ứng dụng trong Kubernetes.

Sự khác biệt chính giữa Horizontal Pod Autoscaler và Vertical Pod Autoscaler là gì?

– HPA (Horizontal): Mở rộng theo chiều ngang bằng cách tăng hoặc giảm số lượng Pod replica.
– VPA (Vertical): Mở rộng theo chiều dọc bằng cách điều chỉnh tài nguyên (CPU/memory) của từng Pod hiện có.

HPA cần những thành phần nào trong cụm Kubernetes để có thể hoạt động với các chỉ số CPU và memory?

Để hoạt động với các chỉ số CPU và memory, HPA yêu cầu phải có Metrics Server được cài đặt trong cụm Kubernetes. Metrics Server thu thập các số liệu sử dụng tài nguyên từ các kubelet trên mỗi Node và cung cấp chúng thông qua API metrics.k8s.io, làm nguồn dữ liệu cho HPA.

Horizontal Pod Autoscaler là một cơ chế tự động hóa mạnh mẽ và thiết yếu trong Kubernetes, giúp các ứng dụng thích ứng linh hoạt với những biến động về tải. Việc hiểu rõ cách thức hoạt động, cấu trúc tài nguyên và các phương pháp cấu hình sẽ là chìa khóa để quản trị viên và nhà phát triển khai thác tối đa tiềm năng của HPA, xây dựng các ứng dụng Cloud Native có khả năng mở rộng, đáng tin cậy và hiệu quả.

Mọi người cũng xem:

THEO DÕI VÀ CẬP NHẬT CHỦ ĐỀ BẠN QUAN TÂM

Đăng ký ngay để nhận những thông tin mới nhất từ blog của chúng tôi. Đừng bỏ lỡ cơ hội truy cập kiến thức và tin tức hàng ngày

Đánh giá mức độ hữu ích của bài viết

Thất vọng

Chưa hữu ích

Bình thường

Hữu ích

Rất hữu ích

Đặng Tuấn

R&D Tech Leader

tại

Vietnix

Kết nối với mình qua

Tôi là Đặng Lê Hoàng Tuấn, RnD Tech Leader tại Vietnix với chuyên môn về System Core và Bảo mật Hạ tầng. Với nền tảng kỹ thuật chuyên sâu, tôi trực tiếp dẫn dắt đội ngũ R&D nghiên cứu và triển khai các giải pháp công nghệ lõi như Firewall Service và Enterprise Cloud. Tôn chỉ của tôi là kiến tạo nền tảng hạ tầng an toàn, hiệu năng vượt trội, mang lại giá trị thực tiễn và bền vững cho khách hàng.

Kết nối với mình qua