Vận hành AI nội bộ là công việc giữ cho hệ thống chạy ổn định, an toàn và đủ nhanh sau khi đã lên production. Bốn trụ cột chính: giám sát (độ trễ, lượng dùng, tỷ lệ lỗi, tài nguyên), sao lưu & cập nhật (đổi/rollback phiên bản mô hình, backup vector DB & cấu hình), mở rộng (từ AI Box → AI Pro → AI Cluster với load balancing & HA), và chi phí sở hữu (điện + bảo trì, cố định và dự đoán được). Đây là bài 8/8 — bài cuối của series tự xây AI nội bộ.
Tóm tắt nhanh
- Giám sát trước tiên: theo dõi độ trễ, lượng request, tỷ lệ lỗi và tài nguyên (CPU/RAM/nhiệt); đặt cảnh báo khi có bất thường thay vì đợi người dùng báo hỏng.
- Sao lưu & cập nhật có kỷ luật: quản lý phiên bản mô hình để đổi/rollback nhanh, backup vector DB & cấu hình, và luôn thử nghiệm trước khi đưa lên.
- Mở rộng theo tầng: một node (AI Box) → nhiều node sau load balancer (AI Cluster), thêm tính sẵn sàng cao (HA) khi hệ thống trở nên trọng yếu.
- Chi phí dự đoán được: chủ yếu là điện và bảo trì — cố định hơn nhiều so với hóa đơn token biến động của AI cloud.
- Mở rộng theo nhu cầu: không cần cụm lớn ngay từ đầu; nâng cấp khi số người dùng và mức độ trọng yếu tăng lên.
Giám sát: nhìn thấy hệ thống trước khi người dùng phàn nàn
Một hệ AI nội bộ không có giám sát giống như lái xe không đồng hồ. Bạn cần thấy được sức khỏe hệ thống theo thời gian thực để phát hiện suy giảm trước khi nó thành sự cố. Các chỉ số cốt lõi nên theo dõi:
- Độ trễ (latency): thời gian tới token đầu tiên và tốc độ sinh token. Độ trễ tăng dần thường là dấu hiệu quá tải hoặc tài nguyên cạn.
- Lượng dùng (throughput): số request/giây, số phiên đồng thời — để biết khi nào cần thêm node.
- Tỷ lệ lỗi: request timeout, out-of-memory, model không tải được. Tỷ lệ lỗi bật lên là tín hiệu cần can thiệp ngay.
- Tài nguyên: CPU/GPU, RAM/VRAM, dung lượng đĩa và nhiệt độ. Với cụm Apple Silicon chạy liên tục, nhiệt và throttling là thứ đáng theo dõi.
Nguyên tắc: mỗi chỉ số quan trọng nên có ngưỡng cảnh báo. Khi độ trễ vượt ngưỡng, đĩa gần đầy, hay tỷ lệ lỗi tăng đột biến, hệ thống tự gửi cảnh báo (email, chat nội bộ) để đội IT xử lý sớm — thay vì để người dùng là người "báo lỗi" đầu tiên.
Sao lưu & cập nhật: đổi mô hình mà không gãy
Hệ AI nội bộ không phải cài một lần rồi quên. Mô hình mới ra liên tục, cấu hình thay đổi, tài liệu RAG được bổ sung. Kỷ luật vận hành nằm ở ba việc:
- Quản lý phiên bản mô hình: ghi rõ đang chạy model & phiên bản nào. Khi nâng cấp, giữ lại phiên bản cũ để có thể rollback ngay nếu bản mới trả lời kém hơn hoặc chậm hơn.
- Sao lưu vector DB & cấu hình: chỉ mục embeddings, prompt hệ thống, guardrails và biến môi trường đều là tài sản. Backup định kỳ để phục hồi nhanh khi máy hỏng hoặc cần dựng lại.
- Thử nghiệm trước khi lên: chạy bộ đánh giá (xem bài Đánh giá & tinh chỉnh) trên môi trường thử với phiên bản mới trước, so sánh chất lượng và tốc độ, rồi mới chuyển production.
Việc đổi mô hình nên là một thao tác đảo ngược được: nếu bản mới không ổn, chỉ cần trỏ serving về phiên bản cũ. Đây là lý do cần tách rõ "phiên bản đang phục vụ" khỏi "phiên bản mới đang thử".
Mở rộng: AI Box → AI Pro → AI Cluster
Không cần dựng cụm lớn ngay từ đầu. Cách mở rộng thực dụng là đi theo tầng, chỉ nâng cấp khi tải thực tế và mức độ trọng yếu tăng:
- AI Box (một node): một máy phục vụ một nhóm/phòng ban. Đơn giản, đủ cho khởi đầu và các bài toán rõ ràng.
- AI Pro: node mạnh hơn hoặc vài node cho một phòng ban lớn, khi số người dùng đồng thời tăng.
- AI Cluster (nhiều node): nhiều node đứng sau một load balancer để cân bằng tải, cộng thêm giám sát tập trung. Khi hệ thống trở nên trọng yếu, thêm tính sẵn sàng cao (HA) — nếu một node hỏng, các node còn lại vẫn phục vụ.
Mấu chốt của mở rộng ngang là cân bằng tải: phân bổ request đều cho các node, tự loại node hỏng khỏi vòng phục vụ (health check), và cho phép thêm/bớt node mà không gián đoạn. Toàn bộ vẫn nằm trong ranh giới on-premise — dữ liệu không rời tổ chức khi mở rộng.
Chi phí sở hữu: cố định và dự đoán được
Điểm khác biệt lớn nhất so với AI cloud nằm ở cấu trúc chi phí. Sau khoản đầu tư phần cứng ban đầu, chi phí vận hành AI nội bộ chủ yếu là:
- Điện năng: phần cứng chạy liên tục. Đây là lý do cụm Apple Silicon (điện năng thấp) hấp dẫn với vận hành 24/7.
- Bảo trì: cập nhật phần mềm, thay linh kiện hao mòn, công sức đội IT theo dõi & xử lý.
Điều quan trọng không phải là "rẻ hơn tuyệt đối" — mà là dự đoán được. Chi phí gần như cố định theo tháng, không nhảy vọt khi nhân viên dùng nhiều hơn, khác với hóa đơn token của AI cloud vốn tăng theo lượng dùng. Con số cụ thể tùy cấu hình, giá điện và quy mô — nên khảo sát theo nhu cầu thực tế thay vì áp một mức chung.
Góc nhìn Namtech
Namtech vận hành nền tảng AI nội bộ theo triết lý mở rộng dần theo nhu cầu: bắt đầu từ một AI Box cho bài toán rõ ràng, gắn giám sát ngay từ đầu, rồi nâng lên AI Pro hoặc AI Cluster khi tải và mức độ trọng yếu tăng. Chúng tôi ưu tiên cụm Apple Silicon điện năng thấp để chi phí điện thấp và dự đoán được, cùng quy trình cập nhật mô hình có thử nghiệm và rollback — để nâng cấp không trở thành rủi ro. Vận hành tốt là thứ khiến AI nội bộ đáng tin cậy đủ để đưa vào quy trình hằng ngày.
Một stack vận hành & giám sát tối giản, phổ biến hiện nay:
- Metrics:
Prometheusthu thập số liệu (độ trễ, throughput, CPU/RAM/GPU) +Grafanađể dashboard & cảnh báo theo ngưỡng. - Logs: gom log của serving (Ollama/vLLM) và app để truy vết lỗi và request bất thường.
- Health check: mỗi node phơi một endpoint để load balancer biết node còn sống, tự loại node hỏng khỏi vòng phục vụ.
- Cập nhật mô hình (checklist): (1) tải phiên bản mới ở môi trường thử · (2) chạy bộ eval, so sánh chất lượng & độ trễ · (3) backup cấu hình + vector DB · (4) chuyển traffic sang bản mới · (5) giữ bản cũ để rollback tức thì.
Kiểm tra nhanh sức khỏe một node serving:
# kiểm tra node còn sống (Ollama expose /api/tags)
curl -sf http://localhost:11434/api/tags >/dev/null && echo "OK" || echo "DOWN"
# quét chỉ số cho Prometheus (nếu serving expose /metrics)
curl -s http://localhost:8000/metrics | grep -E "latency|requests"
Câu hỏi thường gặp
Cần công cụ gì để giám sát AI nội bộ?
Bộ đôi phổ biến là Prometheus (thu thập số liệu) + Grafana (dashboard & cảnh báo), cộng thêm gom log từ tầng serving. Nhiều engine serving như vLLM đã phơi sẵn endpoint /metrics để Prometheus lấy trực tiếp.
Đổi hoặc nâng cấp mô hình có làm gián đoạn dịch vụ không?
Không, nếu làm đúng: thử nghiệm phiên bản mới ở môi trường riêng, backup cấu hình, rồi chuyển traffic sang bản mới trong khi vẫn giữ bản cũ để rollback tức thì. Với cụm nhiều node, có thể cập nhật cuốn chiếu từng node sau load balancer.
Khi nào nên chuyển từ một máy sang cụm nhiều node?
Khi độ trễ tăng lúc cao điểm, số phiên đồng thời vượt khả năng một node, hoặc khi hệ thống trở nên trọng yếu và cần tính sẵn sàng cao (HA). Giám sát chính là dữ liệu để quyết định đúng thời điểm.
Chi phí vận hành AI nội bộ có thật sự thấp hơn AI cloud?
Không nhất thiết thấp hơn tuyệt đối, nhưng dự đoán được hơn: chủ yếu là điện + bảo trì, gần như cố định theo tháng, thay vì hóa đơn token tăng theo lượng dùng. Con số cụ thể tùy cấu hình, giá điện và quy mô — nên khảo sát theo nhu cầu thực tế.
Đây là bài cuối của series. Quay lại bài tổng quan & lộ trình 8 bước để xem toàn cảnh, hoặc đọc các bài đồng hành: Hệ thống bảo mật AI nội bộ và Trending Pool — cập nhật tri thức toàn cầu.
Muốn có AI nội bộ mà không phải bắt đầu từ số 0?
Namtech triển khai nền tảng AI riêng tư nội bộ — mô hình mã nguồn mở chạy 100% trên hạ tầng của bạn, dữ liệu không rời tổ chức.
Đặt lịch tư vấn miễn phíLưu ý: Bài viết mang tính hướng dẫn tổng quan, cập nhật 02/07/2026; công cụ và mô hình thay đổi nhanh — hãy kiểm chứng phiên bản mới nhất khi triển khai.