Phần cứng chạy AI nội bộ on-premise: chọn thế nào?

Q: Mô hình 7B cần bao nhiêu bộ nhớ?

Theo rule of thumb, một mô hình khoảng 7B ở mức nén Q4 cần khoảng vài GB cho trọng số, cộng thêm phần cho context. Đây là ước lượng nhanh, con số thật thay đổi theo kiến trúc và mức quantization nên tra trang mô hình cụ thể trên Hugging Face.

Q: Có cần phòng máy chủ chuyên dụng không?

Với cụm Apple Silicon điện năng thấp thì thường không, máy nhỏ gọn, mát, êm, có thể đặt trong văn phòng bình thường và nên có UPS. GPU công suất lớn thì cần nguồn và làm mát tương xứng, khi đó phòng máy là hợp lý.

Phần cứng chạy AI nội bộ được quyết định bởi bốn yếu tố: cỡ mô hình (số tham số), số người dùng đồng thời, độ dài context, và tốc độ bạn mong muốn. Yếu tố then chốt là bộ nhớ — RAM hoặc VRAM phải đủ chứa trọng số mô hình cộng context. Với đa số doanh nghiệp, Apple Silicon (Mac Mini/Studio, unified memory, điện năng thấp) là điểm khởi đầu gọn gàng; GPU NVIDIA phù hợp khi cần throughput rất cao hoặc training. Đây là bài 2/8 trong series tự xây AI nội bộ.

Tóm tắt nhanh

Cái gì quyết định: cỡ mô hình × số người dùng đồng thời × độ dài context × tốc độ mong muốn — tất cả quy về nhu cầu bộ nhớ.
Apple Silicon hay GPU: Apple Silicon có unified memory nên chạy mô hình lớn với RAM chung, điện thấp, gọn, êm; GPU NVIDIA cho throughput cao và phù hợp training nhưng tốn điện, nhiệt, không gian.
Quy tắc bộ nhớ: RAM/VRAM ≈ (số tham số × bytes theo quantization) + phần dành cho context — là rule of thumb, không phải con số tuyệt đối.
Sizing theo quy mô: AI Box (một nhóm nhỏ) → AI Pro (phòng ban) → AI Cluster (toàn doanh nghiệp), các con số dưới đây là khoảng gợi ý.
Namtech: triển khai cụm Mac Mini/Studio Apple Silicon điện năng thấp, mở rộng dần theo nhu cầu.

Cái gì quyết định nhu cầu phần cứng?

Trước khi bàn "mua máy gì", hãy trả lời bốn câu hỏi — chúng quyết định mọi thứ khác:

Cỡ mô hình (số tham số): mô hình càng lớn (7B, 14B, 32B, 70B…) càng thông minh nhưng càng ngốn bộ nhớ và chạy chậm hơn. Đây là biến số ảnh hưởng lớn nhất.
Số người dùng đồng thời: một người hỏi lẻ tẻ rất khác 30 người cùng gõ một lúc. Nhiều người đồng thời cần throughput cao hơn (và thường là GPU hoặc nhiều máy).
Độ dài context: cho AI đọc tài liệu dài, hội thoại dài hay nhiều đoạn RAG sẽ tốn thêm bộ nhớ cho phần "ngữ cảnh" (KV cache) — context càng dài, bộ nhớ càng tăng.
Tốc độ mong muốn: bạn chấp nhận trả lời "đọc được là kịp" hay cần gần như tức thì? Kỳ vọng tốc độ càng cao thì càng cần phần cứng mạnh hoặc mô hình nhỏ hơn.

Điểm mấu chốt: cả bốn yếu tố đều quy về bộ nhớ và throughput. Chọn được cỡ mô hình và số người dùng thì phần còn lại (loại máy, dung lượng RAM/VRAM) suy ra khá tự nhiên. Xem thêm cách các phần ghép lại trong sơ đồ kiến trúc hệ thống AI nội bộ.

Apple Silicon hay GPU?

Đây là quyết định phần cứng lớn nhất. Cả hai đều chạy được mô hình mã nguồn mở; khác nhau ở kiến trúc bộ nhớ, điện năng và tình huống phù hợp.

Tiêu chí	Apple Silicon (Mac Mini/Studio)	GPU NVIDIA
Bộ nhớ	Unified memory — CPU & GPU dùng chung, nên một máy có thể nạp mô hình lớn nếu cấu hình RAM cao	VRAM riêng của card — mạnh nhưng dung lượng mỗi card giới hạn, mô hình lớn phải chia nhiều card
Điện năng & nhiệt	Điện thấp, mát, êm — chạy được trong văn phòng bình thường	Tiêu thụ điện & tỏa nhiệt cao, thường cần phòng máy/tản nhiệt
Throughput nhiều người	Tốt cho nhóm nhỏ–vừa; mở rộng bằng cách thêm máy	Rất cao, phù hợp phục vụ đông người đồng thời
Training / fine-tune nặng	Làm được ở mức nhẹ; không phải thế mạnh	Thế mạnh — hệ sinh thái CUDA cho training trưởng thành
Kích thước & lắp đặt	Nhỏ gọn, cắm điện là chạy	Cồng kềnh hơn, cần nguồn & làm mát tương xứng

Với phần lớn tác vụ doanh nghiệp (trợ lý nội bộ, hỏi-đáp tài liệu, soạn thảo, tóm tắt) và quy mô người dùng vừa phải, Namtech chọn cụm Mac Mini/Studio Apple Silicon: unified memory cho phép nạp mô hình khá lớn trên một máy, điện năng thấp giúp đặt ngay trong văn phòng, và mở rộng bằng cách thêm máy. Khi nhu cầu nghiêng về throughput rất cao hoặc training nặng, GPU NVIDIA là lựa chọn hợp lý hơn.

Chọn cấu hình theo quy mô

Namtech đóng gói phần cứng thành ba mức để dễ hình dung. Các con số dưới đây là khoảng gợi ý, không phải cam kết tuyệt đối — số người phục vụ được tùy cỡ mô hình, độ dài context và mức tải thực tế; hãy khảo sát theo nhu cầu cụ thể.

Mức	Dành cho	Bộ nhớ (RAM/VRAM) — gợi ý	Lưu trữ — gợi ý	Số người dùng — khoảng
AI Box	Một nhóm nhỏ / một phòng thử nghiệm	Khoảng vài chục GB (đủ cho mô hình cỡ nhỏ–vừa)	SSD ~1 TB trở lên	Khoảng một nhóm nhỏ dùng chung
AI Pro	Một phòng ban	Nhiều hơn AI Box (mô hình lớn hơn hoặc context dài hơn)	SSD dung lượng lớn hơn cho nhiều mô hình + vector DB	Khoảng một phòng ban dùng đồng thời
AI Cluster	Toàn doanh nghiệp	Cụm nhiều máy, tổng bộ nhớ mở rộng theo tải	Lưu trữ tập trung, dự phòng	Khoảng toàn doanh nghiệp, mở rộng dần

Nguyên tắc thực dụng: bắt đầu ở mức thấp nhất đáp ứng được bài toán rõ ràng đầu tiên, đo hiệu quả thật, rồi mới mở rộng — thay vì mua thừa từ đầu. Chi tiết ba gói ở trang gói dịch vụ.

Ba mức phần cứng AI nội bộ mở rộng dần — con số người dùng là khoảng gợi ý. Sơ đồ: Namtech.

Quy tắc bộ nhớ (rule of thumb)

Đây là phần quan trọng nhất khi chọn cấu hình. Bộ nhớ (RAM với Apple Silicon, VRAM với GPU) phải chứa được:

Trọng số mô hình: xấp xỉ số tham số × số byte cho mỗi tham số. Số byte phụ thuộc quantization — nén trọng số để tốn ít bộ nhớ hơn. Ở mức nén phổ biến Q4 (khoảng nửa byte mỗi tham số), một mô hình ~7B chỉ cần khoảng vài GB; mô hình lớn hơn (14B, 32B, 70B) cần nhiều hơn tương ứng.
Context (KV cache): phần bộ nhớ cho ngữ cảnh — context càng dài hoặc càng nhiều người đồng thời thì phần này càng tăng.

Cộng hai phần trên rồi chừa dư một khoảng an toàn cho hệ điều hành và biến động tải. Đây là rule of thumb để ước lượng nhanh, không phải con số chính xác cho mọi mô hình — con số thật khác nhau theo kiến trúc và mức quantization; hãy tra trang mô hình cụ thể trên Hugging Face. Việc chọn cỡ mô hình nào và mức quantization ra sao được bàn kỹ ở bài Chọn mô hình mã nguồn mở.

Lưu trữ & mạng

Ngoài bộ nhớ và bộ xử lý, ba thứ dễ bị bỏ quên nhưng ảnh hưởng trực tiếp tới trải nghiệm:

SSD: mô hình có thể nặng nhiều GB, cần nạp nhanh vào bộ nhớ khi khởi động. SSD dung lượng đủ lớn để chứa nhiều mô hình cộng vector database cho RAG (tài liệu nội bộ đã đánh chỉ mục).
Mạng nội bộ: người dùng gọi tới máy chủ AI qua mạng LAN. Mạng nội bộ ổn định giúp phản hồi mượt và giữ mọi thứ trong ranh giới on-premise — không đẩy dữ liệu ra ngoài.
UPS (bộ lưu điện): để mô hình và dịch vụ không tắt đột ngột khi mất điện, tránh hỏng dữ liệu và gián đoạn.

Cách khóa luồng dữ liệu trong nội bộ và kiểm soát truy cập được trình bày ở bài Hệ thống bảo mật AI nội bộ.

Cho đội IT

Cách kiểm tra tài nguyên máy và các mô hình đang có, cộng quy tắc ước lượng bộ nhớ nhanh:

Xem mô hình đã cài: ollama list — liệt kê tên và dung lượng từng mô hình đang có trên máy.
Xem tài nguyên: RAM trống, GPU/VRAM (Apple Silicon là unified memory nên RAM tổng là con số cần theo dõi).
Ước lượng bộ nhớ: ≈ (số tham số × byte theo quantization) + phần cho context, rồi chừa dư an toàn. Con số chính xác nên tra trang mô hình trên Hugging Face.

# liệt kê các mô hình đang có trên máy
ollama list
# ước lượng thô: 7B ở Q4 ~ vài GB; mô hình lớn hơn cần nhiều hơn
# kéo & chạy thử một mô hình nhỏ để đo bộ nhớ thực tế
ollama run qwen2.5:7b

Góc nhìn Namtech

Namtech triển khai nền tảng AI riêng tư nội bộ trên cụm Mac Mini/Studio Apple Silicon: unified memory cho phép nạp mô hình khá lớn, điện năng thấp để đặt ngay trong văn phòng, và mở rộng bằng cách thêm máy khi tải tăng — thay vì đầu tư thừa từ đầu. Triết lý là bắt đầu vừa đủ, mở rộng dần: chọn cấu hình cho bài toán rõ ràng đầu tiên, đo hiệu quả thật, rồi nâng cấp theo nhu cầu. Bước tiếp theo là chọn mô hình mã nguồn mở phù hợp với phần cứng đã chọn.

Câu hỏi thường gặp

Apple Silicon hay GPU tốt hơn cho AI nội bộ?

Không có câu trả lời tuyệt đối. Apple Silicon (Mac Mini/Studio) có unified memory nên chạy được mô hình lớn với RAM chung, điện năng thấp, gọn và êm — phù hợp phần lớn tác vụ doanh nghiệp ở quy mô vừa. GPU NVIDIA cho throughput cao và mạnh về training, nhưng tốn điện, nhiệt và không gian hơn. Namtech dùng cụm Apple Silicon cho đa số triển khai.

Mô hình 7B cần bao nhiêu bộ nhớ?

Theo rule of thumb, một mô hình ~7B ở mức nén Q4 cần khoảng vài GB cho trọng số, cộng thêm phần cho context. Đây là ước lượng nhanh — con số thật thay đổi theo kiến trúc và mức quantization, nên tra trang mô hình cụ thể trên Hugging Face.

Cần cấu hình bao nhiêu cho cả công ty dùng?

Tùy cỡ mô hình, số người đồng thời và độ dài context. Thường bắt đầu từ AI Box cho một nhóm, rồi lên AI Pro (phòng ban) và AI Cluster (toàn doanh nghiệp). Các con số người dùng chỉ là khoảng gợi ý; nên khảo sát theo tải thực tế của bạn.

Có cần phòng máy chủ chuyên dụng không?

Với cụm Apple Silicon điện năng thấp thì thường không — máy nhỏ gọn, mát, êm, có thể đặt trong văn phòng bình thường (nên có UPS). GPU công suất lớn thì cần nguồn và làm mát tương xứng, khi đó phòng máy là hợp lý.

← Bài trước · Phần 1/8Tổng quan & lộ trình Bài tiếp theo · Phần 3/8 →Chọn mô hình mã nguồn mở

Muốn có AI nội bộ mà không phải bắt đầu từ số 0?

Namtech triển khai nền tảng AI riêng tư nội bộ — mô hình mã nguồn mở chạy 100% trên hạ tầng của bạn, dữ liệu không rời tổ chức.

Đặt lịch tư vấn miễn phí

Lưu ý: Các con số bộ nhớ và số người dùng trong bài là quy tắc ước lượng (rule of thumb), cập nhật 02/07/2026; phần cứng và mô hình thay đổi nhanh — hãy kiểm chứng cấu hình cụ thể theo nhu cầu thực tế khi triển khai.

Tài liệu tham khảo