AI nội bộ

Phần cứng chạy AI nội bộ on-premise: chọn thế nào?

Chọn phần cứng chạy AI nội bộ on-premise: Apple Silicon và GPU

Phần cứng chạy AI nội bộ được quyết định bởi bốn yếu tố: cỡ mô hình (số tham số), số người dùng đồng thời, độ dài context, và tốc độ bạn mong muốn. Yếu tố then chốt là bộ nhớ — RAM hoặc VRAM phải đủ chứa trọng số mô hình cộng context. Với đa số doanh nghiệp, Apple Silicon (Mac Mini/Studio, unified memory, điện năng thấp) là điểm khởi đầu gọn gàng; GPU NVIDIA phù hợp khi cần throughput rất cao hoặc training. Đây là bài 2/8 trong series tự xây AI nội bộ.

Tóm tắt nhanh

  • Cái gì quyết định: cỡ mô hình × số người dùng đồng thời × độ dài context × tốc độ mong muốn — tất cả quy về nhu cầu bộ nhớ.
  • Apple Silicon hay GPU: Apple Silicon có unified memory nên chạy mô hình lớn với RAM chung, điện thấp, gọn, êm; GPU NVIDIA cho throughput cao và phù hợp training nhưng tốn điện, nhiệt, không gian.
  • Quy tắc bộ nhớ: RAM/VRAM ≈ (số tham số × bytes theo quantization) + phần dành cho context — là rule of thumb, không phải con số tuyệt đối.
  • Sizing theo quy mô: AI Box (một nhóm nhỏ) → AI Pro (phòng ban) → AI Cluster (toàn doanh nghiệp), các con số dưới đây là khoảng gợi ý.
  • Namtech: triển khai cụm Mac Mini/Studio Apple Silicon điện năng thấp, mở rộng dần theo nhu cầu.

Cái gì quyết định nhu cầu phần cứng?

Trước khi bàn "mua máy gì", hãy trả lời bốn câu hỏi — chúng quyết định mọi thứ khác:

  • Cỡ mô hình (số tham số): mô hình càng lớn (7B, 14B, 32B, 70B…) càng thông minh nhưng càng ngốn bộ nhớ và chạy chậm hơn. Đây là biến số ảnh hưởng lớn nhất.
  • Số người dùng đồng thời: một người hỏi lẻ tẻ rất khác 30 người cùng gõ một lúc. Nhiều người đồng thời cần throughput cao hơn (và thường là GPU hoặc nhiều máy).
  • Độ dài context: cho AI đọc tài liệu dài, hội thoại dài hay nhiều đoạn RAG sẽ tốn thêm bộ nhớ cho phần "ngữ cảnh" (KV cache) — context càng dài, bộ nhớ càng tăng.
  • Tốc độ mong muốn: bạn chấp nhận trả lời "đọc được là kịp" hay cần gần như tức thì? Kỳ vọng tốc độ càng cao thì càng cần phần cứng mạnh hoặc mô hình nhỏ hơn.

Điểm mấu chốt: cả bốn yếu tố đều quy về bộ nhớ và throughput. Chọn được cỡ mô hình và số người dùng thì phần còn lại (loại máy, dung lượng RAM/VRAM) suy ra khá tự nhiên. Xem thêm cách các phần ghép lại trong sơ đồ kiến trúc hệ thống AI nội bộ.

Apple Silicon hay GPU?

Đây là quyết định phần cứng lớn nhất. Cả hai đều chạy được mô hình mã nguồn mở; khác nhau ở kiến trúc bộ nhớ, điện năng và tình huống phù hợp.

Tiêu chíApple Silicon (Mac Mini/Studio)GPU NVIDIA
Bộ nhớUnified memory — CPU & GPU dùng chung, nên một máy có thể nạp mô hình lớn nếu cấu hình RAM caoVRAM riêng của card — mạnh nhưng dung lượng mỗi card giới hạn, mô hình lớn phải chia nhiều card
Điện năng & nhiệtĐiện thấp, mát, êm — chạy được trong văn phòng bình thườngTiêu thụ điện & tỏa nhiệt cao, thường cần phòng máy/tản nhiệt
Throughput nhiều ngườiTốt cho nhóm nhỏ–vừa; mở rộng bằng cách thêm máyRất cao, phù hợp phục vụ đông người đồng thời
Training / fine-tune nặngLàm được ở mức nhẹ; không phải thế mạnhThế mạnh — hệ sinh thái CUDA cho training trưởng thành
Kích thước & lắp đặtNhỏ gọn, cắm điện là chạyCồng kềnh hơn, cần nguồn & làm mát tương xứng

Với phần lớn tác vụ doanh nghiệp (trợ lý nội bộ, hỏi-đáp tài liệu, soạn thảo, tóm tắt) và quy mô người dùng vừa phải, Namtech chọn cụm Mac Mini/Studio Apple Silicon: unified memory cho phép nạp mô hình khá lớn trên một máy, điện năng thấp giúp đặt ngay trong văn phòng, và mở rộng bằng cách thêm máy. Khi nhu cầu nghiêng về throughput rất cao hoặc training nặng, GPU NVIDIA là lựa chọn hợp lý hơn.

Chọn cấu hình theo quy mô

Namtech đóng gói phần cứng thành ba mức để dễ hình dung. Các con số dưới đây là khoảng gợi ý, không phải cam kết tuyệt đối — số người phục vụ được tùy cỡ mô hình, độ dài context và mức tải thực tế; hãy khảo sát theo nhu cầu cụ thể.

MứcDành choBộ nhớ (RAM/VRAM) — gợi ýLưu trữ — gợi ýSố người dùng — khoảng
AI BoxMột nhóm nhỏ / một phòng thử nghiệmKhoảng vài chục GB (đủ cho mô hình cỡ nhỏ–vừa)SSD ~1 TB trở lênKhoảng một nhóm nhỏ dùng chung
AI ProMột phòng banNhiều hơn AI Box (mô hình lớn hơn hoặc context dài hơn)SSD dung lượng lớn hơn cho nhiều mô hình + vector DBKhoảng một phòng ban dùng đồng thời
AI ClusterToàn doanh nghiệpCụm nhiều máy, tổng bộ nhớ mở rộng theo tảiLưu trữ tập trung, dự phòngKhoảng toàn doanh nghiệp, mở rộng dần

Nguyên tắc thực dụng: bắt đầu ở mức thấp nhất đáp ứng được bài toán rõ ràng đầu tiên, đo hiệu quả thật, rồi mới mở rộng — thay vì mua thừa từ đầu. Chi tiết ba gói ở trang gói dịch vụ.

Mở rộng dần theo quy mô — bắt đầu nhỏ, thêm máy khi cần 1AI BoxMột máy · một nhóm nhỏKhoảng: nhóm dùng chung 2AI ProMáy mạnh hơn · phòng banKhoảng: một phòng ban 3AI ClusterCụm nhiều máy · toàn DNKhoảng: toàn doanh nghiệp Quy mô người dùng & tải tăng dần →
Ba mức phần cứng AI nội bộ mở rộng dần — con số người dùng là khoảng gợi ý. Sơ đồ: Namtech.

Quy tắc bộ nhớ (rule of thumb)

Đây là phần quan trọng nhất khi chọn cấu hình. Bộ nhớ (RAM với Apple Silicon, VRAM với GPU) phải chứa được:

  • Trọng số mô hình: xấp xỉ số tham số × số byte cho mỗi tham số. Số byte phụ thuộc quantization — nén trọng số để tốn ít bộ nhớ hơn. Ở mức nén phổ biến Q4 (khoảng nửa byte mỗi tham số), một mô hình ~7B chỉ cần khoảng vài GB; mô hình lớn hơn (14B, 32B, 70B) cần nhiều hơn tương ứng.
  • Context (KV cache): phần bộ nhớ cho ngữ cảnh — context càng dài hoặc càng nhiều người đồng thời thì phần này càng tăng.

Cộng hai phần trên rồi chừa dư một khoảng an toàn cho hệ điều hành và biến động tải. Đây là rule of thumb để ước lượng nhanh, không phải con số chính xác cho mọi mô hình — con số thật khác nhau theo kiến trúc và mức quantization; hãy tra trang mô hình cụ thể trên Hugging Face. Việc chọn cỡ mô hình nào và mức quantization ra sao được bàn kỹ ở bài Chọn mô hình mã nguồn mở.

Lưu trữ & mạng

Ngoài bộ nhớ và bộ xử lý, ba thứ dễ bị bỏ quên nhưng ảnh hưởng trực tiếp tới trải nghiệm:

  • SSD: mô hình có thể nặng nhiều GB, cần nạp nhanh vào bộ nhớ khi khởi động. SSD dung lượng đủ lớn để chứa nhiều mô hình cộng vector database cho RAG (tài liệu nội bộ đã đánh chỉ mục).
  • Mạng nội bộ: người dùng gọi tới máy chủ AI qua mạng LAN. Mạng nội bộ ổn định giúp phản hồi mượt và giữ mọi thứ trong ranh giới on-premise — không đẩy dữ liệu ra ngoài.
  • UPS (bộ lưu điện): để mô hình và dịch vụ không tắt đột ngột khi mất điện, tránh hỏng dữ liệu và gián đoạn.

Cách khóa luồng dữ liệu trong nội bộ và kiểm soát truy cập được trình bày ở bài Hệ thống bảo mật AI nội bộ.

Cho đội IT

Cách kiểm tra tài nguyên máy và các mô hình đang có, cộng quy tắc ước lượng bộ nhớ nhanh:

  • Xem mô hình đã cài: ollama list — liệt kê tên và dung lượng từng mô hình đang có trên máy.
  • Xem tài nguyên: RAM trống, GPU/VRAM (Apple Silicon là unified memory nên RAM tổng là con số cần theo dõi).
  • Ước lượng bộ nhớ: ≈ (số tham số × byte theo quantization) + phần cho context, rồi chừa dư an toàn. Con số chính xác nên tra trang mô hình trên Hugging Face.
# liệt kê các mô hình đang có trên máy
ollama list
# ước lượng thô: 7B ở Q4 ~ vài GB; mô hình lớn hơn cần nhiều hơn
# kéo & chạy thử một mô hình nhỏ để đo bộ nhớ thực tế
ollama run qwen2.5:7b

Góc nhìn Namtech

Namtech triển khai nền tảng AI riêng tư nội bộ trên cụm Mac Mini/Studio Apple Silicon: unified memory cho phép nạp mô hình khá lớn, điện năng thấp để đặt ngay trong văn phòng, và mở rộng bằng cách thêm máy khi tải tăng — thay vì đầu tư thừa từ đầu. Triết lý là bắt đầu vừa đủ, mở rộng dần: chọn cấu hình cho bài toán rõ ràng đầu tiên, đo hiệu quả thật, rồi nâng cấp theo nhu cầu. Bước tiếp theo là chọn mô hình mã nguồn mở phù hợp với phần cứng đã chọn.

Câu hỏi thường gặp

Apple Silicon hay GPU tốt hơn cho AI nội bộ?

Không có câu trả lời tuyệt đối. Apple Silicon (Mac Mini/Studio) có unified memory nên chạy được mô hình lớn với RAM chung, điện năng thấp, gọn và êm — phù hợp phần lớn tác vụ doanh nghiệp ở quy mô vừa. GPU NVIDIA cho throughput cao và mạnh về training, nhưng tốn điện, nhiệt và không gian hơn. Namtech dùng cụm Apple Silicon cho đa số triển khai.

Mô hình 7B cần bao nhiêu bộ nhớ?

Theo rule of thumb, một mô hình ~7B ở mức nén Q4 cần khoảng vài GB cho trọng số, cộng thêm phần cho context. Đây là ước lượng nhanh — con số thật thay đổi theo kiến trúc và mức quantization, nên tra trang mô hình cụ thể trên Hugging Face.

Cần cấu hình bao nhiêu cho cả công ty dùng?

Tùy cỡ mô hình, số người đồng thời và độ dài context. Thường bắt đầu từ AI Box cho một nhóm, rồi lên AI Pro (phòng ban) và AI Cluster (toàn doanh nghiệp). Các con số người dùng chỉ là khoảng gợi ý; nên khảo sát theo tải thực tế của bạn.

Có cần phòng máy chủ chuyên dụng không?

Với cụm Apple Silicon điện năng thấp thì thường không — máy nhỏ gọn, mát, êm, có thể đặt trong văn phòng bình thường (nên có UPS). GPU công suất lớn thì cần nguồn và làm mát tương xứng, khi đó phòng máy là hợp lý.

Muốn có AI nội bộ mà không phải bắt đầu từ số 0?

Namtech triển khai nền tảng AI riêng tư nội bộ — mô hình mã nguồn mở chạy 100% trên hạ tầng của bạn, dữ liệu không rời tổ chức.

Đặt lịch tư vấn miễn phí

Lưu ý: Các con số bộ nhớ và số người dùng trong bài là quy tắc ước lượng (rule of thumb), cập nhật 02/07/2026; phần cứng và mô hình thay đổi nhanh — hãy kiểm chứng cấu hình cụ thể theo nhu cầu thực tế khi triển khai.

Bắt đầu

Bắt đầu với một buổi khảo sát miễn phí

Để xác định gói phù hợp và phạm vi chi tiết, Namtech đề xuất một buổi khảo sát ngắn không tính phí.

Chúng tôi phản hồi trong vòng 1 ngày làm việc. Không spam, không chia sẻ thông tin của bạn.