Sơ đồ kiến trúc hệ thống AI nội bộ (giải thích từng lớp)

Q: Vì sao bảo mật được vẽ là lớp bao quanh chứ không phải một hộp riêng?

Vì bảo mật không sống ở một chỗ. Xác thực nằm ở giao diện, phân quyền ở API, cô lập mạng ở hạ tầng, nhật ký truy cập trải khắp. Vẽ thành lớp bao quanh phản ánh việc mọi lớp đều phải chịu kiểm soát.

Q: RAG khác gì với việc mô hình tự biết câu trả lời?

Mô hình chỉ biết dữ liệu huấn luyện của nó. RAG cho mô hình đọc tài liệu nội bộ tại thời điểm hỏi: hệ thống truy hồi đoạn liên quan từ vector DB rồi đưa vào ngữ cảnh, nên câu trả lời bám tài liệu thật và kèm trích dẫn.

Q: API tương thích OpenAI nghĩa là gì?

Endpoint của hệ thống nội bộ dùng đúng định dạng request/response như API của OpenAI, nên các thư viện và app viết cho OpenAI đều gọi vào AI nội bộ được mà gần như không phải sửa code, chỉ đổi địa chỉ endpoint.

Q: Trending Pool có làm rò rỉ dữ liệu ra ngoài không?

Không nếu triển khai đúng: đây là kênh một chiều vào, chỉ tuyển chọn tri thức mới nạp vào RAG theo định kỳ, không đẩy prompt hay tài liệu nội bộ ra ngoài.

Một hệ thống AI nội bộ (on-premise) được xếp thành các lớp chồng lên nhau, tất cả nằm gọn trong hạ tầng của bạn: từ dưới lên là phần cứng → serving → mô hình mã nguồn mở → RAG → API tương thích OpenAI → giao diện & tích hợp; một lớp bảo mật bao quanh toàn bộ và một Trending Pool bơm tri thức mới vào RAG qua kênh có kiểm soát. Bài này giải thích từng lớp và vẽ luồng dữ liệu của một câu hỏi đi qua hệ thống.

Tóm tắt nhanh

Kiến trúc theo lớp: phần cứng ở đáy, giao diện ở đỉnh; mỗi lớp chỉ nói chuyện với lớp kề nó.
Ranh giới on-premise: mọi lớp nằm trong hạ tầng của bạn — prompt, tài liệu, câu trả lời không rời tổ chức.
Bảo mật là lớp bao quanh chứ không phải một hộp riêng: xác thực, phân quyền, mạng, nhật ký áp lên mọi lớp.
Trending Pool là kênh có kiểm soát để cập nhật tri thức mới vào lớp RAG theo định kỳ.
Luồng một câu hỏi: người dùng → giao diện → API → RAG truy hồi → mô hình sinh câu trả lời kèm trích dẫn.

Kiến trúc tổng thể

Cách dễ hình dung nhất về AI nội bộ là một chồng lớp (stack) nằm trọn trong ranh giới hạ tầng của bạn. Người dùng và ứng dụng bên ngoài chỉ chạm vào lớp trên cùng (giao diện & API); mọi thứ bên dưới — mô hình, dữ liệu, truy hồi — đều ở tại chỗ. Sơ đồ dưới đây là bản đồ tổng thể của cả hệ thống.

Kiến trúc AI nội bộ theo lớp: phần cứng ở đáy → giao diện ở đỉnh, bảo mật bao quanh, Trending Pool bơm tri thức vào RAG — tất cả trong ranh giới on-premise. Sơ đồ: Namtech.

Giải thích từng lớp

Đọc từ dưới lên — mỗi lớp dựa trên lớp bên dưới và phục vụ lớp bên trên:

Phần cứng (đáy): máy chạy mô hình tại chỗ — Apple Silicon (Mac Mini/Studio) hoặc máy GPU. Đây là nền của cả stack; dung lượng bộ nhớ quyết định cỡ mô hình chạy được.
Serving engine: phần mềm nạp mô hình vào bộ nhớ và trả lời yêu cầu — Ollama cho khởi đầu nhanh, vLLM khi cần phục vụ nhiều người cùng lúc.
Mô hình mã nguồn mở: "bộ não" ngôn ngữ — họ Qwen, Gemma, Llama. Chọn theo giấy phép cho phép dùng thương mại và cỡ vừa với phần cứng.
RAG (vector DB + tài liệu nội bộ): lớp cho AI "đọc" tài liệu của bạn. Tài liệu được nhúng (embedding) và lưu trong vector database; khi có câu hỏi, hệ thống truy hồi đoạn liên quan để mô hình trả lời kèm trích dẫn, giảm "ảo giác".
API tương thích OpenAI: một cửa vào chuẩn hóa. Vì đúng chuẩn OpenAI, mọi công cụ hay app sẵn có đều gọi được mà gần như không phải sửa code.
Giao diện & tích hợp (đỉnh): lớp người dùng chạm vào — giao diện chat cho nhân viên và các điểm nối vào phần mềm nội bộ.
Bảo mật (bao quanh): không phải một hộp riêng mà là lớp áp lên mọi lớp — xác thực người dùng, phân quyền, cô lập mạng và ghi nhật ký truy cập.
Trending Pool: kênh cập nhật tri thức có kiểm soát — định kỳ tuyển chọn thông tin mới rồi bơm vào lớp RAG, để AI nội bộ không "đứng yên" theo thời gian mà vẫn không phải mở kết nối tự do ra ngoài.

Bảng — Các lớp của hệ thống AI nội bộ & vai trò
Lớp	Vai trò
Phần cứng (đáy)	Máy chạy mô hình tại chỗ — Apple Silicon (Mac Mini/Studio) hoặc máy GPU; dung lượng bộ nhớ quyết định cỡ mô hình chạy được
Serving engine	Nạp mô hình vào bộ nhớ và trả lời yêu cầu — Ollama cho khởi đầu nhanh, vLLM khi cần phục vụ nhiều người cùng lúc
Mô hình mã nguồn mở	"Bộ não" ngôn ngữ — họ Qwen, Gemma, Llama; chọn theo giấy phép cho phép dùng thương mại và cỡ vừa với phần cứng
RAG (vector DB + tài liệu nội bộ)	Lớp cho AI "đọc" tài liệu của bạn; truy hồi đoạn liên quan để mô hình trả lời kèm trích dẫn, giảm "ảo giác"
API tương thích OpenAI	Một cửa vào chuẩn hóa; mọi công cụ hay app sẵn có đều gọi được mà gần như không phải sửa code
Giao diện & tích hợp (đỉnh)	Lớp người dùng chạm vào — giao diện chat cho nhân viên và các điểm nối vào phần mềm nội bộ
Bảo mật (bao quanh)	Lớp áp lên mọi lớp — xác thực người dùng, phân quyền, cô lập mạng và ghi nhật ký truy cập
Trending Pool	Kênh cập nhật tri thức có kiểm soát — định kỳ tuyển chọn thông tin mới rồi bơm vào lớp RAG

Luồng dữ liệu của một câu hỏi

Sơ đồ theo lớp cho biết hệ thống được xếp ra sao; còn khi có một câu hỏi thực tế, dữ liệu đi ngang qua các lớp theo trình tự. Dưới đây là hành trình của một câu hỏi, tất cả nằm trong ranh giới on-premise.

Luồng một câu hỏi: (1) người dùng → giao diện, (2) → API, (3) → RAG truy hồi ngữ cảnh từ Vector DB, (4) → mô hình sinh câu trả lời, (5) trả lời kèm trích dẫn về người dùng. Sơ đồ: Namtech.

Cho đội IT

Ánh xạ từng lớp sang công cụ cụ thể, phổ biến hiện nay:

Phần cứng: Apple Silicon (Mac Mini/Studio) hoặc máy GPU.
Serving: Ollama (khởi đầu nhanh) hoặc vLLM (throughput cao).
Mô hình: Qwen · Gemma — chọn theo giấy phép thương mại và cỡ vừa VRAM/RAM.
RAG: vector DB pgvector · Qdrant + tài liệu nội bộ.
API: endpoint tương thích OpenAI do serving engine expose.
Giao diện: Open WebUI hoặc app riêng gọi API.

Bảng — Ánh xạ từng lớp sang công cụ cụ thể
Lớp	Công cụ
Phần cứng	Apple Silicon (Mac Mini/Studio) hoặc máy GPU
Serving	Ollama (khởi đầu nhanh) hoặc vLLM (throughput cao)
Mô hình	Qwen · Gemma — chọn theo giấy phép thương mại và cỡ vừa VRAM/RAM
RAG	Vector DB pgvector · Qdrant + tài liệu nội bộ
API	Endpoint tương thích OpenAI do serving engine expose
Giao diện	Open WebUI hoặc app riêng gọi API

Ranh giới on-premise — vì sao dữ liệu không rời tổ chức

Điểm mấu chốt của cả hai sơ đồ là ranh giới nét đứt bao quanh mọi lớp. Vì phần cứng, serving, mô hình, vector DB và tài liệu đều nằm trong hạ tầng của bạn, nên khi một câu hỏi đi qua stack, prompt, tài liệu truy hồi và câu trả lời không bao giờ rời mạng nội bộ. Không có bước nào gọi ra API AI công cộng.

Kênh duy nhất chạm tới bên ngoài là Trending Pool — và đó là kênh có kiểm soát, một chiều vào: nó tuyển chọn tri thức mới rồi nạp vào RAG theo định kỳ, chứ không đẩy dữ liệu nội bộ ra ngoài. Nhờ vậy dữ liệu tại chỗ dễ chứng minh cho mục đích tuân thủ PDPL, trong khi tri thức của hệ thống vẫn được làm mới.

Góc nhìn Namtech

Namtech triển khai đúng kiến trúc theo lớp này trên Apple Silicon (cụm Mac Mini/Studio, điện năng thấp) với mô hình mã nguồn mở an toàn thương mại. Chúng tôi coi ranh giới on-premise và lớp bảo mật bao quanh là mặc định — không phải tùy chọn thêm — và dùng Trending Pool làm kênh cập nhật tri thức có kiểm soát. Hiểu sơ đồ này giúp đội của bạn biết mình đang tự chủ những gì và đối tác đang gánh phần nào.

Câu hỏi thường gặp

Vì sao bảo mật được vẽ là lớp "bao quanh" chứ không phải một hộp riêng?

Vì bảo mật không sống ở một chỗ. Xác thực người dùng nằm ở giao diện, phân quyền nằm ở API, cô lập mạng nằm ở tầng hạ tầng, nhật ký truy cập trải khắp. Vẽ thành lớp bao quanh phản ánh việc mọi lớp đều phải chịu kiểm soát — chi tiết ở bài Hệ thống bảo mật AI nội bộ.

RAG khác gì với việc mô hình "tự biết" câu trả lời?

Mô hình chỉ biết những gì có trong dữ liệu huấn luyện của nó. RAG cho mô hình đọc tài liệu nội bộ của bạn tại thời điểm hỏi: hệ thống truy hồi đoạn liên quan từ vector DB rồi đưa vào ngữ cảnh, nên câu trả lời bám tài liệu thật và kèm trích dẫn. Xem bài RAG.

API "tương thích OpenAI" nghĩa là gì?

Nghĩa là endpoint của hệ thống nội bộ dùng đúng định dạng request/response như API của OpenAI. Nhờ vậy các thư viện, công cụ và app viết cho OpenAI đều gọi vào AI nội bộ được mà gần như không phải sửa code — chỉ đổi địa chỉ endpoint.

Trending Pool có làm rò rỉ dữ liệu ra ngoài không?

Không, nếu triển khai đúng: đây là kênh một chiều vào — chỉ tuyển chọn tri thức mới nạp vào RAG theo định kỳ, không đẩy prompt hay tài liệu nội bộ ra ngoài. Chi tiết ở bài Trending Pool.

Muốn có AI nội bộ mà không phải bắt đầu từ số 0?

Namtech triển khai nền tảng AI riêng tư nội bộ — mô hình mã nguồn mở chạy 100% trên hạ tầng của bạn, dữ liệu không rời tổ chức.

Đặt lịch tư vấn miễn phí

Lưu ý: Bài viết mang tính khái quát kiến trúc, cập nhật 02/07/2026; công cụ và mô hình thay đổi nhanh — hãy kiểm chứng phiên bản mới nhất khi triển khai.

Tài liệu tham khảo