AI nội bộ

Sơ đồ kiến trúc hệ thống AI nội bộ (giải thích từng lớp)

Sơ đồ kiến trúc hệ thống AI nội bộ on-premise của Namtech theo từng lớp

Một hệ thống AI nội bộ (on-premise) được xếp thành các lớp chồng lên nhau, tất cả nằm gọn trong hạ tầng của bạn: từ dưới lên là phần cứng → serving → mô hình mã nguồn mở → RAG → API tương thích OpenAI → giao diện & tích hợp; một lớp bảo mật bao quanh toàn bộ và một Trending Pool bơm tri thức mới vào RAG qua kênh có kiểm soát. Bài này giải thích từng lớp và vẽ luồng dữ liệu của một câu hỏi đi qua hệ thống.

Tóm tắt nhanh

  • Kiến trúc theo lớp: phần cứng ở đáy, giao diện ở đỉnh; mỗi lớp chỉ nói chuyện với lớp kề nó.
  • Ranh giới on-premise: mọi lớp nằm trong hạ tầng của bạn — prompt, tài liệu, câu trả lời không rời tổ chức.
  • Bảo mật là lớp bao quanh chứ không phải một hộp riêng: xác thực, phân quyền, mạng, nhật ký áp lên mọi lớp.
  • Trending Pool là kênh có kiểm soát để cập nhật tri thức mới vào lớp RAG theo định kỳ.
  • Luồng một câu hỏi: người dùng → giao diện → API → RAG truy hồi → mô hình sinh câu trả lời kèm trích dẫn.

Kiến trúc tổng thể

Cách dễ hình dung nhất về AI nội bộ là một chồng lớp (stack) nằm trọn trong ranh giới hạ tầng của bạn. Người dùng và ứng dụng bên ngoài chỉ chạm vào lớp trên cùng (giao diện & API); mọi thứ bên dưới — mô hình, dữ liệu, truy hồi — đều ở tại chỗ. Sơ đồ dưới đây là bản đồ tổng thể của cả hệ thống.

Hạ tầng của bạn — on-premise · dữ liệu không rời tổ chức Người dùng · ứng dụng Bảo mật — xác thực · phân quyền · mạng · nhật ký 6 · Giao diện & Tích hợpChat UI cho nhân viên · webhook · nối phần mềm sẵn có 5 · API tương thích OpenAIMột endpoint chuẩn để mọi app gọi vào 4 · RAG — Vector DB + Tài liệu nội bộTruy hồi ngữ cảnh từ tài liệu của bạn, trả lời kèm trích dẫnpgvector · Qdrant · Chroma 3 · Mô hình mã nguồn mởQwen · Gemma · Llama — giấy phép thương mại 2 · Serving engineOllama · vLLM — nạp & chạy mô hình 1 · Phần cứngApple Silicon · GPU — chạy tại chỗ Trending Pool định kỳ kênh có kiểm soát
Kiến trúc AI nội bộ theo lớp: phần cứng ở đáy → giao diện ở đỉnh, bảo mật bao quanh, Trending Pool bơm tri thức vào RAG — tất cả trong ranh giới on-premise. Sơ đồ: Namtech.

Giải thích từng lớp

Đọc từ dưới lên — mỗi lớp dựa trên lớp bên dưới và phục vụ lớp bên trên:

  • Phần cứng (đáy): máy chạy mô hình tại chỗ — Apple Silicon (Mac Mini/Studio) hoặc máy GPU. Đây là nền của cả stack; dung lượng bộ nhớ quyết định cỡ mô hình chạy được.
  • Serving engine: phần mềm nạp mô hình vào bộ nhớ và trả lời yêu cầu — Ollama cho khởi đầu nhanh, vLLM khi cần phục vụ nhiều người cùng lúc.
  • Mô hình mã nguồn mở: "bộ não" ngôn ngữ — họ Qwen, Gemma, Llama. Chọn theo giấy phép cho phép dùng thương mại và cỡ vừa với phần cứng.
  • RAG (vector DB + tài liệu nội bộ): lớp cho AI "đọc" tài liệu của bạn. Tài liệu được nhúng (embedding) và lưu trong vector database; khi có câu hỏi, hệ thống truy hồi đoạn liên quan để mô hình trả lời kèm trích dẫn, giảm "ảo giác".
  • API tương thích OpenAI: một cửa vào chuẩn hóa. Vì đúng chuẩn OpenAI, mọi công cụ hay app sẵn có đều gọi được mà gần như không phải sửa code.
  • Giao diện & tích hợp (đỉnh): lớp người dùng chạm vào — giao diện chat cho nhân viên và các điểm nối vào phần mềm nội bộ.
  • Bảo mật (bao quanh): không phải một hộp riêng mà là lớp áp lên mọi lớp — xác thực người dùng, phân quyền, cô lập mạng và ghi nhật ký truy cập.
  • Trending Pool: kênh cập nhật tri thức có kiểm soát — định kỳ tuyển chọn thông tin mới rồi bơm vào lớp RAG, để AI nội bộ không "đứng yên" theo thời gian mà vẫn không phải mở kết nối tự do ra ngoài.

Luồng dữ liệu của một câu hỏi

Sơ đồ theo lớp cho biết hệ thống được xếp ra sao; còn khi có một câu hỏi thực tế, dữ liệu đi ngang qua các lớp theo trình tự. Dưới đây là hành trình của một câu hỏi, tất cả nằm trong ranh giới on-premise.

Hạ tầng của bạn — mọi bước ở tại chỗ Người dùngđặt câu hỏi Giao diệnChat UI APIOpenAI-compat RAG · truy hồitừ Vector DB Mô hìnhsinh câu trả lời Trả lời + trích dẫnvề đúng người dùng 1 2 3 4 5
Luồng một câu hỏi: (1) người dùng → giao diện, (2) → API, (3) → RAG truy hồi ngữ cảnh từ Vector DB, (4) → mô hình sinh câu trả lời, (5) trả lời kèm trích dẫn về người dùng. Sơ đồ: Namtech.
Cho đội IT

Ánh xạ từng lớp sang công cụ cụ thể, phổ biến hiện nay:

  • Phần cứng: Apple Silicon (Mac Mini/Studio) hoặc máy GPU.
  • Serving: Ollama (khởi đầu nhanh) hoặc vLLM (throughput cao).
  • Mô hình: Qwen · Gemma — chọn theo giấy phép thương mại và cỡ vừa VRAM/RAM.
  • RAG: vector DB pgvector · Qdrant + tài liệu nội bộ.
  • API: endpoint tương thích OpenAI do serving engine expose.
  • Giao diện: Open WebUI hoặc app riêng gọi API.

Ranh giới on-premise — vì sao dữ liệu không rời tổ chức

Điểm mấu chốt của cả hai sơ đồ là ranh giới nét đứt bao quanh mọi lớp. Vì phần cứng, serving, mô hình, vector DB và tài liệu đều nằm trong hạ tầng của bạn, nên khi một câu hỏi đi qua stack, prompt, tài liệu truy hồi và câu trả lời không bao giờ rời mạng nội bộ. Không có bước nào gọi ra API AI công cộng.

Kênh duy nhất chạm tới bên ngoài là Trending Pool — và đó là kênh có kiểm soát, một chiều vào: nó tuyển chọn tri thức mới rồi nạp vào RAG theo định kỳ, chứ không đẩy dữ liệu nội bộ ra ngoài. Nhờ vậy dữ liệu tại chỗ dễ chứng minh cho mục đích tuân thủ PDPL, trong khi tri thức của hệ thống vẫn được làm mới.

Góc nhìn Namtech

Namtech triển khai đúng kiến trúc theo lớp này trên Apple Silicon (cụm Mac Mini/Studio, điện năng thấp) với mô hình mã nguồn mở an toàn thương mại. Chúng tôi coi ranh giới on-premiselớp bảo mật bao quanh là mặc định — không phải tùy chọn thêm — và dùng Trending Pool làm kênh cập nhật tri thức có kiểm soát. Hiểu sơ đồ này giúp đội của bạn biết mình đang tự chủ những gì và đối tác đang gánh phần nào.

Câu hỏi thường gặp

Vì sao bảo mật được vẽ là lớp "bao quanh" chứ không phải một hộp riêng?

Vì bảo mật không sống ở một chỗ. Xác thực người dùng nằm ở giao diện, phân quyền nằm ở API, cô lập mạng nằm ở tầng hạ tầng, nhật ký truy cập trải khắp. Vẽ thành lớp bao quanh phản ánh việc mọi lớp đều phải chịu kiểm soát — chi tiết ở bài Hệ thống bảo mật AI nội bộ.

RAG khác gì với việc mô hình "tự biết" câu trả lời?

Mô hình chỉ biết những gì có trong dữ liệu huấn luyện của nó. RAG cho mô hình đọc tài liệu nội bộ của bạn tại thời điểm hỏi: hệ thống truy hồi đoạn liên quan từ vector DB rồi đưa vào ngữ cảnh, nên câu trả lời bám tài liệu thật và kèm trích dẫn. Xem bài RAG.

API "tương thích OpenAI" nghĩa là gì?

Nghĩa là endpoint của hệ thống nội bộ dùng đúng định dạng request/response như API của OpenAI. Nhờ vậy các thư viện, công cụ và app viết cho OpenAI đều gọi vào AI nội bộ được mà gần như không phải sửa code — chỉ đổi địa chỉ endpoint.

Trending Pool có làm rò rỉ dữ liệu ra ngoài không?

Không, nếu triển khai đúng: đây là kênh một chiều vào — chỉ tuyển chọn tri thức mới nạp vào RAG theo định kỳ, không đẩy prompt hay tài liệu nội bộ ra ngoài. Chi tiết ở bài Trending Pool.

Muốn có AI nội bộ mà không phải bắt đầu từ số 0?

Namtech triển khai nền tảng AI riêng tư nội bộ — mô hình mã nguồn mở chạy 100% trên hạ tầng của bạn, dữ liệu không rời tổ chức.

Đặt lịch tư vấn miễn phí

Lưu ý: Bài viết mang tính khái quát kiến trúc, cập nhật 02/07/2026; công cụ và mô hình thay đổi nhanh — hãy kiểm chứng phiên bản mới nhất khi triển khai.

Bắt đầu

Bắt đầu với một buổi khảo sát miễn phí

Để xác định gói phù hợp và phạm vi chi tiết, Namtech đề xuất một buổi khảo sát ngắn không tính phí.

Chúng tôi phản hồi trong vòng 1 ngày làm việc. Không spam, không chia sẻ thông tin của bạn.