RAG: cho AI nội bộ học tài liệu nội bộ của bạn

Q: Nên chọn vector DB nào: pgvector, Qdrant hay Chroma?

Nếu đã dùng PostgreSQL, pgvector tiện nhất vì gộp chung một CSDL. Qdrant là vector DB chuyên dụng, mạnh về lọc metadata và mở rộng. Chroma nhẹ, hợp khởi đầu và dự án nhỏ. Cả ba đều mã nguồn mở, chạy được on-premise.

Q: RAG có làm dữ liệu rời tổ chức không?

Không nếu triển khai đúng: mô hình embedding, vector DB và mô hình sinh câu trả lời đều chạy trên hạ tầng của bạn, không gọi API bên ngoài. Đây là lý do RAG on-premise phù hợp tài liệu nhạy cảm.

RAG (Retrieval-Augmented Generation — sinh câu trả lời có tăng cường truy hồi) là cách cho AI nội bộ đọc chính tài liệu của bạn để trả lời: thay vì "nhớ" mọi thứ trong trọng số mô hình, hệ thống tìm đúng đoạn văn liên quan trong kho tài liệu nội bộ, chèn vào prompt, rồi để mô hình trả lời kèm trích dẫn nguồn — nhờ đó giảm ảo giác và cập nhật tri thức mà không phải train lại. Đây là bài 5/8 trong series Tự xây AI nội bộ.

Tóm tắt nhanh

RAG là gì: truy hồi đoạn tài liệu nội bộ liên quan → chèn vào ngữ cảnh → mô hình trả lời dựa trên đó, kèm trích dẫn.
Vì sao dùng: trả lời đúng theo tài liệu của bạn, giảm bịa, và cập nhật tri thức chỉ bằng thêm/sửa tài liệu — không cần train lại mô hình.
Pipeline: ingest → chunk → embed → lưu vector DB → retrieve → augment prompt → answer.
Hạ tầng: một mô hình embedding (nên chọn loại đa ngữ, tốt tiếng Việt) + vector DB (pgvector, Qdrant, Chroma).
Chất lượng đến từ: chunking hợp lý, metadata đầy đủ, và bắt buộc trả lời kèm nguồn.

RAG là gì và vì sao cần cho tài liệu nội bộ?

Một mô hình ngôn ngữ chỉ "biết" những gì đã học lúc huấn luyện — nó không biết quy trình, hợp đồng hay chính sách nội bộ của riêng bạn. Nếu hỏi thẳng, nó dễ bịa ra câu trả lời nghe hợp lý nhưng sai (ảo giác). RAG giải quyết bằng cách, trước khi trả lời, đi tìm những đoạn tài liệu nội bộ liên quan nhất và đưa vào ngữ cảnh; mô hình chỉ việc tổng hợp câu trả lời dựa trên tài liệu thật và chỉ ra đã lấy từ nguồn nào.

So với fine-tuning (huấn luyện thêm mô hình trên dữ liệu của bạn), RAG thực dụng hơn cho tình huống "cho AI đọc tài liệu nội bộ":

Tiêu chí	RAG	Fine-tuning
Cập nhật tri thức	Thêm/sửa tài liệu là xong, hiệu lực ngay	Phải train lại khi dữ liệu đổi
Trích dẫn nguồn	Có — chỉ rõ lấy từ tài liệu nào	Khó truy vết câu trả lời về nguồn
Chi phí & kỹ năng	Nhẹ hơn, không cần GPU huấn luyện	Cần dữ liệu, tính toán và chuyên môn train
Phù hợp nhất	Hỏi-đáp tài liệu, tri thức thay đổi thường xuyên	Định hình văn phong, kỹ năng chuyên biệt

Hai cách không loại trừ nhau — nhưng với đa số doanh nghiệp muốn "trợ lý biết mọi tài liệu công ty", RAG là điểm khởi đầu đúng đắn, và cũng an toàn hơn vì tài liệu không bị "nung" vào trọng số mô hình.

Pipeline RAG hoạt động thế nào?

Một hệ RAG cơ bản gồm hai giai đoạn: lập chỉ mục (làm một lần, chạy lại khi tài liệu đổi) và truy vấn (mỗi lần người dùng hỏi). Các bước:

Ingest (nạp): thu thập tài liệu nội bộ — PDF, Word, wiki, trang nội bộ — và trích xuất văn bản.
Chunk (cắt đoạn): chia văn bản thành các đoạn vừa phải, kèm metadata (tên file, mục, trang).
Embed (nhúng): chuyển mỗi đoạn thành một vector số bằng mô hình embedding.
Lưu vào vector DB: cất các vector cùng metadata để tìm theo độ tương đồng.
Retrieve (truy hồi): khi có câu hỏi, embed câu hỏi và tìm những đoạn gần nhất trong vector DB.
Augment prompt (tăng cường): chèn các đoạn tìm được vào prompt làm ngữ cảnh.
Answer (trả lời): mô hình sinh câu trả lời dựa trên ngữ cảnh đó, kèm trích dẫn nguồn.

Bốn bước đầu là "chuẩn bị kho tri thức"; ba bước sau chạy theo thời gian thực mỗi câu hỏi. Để hình dung RAG nằm ở đâu trong toàn hệ thống, xem Sơ đồ kiến trúc hệ thống AI nội bộ.

Pipeline RAG — tài liệu được cắt đoạn, nhúng và lưu vào vector DB; câu hỏi truy hồi đoạn liên quan rồi đưa vào mô hình để trả lời kèm trích dẫn, tất cả tại chỗ. Sơ đồ: Namtech.

Vector DB & mô hình embedding

Trái tim của RAG là vector database — nơi lưu các vector embedding và tìm nhanh những vector "gần" nhất với câu hỏi (tìm theo ngữ nghĩa, không phải khớp từ khóa). Ba lựa chọn mã nguồn mở phổ biến để chạy on-premise:

pgvector: extension cho PostgreSQL — tiện nhất nếu bạn đã dùng Postgres, tri thức và dữ liệu nghiệp vụ nằm chung một CSDL.
Qdrant: vector DB chuyên dụng, viết bằng Rust, mạnh về lọc theo metadata và mở rộng.
Chroma: nhẹ, dễ khởi đầu cho nguyên mẫu và dự án nhỏ.

Bảng — Ba vector DB mã nguồn mở chạy on-premise
Vector DB	Loại	Điểm mạnh	Khi nào chọn
pgvector	Extension cho PostgreSQL	Tri thức & dữ liệu nghiệp vụ chung một CSDL	Đã dùng Postgres sẵn
Qdrant	Vector DB chuyên dụng (Rust)	Lọc theo metadata & mở rộng	Cần lọc mạnh, quy mô lớn
Chroma	Vector DB nhẹ	Dễ khởi đầu	Nguyên mẫu & dự án nhỏ

Đi kèm là mô hình embedding — thứ biến văn bản thành vector. Với tài liệu tiếng Việt, hãy chọn mô hình embedding đa ngữ (multilingual) để câu hỏi tiếng Việt truy hồi đúng đoạn tiếng Việt; embedding chỉ tối ưu cho tiếng Anh sẽ truy hồi kém. Một nguyên tắc quan trọng: dùng cùng một mô hình embedding cho lúc lập chỉ mục và lúc truy vấn — đổi mô hình thì phải nhúng lại toàn bộ kho.

Chunking & chất lượng truy hồi

Chất lượng câu trả lời phụ thuộc rất nhiều vào cách cắt đoạn. Nếu chunk quá lớn, vector "loãng" và kéo theo nhiều nội dung nhiễu; nếu quá nhỏ, đoạn mất ngữ cảnh và trả lời cụt. Vài nguyên tắc thực dụng:

Kích thước chunk: chọn cỡ vừa phải để mỗi đoạn tự nó có nghĩa (ví dụ theo đoạn văn hoặc mục), thay vì cắt cứng giữa câu.
Overlap (chồng lấn): cho các chunk chồng nhau một phần nhỏ để không cắt mất ý ở ranh giới.
Metadata: gắn nguồn (tên file, tiêu đề mục, trang, ngày) vào mỗi chunk — vừa để lọc, vừa để hiển thị trích dẫn.
Số đoạn truy hồi (top-k): lấy vừa đủ đoạn liên quan; quá nhiều làm loãng ngữ cảnh và tốn token.

Không có con số "đúng cho mọi trường hợp" — kích thước chunk, overlap và top-k nên được thử nghiệm theo tập tài liệu và câu hỏi thực tế của bạn. Cách đo chất lượng truy hồi và câu trả lời được trình bày ở bài Đánh giá & tinh chỉnh.

Trích dẫn & chống ảo giác

Lợi ích lớn nhất của RAG với doanh nghiệp là khả năng truy vết: mỗi câu trả lời có thể kèm nguồn nội bộ đã dùng, để người đọc mở đúng tài liệu gốc mà kiểm chứng. Vài thực hành giúp hạn chế bịa:

Bắt buộc trả lời dựa trên ngữ cảnh: hướng dẫn mô hình chỉ dùng đoạn được cung cấp, và nói "không tìm thấy trong tài liệu" khi không có căn cứ.
Luôn hiển thị trích dẫn: đính kèm tên tài liệu/mục cho từng khẳng định để người dùng tự kiểm tra.
Giữ kho tri thức sạch & mới: tài liệu lỗi thời hoặc mâu thuẫn sẽ dẫn tới câu trả lời sai — RAG chỉ tốt bằng nguồn của nó.

RAG giảm ảo giác đáng kể nhưng không loại bỏ hoàn toàn; vẫn cần đánh giá và guardrails như trình bày ở bài Đánh giá. Với tri thức ngoài tổ chức (tin tức, xu hướng thế giới) mà vẫn muốn giữ dữ liệu tại chỗ, xem cơ chế Trending Pool — cập nhật tri thức toàn cầu, vốn nạp tri thức mới vào chính kho RAG.

Cho đội IT

Một stack RAG tối giản, chạy hoàn toàn on-premise:

Embedding: một mô hình embedding đa ngữ chạy cục bộ (phục vụ qua chính lớp serving của bạn).
Vector DB: pgvector nếu đã có Postgres, hoặc Qdrant/Chroma nếu muốn DB chuyên dụng.
Retriever: lớp mỏng: embed câu hỏi → truy vấn top-k theo độ tương đồng → chèn vào prompt.

Luồng khái niệm (giả mã) cho một truy vấn RAG:

# lập chỉ mục (một lần / khi tài liệu đổi)
chunks   = chunk(documents, overlap=True)
vectors  = embed(chunks)              # cùng model dùng cho truy vấn
vectordb.upsert(vectors, metadata=chunks.meta)

# truy vấn (mỗi câu hỏi)
q_vec    = embed(question)
top      = vectordb.search(q_vec, k=5)   # đoạn liên quan + nguồn
prompt   = system + context(top) + question
answer   = llm(prompt)                # trả lời kèm trích dẫn từ top

Góc nhìn Namtech

Namtech dựng RAG ngay trên tài liệu nội bộ của khách hàng, chạy 100% tại chỗ trên Apple Silicon cùng lớp serving mã nguồn mở: cả mô hình embedding, vector DB lẫn mô hình sinh câu trả lời đều nằm trong hạ tầng của bạn — tài liệu không rời tổ chức. Chúng tôi ưu tiên embedding đa ngữ tốt cho tiếng Việt, chunking theo cấu trúc tài liệu thực tế, và luôn trả lời kèm trích dẫn nguồn nội bộ để người dùng kiểm chứng. Bước tiếp theo là đưa RAG này ra giao diện chat và API cho nhân viên — xem bài Giao diện & tích hợp.

Câu hỏi thường gặp

RAG khác gì so với fine-tuning?

RAG truy hồi tài liệu liên quan rồi đưa vào ngữ cảnh để mô hình trả lời — cập nhật tri thức chỉ bằng thêm/sửa tài liệu và trả lời kèm trích dẫn. Fine-tuning huấn luyện thêm mô hình trên dữ liệu của bạn, phù hợp để định hình văn phong/kỹ năng nhưng khó cập nhật và khó truy vết nguồn. Với hỏi-đáp tài liệu nội bộ, RAG thường là điểm khởi đầu đúng.

Nên chọn vector DB nào: pgvector, Qdrant hay Chroma?

Nếu đã dùng PostgreSQL, pgvector tiện nhất vì gộp chung một CSDL. Qdrant là vector DB chuyên dụng, mạnh về lọc metadata và mở rộng. Chroma nhẹ, hợp khởi đầu và dự án nhỏ. Cả ba đều mã nguồn mở, chạy được on-premise.

RAG có làm dữ liệu rời tổ chức không?

Không, nếu triển khai đúng: mô hình embedding, vector DB và mô hình sinh câu trả lời đều chạy trên hạ tầng của bạn, không gọi API bên ngoài. Đây chính là lý do RAG on-premise phù hợp tài liệu nhạy cảm. Các lớp phòng thủ chi tiết ở bài Hệ thống bảo mật.

RAG có loại bỏ hoàn toàn ảo giác không?

Không hoàn toàn, nhưng giảm đáng kể vì câu trả lời dựa trên tài liệu thật và kèm trích dẫn để kiểm chứng. Vẫn cần giữ kho tri thức sạch/mới, hướng dẫn mô hình chỉ dùng ngữ cảnh được cấp, và đo lường như ở bài Đánh giá & tinh chỉnh.

← Bài trước · Phần 4/8Serving mô hình AI nội bộ Bài tiếp theo · Phần 6/8 →Giao diện & tích hợp

Muốn AI nội bộ đọc được tài liệu của bạn?

Namtech dựng RAG trên tài liệu nội bộ — embedding, vector DB và mô hình chạy 100% tại chỗ, trả lời kèm trích dẫn, dữ liệu không rời tổ chức.

Đặt lịch tư vấn miễn phí

Lưu ý: Bài viết mang tính hướng dẫn tổng quan, cập nhật 02/07/2026; công cụ và mô hình thay đổi nhanh — hãy kiểm chứng phiên bản mới nhất khi triển khai.

Tài liệu tham khảo