AI nội bộ

Đánh giá chất lượng & tinh chỉnh AI nội bộ (eval, guardrails)

Đánh giá chất lượng và tinh chỉnh AI nội bộ: eval, guardrails, giảm ảo giác

Đánh giá (eval) AI nội bộ là quy trình đo chất lượng câu trả lời một cách có hệ thống trước khi tin dùng — vì không đo thì không cải thiện được. Cách làm cốt lõi: dựng một tập câu hỏi "vàng" (golden set) theo nghiệp vụ của bạn, chấm điểm bằng người + LLM-as-judge, giảm ảo giác (hallucination) bằng RAG + trích dẫn + prompt tốt, và đặt guardrails an toàn ở đầu vào/đầu ra. Fine-tune chỉ cần khi RAG + prompt đã không đủ. Đây là bài 7/8 trong series tự xây AI nội bộ.

Tóm tắt nhanh

  • Vì sao đánh giá: AI có thể trả lời trôi chảy nhưng sai (ảo giác); không có thước đo thì không biết bản mới tốt hơn hay tệ hơn.
  • Cách đo: golden set gồm câu hỏi thật + đáp án mong đợi, chấm bởi người và bổ trợ bằng LLM-as-judge (biết rõ hạn chế của nó).
  • Giảm ảo giác: RAG cấp ngữ cảnh, buộc trích dẫn nguồn, prompt tốt, và cho phép AI "nói không biết khi không chắc".
  • Guardrails: lọc đầu vào/đầu ra, xử lý PII, từ chối yêu cầu ngoài phạm vi hoặc độc hại.
  • Fine-tune: thường không cần — chỉ dùng khi cần giọng văn/định dạng đặc thù và dữ liệu đã ổn định.

Vì sao phải đánh giá?

Một mô hình ngôn ngữ luôn trả lời được — kể cả khi nó sai. Câu chữ trôi chảy, tự tin, đúng ngữ pháp không đồng nghĩa với đúng sự thật. Hiện tượng mô hình "bịa" ra thông tin trông có vẻ hợp lý nhưng không có thật gọi là ảo giác (hallucination), và đây là rủi ro chính khi đưa AI vào công việc thật: một câu trả lời sai được trình bày thuyết phục còn nguy hiểm hơn một câu "tôi không biết".

Nếu không đo, bạn không có cách nào biết bản cập nhật mô hình, thay đổi prompt, hay chỉnh RAG là tốt hơn hay tệ hơn — bạn chỉ đang "cảm giác". Nguyên tắc kỹ thuật ở đây rất đơn giản: không đo thì không cải thiện được. Đánh giá biến chất lượng từ chuyện cảm tính thành con số so sánh được giữa các phiên bản.

Cách đo chất lượng — golden set + người + LLM-as-judge

Bước đầu tiên là dựng một tập câu hỏi "vàng" (golden set): một danh sách các câu hỏi thật sự phát sinh trong nghiệp vụ của bạn, kèm đáp án mong đợi (hoặc các điểm chính mà câu trả lời đúng phải chạm tới). Không cần nhiều — vài chục đến vài trăm câu bao phủ các tình huống hay gặp và các ca "khó" là đã đủ giá trị. Điểm mấu chốt: golden set phải theo nghiệp vụ của bạn, không phải benchmark chung chung.

Có hai cách chấm điểm, nên dùng kết hợp:

  • Người chấm: chuyên gia nghiệp vụ đọc câu trả lời và đánh giá đúng/sai, đủ/thiếu, có trích dẫn đúng nguồn không. Đây là chuẩn vàng về độ tin cậy, nhưng chậm và tốn công.
  • LLM-as-judge: dùng chính một mô hình để chấm câu trả lời so với đáp án mong đợi, giúp mở rộng quy mô và chạy tự động, lặp lại nhanh.

Hạn chế của LLM-as-judge cần biết rõ: mô hình chấm có thể thiên vị — ưu ái câu trả lời dài hơn, câu trả lời do chính họ nhà mô hình sinh ra, hoặc bị ảnh hưởng bởi thứ tự trình bày; nó cũng có thể "chấm rộng tay" hay bỏ sót sai sót tinh vi. Vì vậy LLM-as-judge nên dùng để sàng lọc nhanh và theo dõi xu hướng, còn quyết định quan trọng vẫn cần người chốt trên một mẫu đại diện. Đừng để một con điểm do máy chấm thay hoàn toàn cho phán đoán con người.

Vòng lặp đánh giá — cải thiện liên tục theo con số 1Tập testGolden set nghiệp vụ 2Chạy mô hìnhSinh câu trả lời 3Chấm điểmNgười + LLM-judge 4Cải thiệnPrompt · RAG · guardrails
Vòng lặp đánh giá: tập test → chạy mô hình → chấm điểm → cải thiện (prompt/RAG/guardrails) → lặp lại. Sơ đồ: Namtech.

Giảm ảo giác (hallucination)

Không có cách nào diệt ảo giác 100%, nhưng có nhiều lớp giúp giảm mạnh khi kết hợp:

  • RAG (truy xuất tài liệu): thay vì để mô hình trả lời từ "trí nhớ", ta cấp cho nó đúng đoạn tài liệu nội bộ liên quan làm ngữ cảnh. Câu trả lời bám vào nguồn thật thay vì tự bịa. Xem chi tiết ở bài RAG cho tài liệu nội bộ.
  • Buộc trích dẫn nguồn: yêu cầu mô hình chỉ rõ nó lấy thông tin từ tài liệu/đoạn nào. Người dùng kiểm chứng được, và bản thân yêu cầu trích dẫn khiến mô hình "kỷ luật" hơn.
  • Prompt tốt: hướng dẫn rõ vai trò, phạm vi, và định dạng mong muốn; nhắc mô hình chỉ dùng thông tin trong ngữ cảnh được cấp.
  • Cho phép "nói không biết": chỉ dẫn rõ rằng khi không chắc hoặc tài liệu không có thông tin, mô hình phải nói "tôi không biết / không tìm thấy" thay vì đoán. Một câu "không biết" trung thực an toàn hơn một câu bịa tự tin.

Guardrails an toàn

Guardrails là các lớp kiểm soát bao quanh mô hình để đảm bảo an toàn và tuân thủ — độc lập với chất lượng nội dung:

  • Lọc đầu vào: phát hiện và chặn các nỗ lực tiêm lệnh (prompt injection), yêu cầu vượt quyền, hoặc nội dung độc hại trước khi tới mô hình.
  • Lọc đầu ra: kiểm tra câu trả lời trước khi trả về người dùng — chặn nội dung không phù hợp, rò rỉ bí mật, hoặc phần lộ dữ liệu nhạy cảm.
  • Xử lý PII: nhận diện và che/ẩn thông tin cá nhân (tên, số điện thoại, số căn cước…) theo yêu cầu tuân thủ — liên quan trực tiếp tới PDPL.
  • Từ chối ngoài phạm vi: AI nội bộ nên từ chối lịch sự các yêu cầu nằm ngoài mục đích (ví dụ tư vấn pháp lý cá nhân, nội dung độc hại) và neo lại vào phạm vi nghiệp vụ.

Guardrails là một mặt của bức tranh bảo mật rộng hơn; xem thêm bài đồng hành Hệ thống bảo mật AI nội bộ để thấy các lớp phòng thủ ở tầng hạ tầng và truy cập. Khung tham chiếu rủi ro phổ biến cho ứng dụng LLM là OWASP Top 10 for LLM Applications.

Cho đội IT

Bắt đầu nhỏ: xây một tập eval bằng file CSV gồm câu hỏi + đáp mong đợi, chạy định kỳ, và so điểm giữa các phiên bản (đổi model, đổi prompt, chỉnh RAG). Chỉ cần vài chục dòng là đã đủ để bắt các bước lùi (regression).

# eval.csv — tập câu hỏi "vàng" theo nghiệp vụ
question,expected
"Chính sách nghỉ phép năm là bao nhiêu ngày?","12 ngày phép/năm"
"Quy trình duyệt chi trên 50 triệu?","Cần 2 cấp duyệt: trưởng phòng + giám đốc"

# chạy eval, chấm bằng người + LLM-as-judge, lưu điểm theo phiên bản
python run_eval.py --set eval.csv --model qwen2.5:7b --out scores_v1.json
python run_eval.py --set eval.csv --model qwen2.5:14b --out scores_v2.json
# so điểm 2 phiên bản để quyết định nâng cấp hay không

Khi nào cần fine-tune?

Nhiều người nghĩ muốn AI "giỏi việc của mình" thì phải fine-tune (huấn luyện thêm) mô hình. Thực tế, với đa số bài toán doanh nghiệp, RAG + prompt tốt là đủ — rẻ hơn, nhanh hơn, và dễ cập nhật hơn nhiều (chỉ cần đổi tài liệu, không phải huấn luyện lại). Fine-tune chỉ đáng cân nhắc khi:

  • Cần giọng văn / phong cách rất đặc thù mà prompt không ép được ổn định.
  • Cần định dạng đầu ra cố định, chặt chẽ, lặp lại ở quy mô lớn.
  • Dữ liệu đã ổn định (không thay đổi liên tục) — vì fine-tune "đóng băng" kiến thức vào trọng số, tài liệu mới sẽ không tự cập nhật như RAG.

Quy tắc thực dụng: ưu tiên RAG + prompt trước; fine-tune sau cùng, chỉ khi đã đo và thấy hai lớp kia thật sự chạm trần.

Góc nhìn Namtech

Với mỗi triển khai AI nội bộ, Namtech dựng một golden set theo nghiệp vụ của khách hàng ngay từ đầu và chạy nó như một phần của quy trình — để mọi thay đổi (đổi model, chỉnh prompt, cập nhật RAG) đều được so điểm khách quan thay vì "cảm giác tốt hơn". Chúng tôi đặt guardrails lọc đầu vào/đầu ra và xử lý PII bám theo yêu cầu PDPL, và mặc định ưu tiên RAG + trích dẫn để giảm ảo giác trước khi nghĩ tới fine-tune. Cách tiếp cận này giúp chất lượng minh bạch và cải thiện được theo thời gian — đúng tinh thần "không đo thì không cải thiện".

Câu hỏi thường gặp

Golden set cần bao nhiêu câu là đủ?

Không cần nhiều. Vài chục đến vài trăm câu hỏi thật, bao phủ các tình huống hay gặp cộng vài ca "khó", đã đủ để bắt các bước lùi giữa các phiên bản. Quan trọng là câu hỏi phải theo đúng nghiệp vụ của bạn, không phải benchmark chung chung, và được mở rộng dần khi phát hiện lỗi mới.

LLM-as-judge có đáng tin không?

Đáng tin ở mức sàng lọc và theo dõi xu hướng, nhưng có hạn chế: mô hình chấm có thể thiên vị (ưu ái câu dài, câu do cùng nhà mô hình sinh, ảnh hưởng bởi thứ tự) và bỏ sót sai sót tinh vi. Nên dùng nó để chạy nhanh diện rộng, còn quyết định quan trọng vẫn cần người chốt trên một mẫu đại diện.

Làm sao giảm ảo giác hiệu quả nhất?

Kết hợp nhiều lớp: RAG cấp ngữ cảnh từ tài liệu thật, buộc trích dẫn nguồn để kiểm chứng, prompt yêu cầu chỉ dùng thông tin trong ngữ cảnh, và cho phép mô hình "nói không biết" khi không chắc. Không lớp nào diệt ảo giác 100%, nhưng kết hợp lại giảm rủi ro rất nhiều.

Có bắt buộc phải fine-tune không?

Không. Với đa số bài toán doanh nghiệp, RAG + prompt tốt là đủ và dễ cập nhật hơn nhiều. Fine-tune chỉ cần khi đòi hỏi giọng văn/định dạng rất đặc thù và dữ liệu đã ổn định — và nên là bước sau cùng, chỉ khi đã đo thấy hai lớp kia chạm trần.

Muốn có AI nội bộ mà không phải bắt đầu từ số 0?

Namtech triển khai nền tảng AI riêng tư nội bộ — mô hình mã nguồn mở chạy 100% trên hạ tầng của bạn, dữ liệu không rời tổ chức.

Đặt lịch tư vấn miễn phí

Lưu ý: Bài viết mang tính hướng dẫn tổng quan, cập nhật 02/07/2026; công cụ và mô hình thay đổi nhanh — hãy kiểm chứng phiên bản mới nhất khi triển khai.

Bắt đầu

Bắt đầu với một buổi khảo sát miễn phí

Để xác định gói phù hợp và phạm vi chi tiết, Namtech đề xuất một buổi khảo sát ngắn không tính phí.

Chúng tôi phản hồi trong vòng 1 ngày làm việc. Không spam, không chia sẻ thông tin của bạn.