Chọn mô hình mã nguồn mở & giấy phép thương mại

Q: Làm sao xem giấy phép của một model?

Trên Hugging Face, mở trang model rồi xem thẻ License ở đầu trang; mở tab Files để đọc file LICENSE và các điều khoản kèm theo; đọc kỹ phần model card. Luôn kiểm tra bản mới nhất.

Chọn mô hình cho AI nội bộ là bài toán ba chiều: năng lực (model làm tốt việc của bạn không), phần cứng (nó có vừa RAM/VRAM của máy không) và giấy phép (bạn có được phép dùng thương mại không). Nguyên tắc thực dụng: chọn cỡ nhỏ nhất đủ dùng, ưu tiên model đa ngữ tốt tiếng Việt, và luôn tự đọc giấy phép bản mới nhất trên model card trước khi đưa vào production. Đây là bài 3/8 trong series Tự xây AI nội bộ.

Tóm tắt nhanh

Các họ phổ biến: Qwen, Gemma, Llama, Mistral, DeepSeek — mỗi họ có nhiều cỡ và biến thể.
Giấy phép khác nhau: một số là Apache 2.0/MIT (thoáng), một số dùng giấy phép riêng của nhà phát hành với điều kiện kèm theo. Đừng đoán — hãy đọc model card.
Cỡ model: chọn nhỏ nhất đủ dùng; cỡ lớn hơn cần nhiều bộ nhớ hơn và chạy chậm hơn.
Tiếng Việt: ưu tiên model đa ngữ, nhưng phải test thực tế trên câu hỏi của bạn — đừng tin quảng cáo.
Cách chọn: tải vài ứng viên, chạy trên tập câu hỏi thật, so sánh chất lượng và tốc độ.

Các họ mô hình mã nguồn mở phổ biến

Thị trường model mở thay đổi rất nhanh, nhưng có vài "họ" xuất hiện lặp lại trong hầu hết triển khai AI nội bộ. Dưới đây là mô tả ngắn — không kèm điểm benchmark, vì các con số đó phụ thuộc phiên bản và thời điểm, rất dễ lỗi thời:

Qwen (Alibaba): họ model đa ngữ với nhiều cỡ, thường được đánh giá tốt cho tiếng Việt và các ngôn ngữ châu Á. Có biến thể instruct, coder và nhiều tùy chọn cỡ.
Gemma (Google): họ model mở "nhẹ" của Google, nhiều cỡ, tài liệu và công cụ hỗ trợ tốt. Dùng giấy phép riêng ("Gemma Terms") — cần đọc kỹ.
Llama (Meta): một trong những họ model mở lâu đời và phổ biến nhất, hệ sinh thái công cụ rất lớn. Dùng giấy phép cộng đồng riêng với một số điều kiện.
Mistral (Mistral AI): nhóm model gọn, hiệu quả từ Pháp. Một số bản phát hành theo Apache 2.0; các bản khác có điều khoản riêng — phải kiểm tra từng bản.
DeepSeek: họ model mạnh về suy luận và lập trình, được chú ý nhiều gần đây. Giấy phép và điều khoản khác nhau tùy bản — đọc model card trước khi dùng.

Danh sách này không đầy đủ và sẽ tiếp tục thay đổi. Việc của bạn không phải "chọn model đúng tuyệt đối" mà là chọn ứng viên hợp phần cứng, hợp giấy phép, rồi test thực tế.

Giấy phép — yếu tố sống còn cho dùng thương mại

Đây là phần dễ bị bỏ qua nhất nhưng lại rủi ro pháp lý cao nhất. "Mã nguồn mở" không tự động có nghĩa là "được dùng thương mại thoải mái". Mỗi họ model có giấy phép khác nhau, và ngay trong cùng một họ, các phiên bản khác nhau cũng có thể có điều khoản khác nhau.

Apache 2.0 / MIT: là loại giấy phép thoáng, thường cho phép dùng thương mại, sửa đổi và phân phối với ít điều kiện. Một số bản Mistral phát hành theo Apache 2.0.
Giấy phép riêng của nhà phát hành: Gemma dùng "Gemma Terms of Use" của Google; Llama dùng "Llama Community License" của Meta. Những giấy phép này có thể cho dùng thương mại nhưng kèm điều kiện (ví dụ ràng buộc sử dụng, ngưỡng quy mô, yêu cầu ghi nhận…). Điều kiện cụ thể thay đổi theo phiên bản.

Quan trọng — tự kiểm chứng

Giấy phép model thay đổi theo thời gian và theo từng phiên bản. Bài viết này chỉ mô tả chung; nó không là tư vấn pháp lý và không khẳng định giấy phép cụ thể của bất kỳ bản model nào. Trước khi đưa vào production, bắt buộc tự đọc model card và văn bản giấy phép bản mới nhất trên trang chính thức của nhà phát hành, và nếu cần, hỏi ý kiến pháp lý.

Họ mô hình	Giấy phép (mô tả thận trọng)	Ghi chú
Qwen	Thay đổi theo bản — nhiều bản dùng giấy phép thoáng, một số bản có điều khoản riêng. Kiểm tra model card.	Đa ngữ, nhiều cỡ, thường tốt cho tiếng Việt
Gemma	"Gemma Terms of Use" của Google — có điều kiện sử dụng. Kiểm tra model card.	Nhẹ, tài liệu & công cụ tốt
Llama	"Llama Community License" của Meta — cho dùng thương mại kèm điều kiện. Kiểm tra model card.	Hệ sinh thái công cụ rất lớn
Mistral	Một số bản Apache 2.0; bản khác có điều khoản riêng. Kiểm tra model card.	Gọn, hiệu quả
DeepSeek	Khác nhau tùy bản. Kiểm tra model card.	Mạnh suy luận & lập trình

Bảng trên cố tình không nêu giấy phép tuyệt đối cho từng bản, vì chúng thay đổi. Hãy coi cột "Giấy phép" như lời nhắc đi đọc bản gốc, không phải kết luận.

Cỡ mô hình vs năng lực vs phần cứng

Model thường có nhiều cỡ, đo bằng số tham số (ví dụ 4B, 7B, 14B, 32B, 70B…). Nguyên tắc chung: cỡ lớn hơn thường thông minh hơn nhưng cần nhiều bộ nhớ hơn và chạy chậm hơn. Với AI nội bộ, mục tiêu không phải "model to nhất" mà là cỡ nhỏ nhất đủ dùng cho tác vụ của bạn.

Bắt đầu từ cỡ vừa (ví dụ nhóm 7B–14B) — thường đủ cho hỏi-đáp tài liệu, soạn thảo, tóm tắt.
Chỉ lên cỡ lớn khi cần thật — khi test cho thấy cỡ nhỏ không đạt chất lượng, và phần cứng đủ chỗ.
Quantization (nén trọng số) giúp model lớn vừa bộ nhớ nhỏ hơn, đổi lại có thể giảm nhẹ chất lượng — chi tiết ở bài Serving.

Bảng — Chiến lược chọn cỡ mô hình
Chiến lược	Khi nào	Đánh đổi
Bắt đầu từ cỡ vừa (nhóm 7B–14B)	Thường đủ cho hỏi-đáp tài liệu, soạn thảo, tóm tắt	Điểm khởi đầu hợp lý
Chỉ lên cỡ lớn khi cần thật	Khi test cho thấy cỡ nhỏ không đạt & phần cứng đủ chỗ	Cần nhiều bộ nhớ hơn, chạy chậm hơn
Quantization (nén trọng số)	Khi muốn model lớn vừa bộ nhớ nhỏ hơn	Có thể giảm nhẹ chất lượng

Cỡ model phải khớp với phần cứng bạn đã chọn ở bài Phần cứng. Chọn model to hơn máy chịu được sẽ khiến hệ thống chậm hoặc không chạy được.

Hỗ trợ tiếng Việt

Nếu người dùng chủ yếu hỏi bằng tiếng Việt, hãy ưu tiên model đa ngữ có tiếng Việt tốt. Nhiều họ model hiện đại (như Qwen, Gemma, Llama) đều tuyên bố hỗ trợ đa ngữ, nhưng chất lượng tiếng Việt thực tế khác nhau khá nhiều giữa các bản và các cỡ.

Cách đáng tin duy nhất là test trên chính câu hỏi của bạn: lấy 20–50 câu hỏi thật mà nhân viên hay hỏi, chạy qua vài model ứng viên, và tự đánh giá câu trả lời (đúng ngữ pháp, đúng nghĩa, đúng ngữ cảnh nghiệp vụ). Đừng chọn model chỉ vì một bảng xếp hạng chung — bảng đó có thể không phản ánh loại câu hỏi của tổ chức bạn.

Cách thử & so sánh ứng viên

Quy trình chọn model gọn gàng, lặp lại được:

Lọc theo giấy phép trước: loại ngay những bản mà giấy phép không phù hợp nhu cầu thương mại của bạn.
Lọc theo cỡ: chỉ giữ những cỡ vừa phần cứng đã có.
Chuẩn bị tập câu hỏi thật: 20–50 câu hỏi/nhiệm vụ đại diện cho công việc thực tế.
Tải vài ứng viên (ví dụ qua Ollama) và chạy cùng một tập câu hỏi.
So sánh: chấm chất lượng câu trả lời + đo tốc độ (token/giây, độ trễ) trên phần cứng của bạn.
Chọn cỡ nhỏ nhất đạt ngưỡng chất lượng — đó là ứng viên đưa vào thử nghiệm rộng hơn.

Cho đội IT

Tải và thử một model chỉ mất vài phút với Ollama:

# tải một model mã nguồn mở về máy
ollama pull qwen2.5:7b
ollama pull gemma2:9b # tải thêm ứng viên để so sánh

# chạy thử ngay trong terminal, 100% offline
ollama run qwen2.5:7b

Xem model card & giấy phép trên Hugging Face: mở trang model (ví dụ huggingface.co/<org>/<model>), đọc phần mô tả (model card) để biết ngôn ngữ hỗ trợ, cỡ và cách dùng; xem thẻ "License" ở đầu trang và mở tab "Files" để đọc file LICENSE / điều khoản kèm theo. Luôn đọc bản mới nhất trước khi dùng production.

Quy trình chọn mô hình: nhu cầu → cỡ hợp phần cứng → giấy phép thương mại → tiếng Việt tốt → chọn cỡ nhỏ nhất đủ dùng. Sơ đồ: Namtech.

Góc nhìn Namtech

Trong các triển khai AI nội bộ, Namtech ưu tiên các họ model mã nguồn mở an toàn cho dùng thương mại như Qwen và Gemma — vừa có chất lượng tiếng Việt tốt, vừa có nhiều cỡ để cân với phần cứng Apple Silicon. Nhưng lựa chọn cuối cùng luôn dựa trên test thực tế trên câu hỏi của khách và đọc lại giấy phép bản mới nhất tại thời điểm triển khai — vì cả năng lực model lẫn điều khoản giấy phép đều thay đổi liên tục. Chúng tôi không "khóa" vào một model duy nhất; cách làm là chọn cỡ nhỏ nhất đủ đạt chất lượng, rồi mở rộng khi nhu cầu tăng.

Câu hỏi thường gặp

"Mã nguồn mở" có nghĩa là được dùng thương mại thoải mái không?

Không tự động. Mỗi model có giấy phép riêng: có loại rất thoáng (Apache 2.0/MIT), có loại là giấy phép riêng của nhà phát hành với điều kiện kèm theo. Bạn phải tự đọc model card và văn bản giấy phép bản mới nhất trước khi dùng cho mục đích thương mại — và nếu cần thì hỏi ý kiến pháp lý.

Model nào tiếng Việt tốt nhất?

Không có câu trả lời cố định — phụ thuộc phiên bản và loại câu hỏi của bạn. Nhiều họ đa ngữ (Qwen, Gemma, Llama…) hỗ trợ tiếng Việt ở mức khác nhau. Cách đáng tin là lấy 20–50 câu hỏi thật của tổ chức bạn, chạy qua vài ứng viên và tự chấm.

Nên chọn cỡ model bao nhiêu?

Chọn cỡ nhỏ nhất đủ đạt chất lượng cho tác vụ của bạn. Cỡ lớn hơn thông minh hơn nhưng cần nhiều bộ nhớ và chạy chậm hơn. Hãy khớp cỡ model với phần cứng đã chọn ở bài Phần cứng, và cân nhắc quantization ở bài Serving.

Làm sao xem giấy phép của một model?

Trên Hugging Face, mở trang model rồi xem thẻ "License" ở đầu trang; mở tab "Files" để đọc file LICENSE và các điều khoản kèm theo; đọc kỹ phần model card. Với Gemma xem trang chính thức của Google, với Llama xem trang giấy phép của Meta. Luôn kiểm tra bản mới nhất.

← Bài trước · Phần 2/8Phần cứng chạy AI nội bộ on-premise Bài tiếp theo · Phần 4/8 →Serving: cài đặt & tối ưu tốc độ

Chưa chắc nên chọn model nào?

Namtech giúp bạn chọn mô hình mã nguồn mở an toàn thương mại, hợp phần cứng và tốt tiếng Việt — chạy 100% trên hạ tầng của bạn, dữ liệu không rời tổ chức.

Đặt lịch tư vấn miễn phí

Lưu ý: Bài viết mang tính hướng dẫn tổng quan, cập nhật 02/07/2026; không phải tư vấn pháp lý. Giấy phép và mô hình thay đổi nhanh — hãy đọc model card và giấy phép bản mới nhất khi triển khai.

Tài liệu tham khảo