Mistral ra mắt Mistral Small 4: gộp suy luận, đa phương thức và lập trình vào một mô hình mã nguồn mở

Ngày 16/03/2026, công ty AI của Pháp Mistral AI chính thức ra mắt Mistral Small 4 — một mô hình mã nguồn mở theo giấy phép Apache 2.0, cho phép tự do tự host và tùy chỉnh. Điểm đáng chú ý nhất: đây là model dòng "Small" đầu tiên của Mistral gộp ba năng lực vốn trước đây tách rời — suy luận, đa phương thức và agent lập trình — vào trong cùng một mô hình duy nhất.

Tóm tắt nhanh

Khi nào: 16/03/2026, bởi Mistral AI (Pháp).
Giấy phép: Apache 2.0 — tự host, tùy chỉnh tự do.
Kiến trúc: MoE 119B tham số tổng, chỉ 6B active mỗi token (128 experts, 4 active); ngữ cảnh 256k token.
Điểm mới: gộp Magistral (suy luận) + Pixtral (đa phương thức) + Devstral (agent lập trình) vào một model, có tham số reasoning_effort.
Hiệu quả: nhanh hơn tới 40%, throughput gấp 3 lần so với Mistral Small 3 (theo Mistral); chạy được trên ~4× NVIDIA H100.

Mistral Small 4 là gì?

Theo Mistral, Mistral Small 4 được phát hành ngày 16/03/2026 dưới giấy phép Apache 2.0 — nghĩa là doanh nghiệp có thể tải về, tự host trên hạ tầng riêng và tùy chỉnh mà không bị ràng buộc thương mại. Đây là điểm khác biệt cốt lõi so với các mô hình đóng chỉ truy cập qua API.

Về kiến trúc, đây là một mô hình Mixture-of-Experts (MoE) với 119 tỷ tham số tổng nhưng chỉ 6 tỷ tham số active trên mỗi token (128 experts, 4 active mỗi lần). Cách thiết kế này giúp mô hình có "kiến thức" của một model lớn nhưng chi phí tính toán mỗi token gần với một model nhỏ. Mô hình hỗ trợ ngữ cảnh lên tới 256k token.

Minh hoạ AI — Kiến trúc MoE kích hoạt chỉ một phần nhỏ tham số mỗi token, tối ưu chi phí suy luận. Ảnh: Google DeepMind / Pexels

Gộp ba năng lực vào một mô hình

Điểm nổi bật nhất theo Mistral là Small 4 hợp nhất ba dòng năng lực trước đây tách rời:

Magistral — khả năng suy luận (reasoning).
Pixtral — khả năng đa phương thức (xử lý cả hình ảnh lẫn văn bản).
Devstral — khả năng agent lập trình (đọc, viết, sửa mã).

Bảng — Ba dòng năng lực gộp vào Mistral Small 4
Dòng năng lực (trước đây)	Vai trò
Magistral	Suy luận (reasoning)
Pixtral	Đa phương thức (hình ảnh + văn bản)
Devstral	Agent lập trình (đọc, viết, sửa mã)

Thay vì phải chọn và vận hành nhiều model riêng cho từng nhu cầu, người dùng có một mô hình duy nhất xử lý cả ba. Mistral còn bổ sung tham số reasoning_effort, cho phép điều chỉnh giữa độ sâu suy luận và tốc độ tùy theo từng tác vụ — cân nhắc nhanh hay nghĩ kỹ.

Hiệu năng và hiệu quả

Theo Mistral, so với thế hệ trước là Mistral Small 3, Small 4 nhanh hơn tới 40% và đạt throughput gấp 3 lần. Mistral cũng cho biết đầu ra của mô hình ngắn hơn khoảng 20% trên bài kiểm tra LiveCodeBench — tức trả lời gọn hơn mà vẫn giải quyết được bài toán, giúp tiết kiệm token.

Đây đều là các con số theo công bố của Mistral; doanh nghiệp nên tự kiểm chứng trên dữ liệu và tác vụ thực tế của mình trước khi đưa vào sản xuất.

Giá và yêu cầu phần cứng

Về chi phí qua API, Mistral niêm yết giá khoảng $0.10 cho mỗi 1 triệu token đầu vào và $0.30 cho mỗi 1 triệu token đầu ra — mức rất cạnh tranh cho một mô hình gộp nhiều năng lực.

Quan trọng với hướng tự host: theo Mistral, mô hình có thể chạy được trên khoảng 4 card NVIDIA H100. So với các mô hình tiên phong cần nhiều cụm GPU lớn, đây là yêu cầu phần cứng vừa phải, nằm trong tầm với của nhiều doanh nghiệp muốn vận hành AI ngay trong hạ tầng của mình.

Bảng — Thông số chính Mistral Small 4 (theo Mistral)
Thông số	Giá trị
Ngày phát hành	16/03/2026
Giấy phép	Apache 2.0
Kiến trúc	Mixture-of-Experts (MoE)
Tổng tham số	119 tỷ
Tham số active / token	6 tỷ (128 experts, 4 active)
Cửa sổ ngữ cảnh	256k token
Giá API đầu vào / 1M token	~$0.10
Giá API đầu ra / 1M token	~$0.30
Phần cứng tự host	~4 card NVIDIA H100

Lập trình viên làm việc — Apache 2.0 và yêu cầu phần cứng vừa phải mở đường cho AI chạy nội bộ. Ảnh: Pexels

Vì sao đáng chú ý

Mistral Small 4 cho thấy xu hướng các mô hình mã nguồn mở ngày càng mạnh, gọn và rẻ: gộp nhiều năng lực, kiến trúc MoE tiết kiệm tính toán, giá API thấp và đặc biệt là giấy phép Apache 2.0 cho phép doanh nghiệp toàn quyền tự host. Khi mô hình đủ tốt mà vẫn chạy được trên phần cứng vừa phải, rào cản triển khai AI ngay trong nội bộ tổ chức giảm đi đáng kể.

Câu hỏi thường gặp

Mistral Small 4 có miễn phí dùng không?

Mô hình được phát hành theo giấy phép Apache 2.0, cho phép tải về, tự host và tùy chỉnh tự do. Nếu dùng qua API của Mistral thì có tính phí theo token (khoảng $0.10 input / $0.30 output mỗi 1 triệu token, theo Mistral).

Doanh nghiệp cần phần cứng gì để tự chạy?

Theo Mistral, mô hình có thể chạy trên khoảng 4 card NVIDIA H100. Đây là thông tin tham khảo từ nhà cung cấp; cấu hình thực tế còn tùy mức tải, độ trễ mong muốn và cách tối ưu triển khai.

"Gộp ba năng lực" nghĩa là gì?

Trước đây Mistral có các dòng riêng: Magistral cho suy luận, Pixtral cho đa phương thức, Devstral cho agent lập trình. Mistral Small 4 hợp nhất cả ba vào một mô hình duy nhất, kèm tham số reasoning_effort để chỉnh giữa độ sâu suy luận và tốc độ.

Triển khai AI nội bộ với mô hình mã nguồn mở

Với giấy phép Apache 2.0 và yêu cầu phần cứng vừa phải, các mô hình như Mistral Small 4 rất hợp để triển khai AI nội bộ on-premise. Namtech giúp bạn dựng nền tảng AI riêng tư chạy 100% trên hạ tầng của mình — dữ liệu tại chỗ, không phụ thuộc nhà cung cấp nước ngoài.

Đặt lịch tư vấn miễn phí

Lưu ý: Bài viết tổng hợp từ nguồn công khai tại 22/06/2026; các số liệu hiệu năng và phần cứng theo công bố của Mistral, doanh nghiệp nên tự kiểm chứng. Thông tin tham khảo, không phải tư vấn kỹ thuật.

Nguồn tham khảo