DeepSeek ra mắt bản xem trước V4: mô hình mã nguồn mở "thu hẹp khoảng cách" với các mô hình hàng đầu

Ngày 24/04/2026, công ty AI DeepSeek (trụ sở tại Hàng Châu, Trung Quốc) công bố bản xem trước của DeepSeek V4 — một thế hệ mô hình mã nguồn mở mới mà theo DeepSeek là đã "thu hẹp khoảng cách" với các mô hình tiên phong (frontier) hàng đầu. V4 ra mắt với hai biến thể kiến trúc Mixture-of-Experts (MoE) và đều hỗ trợ ngữ cảnh lên tới 1 triệu token.

Tóm tắt nhanh

Khi nào: 24/04/2026 — bản xem trước (preview).
Ai: DeepSeek, công ty AI của Trung Quốc (Hàng Châu).
Mô hình: mã nguồn mở, hai biến thể MoE — V4-Pro (lớn, mạnh về coding/agentic) và V4-Flash (nhỏ, nhanh, rẻ).
Ngữ cảnh: cả hai đều 1 triệu token.
Tuyên bố: theo DeepSeek, V4-Pro cạnh tranh các mô hình hàng đầu về suy luận; theo MIT Technology Review vẫn kém ~3–6 tháng ở benchmark kiến thức.

DeepSeek V4 preview là gì?

Theo TechCrunch, DeepSeek công bố bản xem trước V4 vào ngày 24/04/2026. Đây là dòng mô hình mã nguồn mở, tiếp nối các thế hệ trước của DeepSeek vốn đã gây chú ý nhờ chi phí huấn luyện/triển khai thấp. Điểm nhấn lần này là việc DeepSeek tách thành hai biến thể để phục vụ hai nhóm nhu cầu khác nhau, thay vì một mô hình "tất-cả-trong-một".

Cả hai biến thể đều dùng kiến trúc Mixture-of-Experts (MoE) — chỉ kích hoạt một phần tham số ("experts") cho mỗi truy vấn, giúp giảm chi phí tính toán so với mô hình kích hoạt toàn bộ tham số.

Màn hình code — V4-Pro được DeepSeek định vị mạnh về coding và tác vụ agentic. Ảnh: Pexels

Hai biến thể: V4-Pro và V4-Flash

V4-Pro là biến thể lớn hơn, theo DeepSeek hướng tới các tác vụ coding và agentic (mô hình tự lập kế hoạch, gọi công cụ, thực thi nhiều bước). DeepSeek tuyên bố V4-Pro cạnh tranh với các mô hình hàng đầu như Claude, GPT-5.x và Gemini 3.x ở mảng suy luận (theo DeepSeek).

V4-Flash là biến thể nhỏ hơn, được tối ưu cho tốc độ và chi phí thấp — phù hợp khối lượng truy vấn lớn cần phản hồi nhanh và giá rẻ. Cả hai đều giữ cửa sổ ngữ cảnh 1 triệu token, đủ để xử lý tài liệu dài, codebase lớn hay nhiều cuộc hội thoại trong một lần gọi.

Bảng — Hai biến thể DeepSeek V4
Tiêu chí	V4-Pro	V4-Flash
Kích thước	Biến thể lớn hơn	Biến thể nhỏ hơn
Tối ưu cho	Coding & agentic	Tốc độ & chi phí thấp
Cửa sổ ngữ cảnh	1 triệu token	1 triệu token
Giá đầu vào / 1M token	Nguồn không khớp — không nêu	~$0,14
Giá đầu ra / 1M token	Không nêu	~$0,28

Selective-attention: cắt giảm chi phí ngữ cảnh dài

Một điểm kỹ thuật đáng chú ý theo các nguồn là cơ chế selective-attention. Với ngữ cảnh dài, cơ chế này giúp giảm lượng tính toán (compute) đáng kể: theo DeepSeek, chi phí tính toán cho ngữ cảnh dài chỉ còn khoảng 27% so với phiên bản V3.2, và với V4-Flash con số này có thể xuống thấp tới khoảng 10%.

Bảng — Compute ngữ cảnh dài nhờ selective-attention (theo DeepSeek)
Biến thể	Compute còn lại so với V3.2
V4 (chung)	~27%
V4-Flash	tới ~10%

Đây là yếu tố quan trọng vì ngữ cảnh dài (long context) thường rất tốn kém — chi phí thường tăng nhanh theo độ dài đầu vào. Nếu hiệu quả này được kiểm chứng trong thực tế, nó giúp việc dùng ngữ cảnh 1 triệu token trở nên khả thi hơn về mặt chi phí.

Thu hẹp đến đâu so với top đầu?

DeepSeek tuyên bố V4-Pro đã thu hẹp khoảng cách với các mô hình tiên phong về suy luận (theo DeepSeek). Tuy nhiên, theo MIT Technology Review, V4 vẫn còn kém khoảng 3–6 tháng so với top đầu ở các benchmark về kiến thức. Nói cách khác: khoảng cách đã hẹp lại đáng kể nhưng chưa hoàn toàn được san bằng.

Về giá, V4-Flash được nêu ở mức rất cạnh tranh: khoảng $0,14 cho mỗi 1 triệu token đầu vào và $0,28 cho mỗi 1 triệu token đầu ra. Riêng giá đầu vào của V4-Pro, các nguồn không khớp nhau (có nơi nêu rất thấp, có nơi cao hơn nhiều lần) — nên ở đây chúng tôi không nêu con số cụ thể; con số khác nhau tùy nguồn và cần xác nhận lại từ công bố chính thức của DeepSeek.

Trung tâm dữ liệu — Mô hình mã nguồn mở mạnh giúp doanh nghiệp tự chủ hạ tầng AI. Ảnh: Brett Sayles / Pexels

Góc nhìn cho doanh nghiệp Việt

Sự xuất hiện của những mô hình mã nguồn mở ngày càng mạnh như DeepSeek, Qwen hay Gemma mở ra một lựa chọn quan trọng: doanh nghiệp có thể chạy AI nội bộ (on-premise) trên hạ tầng của chính mình thay vì phụ thuộc hoàn toàn vào API của nhà cung cấp nước ngoài.

Lợi ích thực tế:

Dữ liệu tại chỗ. Dữ liệu không rời tổ chức — giảm rủi ro tuân thủ và rò rỉ.
Tự chủ vận hành. Không ai có thể "tắt từ xa" hay thay đổi điều khoản đột ngột.
Tối ưu chi phí. Với khối lượng lớn, mô hình mã nguồn mở chạy nội bộ có thể rẻ hơn về dài hạn.

Tất nhiên, on-premise đòi hỏi hạ tầng và năng lực vận hành phù hợp — đây là bài toán cần đánh giá theo từng tình huống cụ thể.

Câu hỏi thường gặp

DeepSeek V4 đã chính thức ra mắt chưa?

Tại thời điểm các nguồn công bố (24/04/2026), đây là bản xem trước (preview). Thông tin có thể thay đổi khi bản chính thức ra mắt — đây là thông tin tham khảo.

V4-Pro mạnh ngang Claude / GPT-5.x / Gemini 3.x chưa?

Theo DeepSeek, V4-Pro cạnh tranh các mô hình này về suy luận. Tuy nhiên theo MIT Technology Review, V4 vẫn kém khoảng 3–6 tháng ở benchmark kiến thức. Nên xem là "thu hẹp khoảng cách" chứ chưa san bằng.

Giá V4-Pro là bao nhiêu?

Các nguồn hiện không khớp nhau về giá đầu vào của V4-Pro, nên chúng tôi không nêu con số cụ thể. Riêng V4-Flash được nêu khoảng $0,14 / 1M token đầu vào và $0,28 / 1M token đầu ra. Vui lòng xác nhận lại từ công bố chính thức của DeepSeek.

Triển khai AI nội bộ với mô hình mã nguồn mở

Namtech giúp doanh nghiệp chạy các mô hình mã nguồn mở mạnh như DeepSeek, Qwen, Gemma ngay trên hạ tầng nội bộ — dữ liệu tại chỗ, tự chủ vận hành, không phụ thuộc nhà cung cấp nước ngoài.

Đặt lịch tư vấn miễn phí

Lưu ý: Bài viết tổng hợp từ nguồn công khai tại 22/06/2026; các con số là theo công bố của DeepSeek hoặc nguồn dẫn, tình hình có thể thay đổi. Thông tin tham khảo, không phải tư vấn kỹ thuật.

Nguồn tham khảo