Ngày 19/05/2026 tại Google I/O 2026, Google công bố Gemini 3.5 Flash — mẫu đầu dòng của thế hệ 3.5 và được định vị là model "mặc định" cho lập trình cùng AI agent. Điểm gây chú ý nhất: đây chỉ là bản Flash (vốn là dòng nhẹ, nhanh, rẻ), nhưng theo trang DeepMind, nó đã vượt cả Gemini 3.1 Pro thế hệ trước trên hàng loạt benchmark về coding và tác vụ agentic — đồng thời nhanh hơn và rẻ hơn đáng kể.
Tóm tắt nhanh
- Khi nào: 19/05/2026, tại Google I/O 2026.
- Cái gì: Gemini 3.5 Flash — model "mặc định" cho lập trình & AI agent; trạng thái "available now" (theo DeepMind). Bản 3.5 Pro "sắp ra mắt".
- Điểm nhấn: Bản Flash vượt cả Gemini 3.1 Pro thế hệ trước trên benchmark coding/agentic.
- Tốc độ: ~4x so với model frontier khác; cửa sổ ngữ cảnh 1 triệu (1M) token.
- Giá API: ~$1.50 / $9 trên 1M token (input/output) — theo báo chí, cần đối chiếu khi có bảng giá chính chủ.
Có gì mới tại Google I/O 2026?
Tại sự kiện thường niên, Google đưa Gemini 3.5 Flash lên làm tâm điểm và định vị nó là model mặc định cho lập trình và xây dựng AI agent. Theo trang DeepMind, model ở trạng thái "available now", trong khi bản mạnh hơn — Gemini 3.5 Pro — được giới thiệu là "sắp ra mắt".
Ngoài model, Google còn cập nhật ứng dụng Gemini với loạt tính năng mới: Daily Brief (bản tóm tắt hằng ngày), Gemini Spark (agent hoạt động 24/7) và Gemini Omni (AI video). Công ty cũng công bố Gemini đã đạt hơn 900 triệu người dùng hằng tháng, phục vụ trên 230+ quốc gia và 70+ ngôn ngữ.
Benchmark: bản Flash vượt Pro thế hệ trước
Theo số liệu trên trang DeepMind, Gemini 3.5 Flash đạt kết quả ấn tượng trên các bộ benchmark coding và agentic:
- Terminal-Bench 2.1: 76,2%
- MCP Atlas: 83,6%
- GDPval-AA: 1656 Elo
- Finance Agent v2: 57,9% — so với 43,0% của Gemini 3.1 Pro thế hệ trước
- CharXiv: 84,2%
Điểm đáng chú ý: con số ở Finance Agent v2 cho thấy bản Flash mới nhỉnh hơn rõ rệt so với bản Pro của thế hệ liền trước trong một tác vụ agentic phức tạp — minh chứng cho thông điệp "nhanh hơn, rẻ hơn nhưng không yếu hơn".
Tốc độ, ngữ cảnh và giá
Theo công bố, Gemini 3.5 Flash có tốc độ nhanh hơn khoảng 4 lần so với các model frontier khác, kèm cửa sổ ngữ cảnh 1 triệu (1M) token — đủ để xử lý codebase lớn hoặc tài liệu dài trong một lượt.
Về chi phí, theo báo chí (cần đối chiếu khi Google công bố bảng giá chính chủ), giá API vào khoảng $1.50 cho mỗi 1M token đầu vào và $9 cho mỗi 1M token đầu ra. Đây là mức rất cạnh tranh cho một model có năng lực coding/agentic ở tầm này — và là một phần lý do Google định vị nó làm lựa chọn "mặc định".
Ý nghĩa với người làm sản phẩm
Việc một bản Flash — vốn là dòng tối ưu chi phí — vượt được bản Pro của thế hệ trước cho thấy chi phí cho mỗi đơn vị năng lực AI tiếp tục giảm nhanh. Với đội ngũ xây dựng AI agent, công cụ coding, trợ lý nội bộ, điều này mở ra khả năng triển khai tác vụ phức tạp ở mức giá trước đây chỉ dành cho model cao cấp.
Tốc độ ~4x và ngữ cảnh 1M token cũng có ý nghĩa thực tế: agent phản hồi nhanh hơn, đọc được nhiều ngữ cảnh hơn trong một lần gọi, giảm số vòng lặp và chi phí tổng thể.
Góc nhìn Namtech
Một model vừa mạnh vừa rẻ là tin tốt cho mọi đội phát triển. Tuy nhiên cần nhớ một điểm quan trọng: dù dùng Gemini hay bất kỳ AI cloud nào, dữ liệu của bạn vẫn được gửi lên hạ tầng của nhà cung cấp nước ngoài. Với những bài toán dùng dữ liệu nhạy cảm — thông tin khách hàng, hồ sơ nội bộ, mã nguồn lõi — đây là rủi ro về tuân thủ (PDPL, chuyển dữ liệu xuyên biên giới) và về quyền kiểm soát.
Cách cân bằng hợp lý: dùng các model cloud mạnh như Gemini 3.5 Flash cho tác vụ chung, nhưng với dữ liệu cốt lõi thì cân nhắc AI nội bộ chạy trên hạ tầng của chính doanh nghiệp để dữ liệu không rời tổ chức.
Câu hỏi thường gặp
Gemini 3.5 Flash đã dùng được chưa?
Theo trang DeepMind, Gemini 3.5 Flash ở trạng thái "available now" tại thời điểm ra mắt (19/05/2026). Bản mạnh hơn — Gemini 3.5 Pro — được giới thiệu là "sắp ra mắt".
Giá API của Gemini 3.5 Flash là bao nhiêu?
Theo báo chí, giá vào khoảng $1.50 / 1M token đầu vào và $9 / 1M token đầu ra. Đây là số liệu theo báo chí, cần đối chiếu với bảng giá chính thức của Google khi công bố.
Vì sao bản Flash lại vượt được bản Pro thế hệ trước?
Đây là model thế hệ mới hơn (3.5 so với 3.1). Theo số liệu DeepMind, ví dụ rõ nhất là Finance Agent v2: Gemini 3.5 Flash đạt 57,9% so với 43,0% của Gemini 3.1 Pro — phản ánh tiến bộ về kiến trúc và huấn luyện giữa hai thế hệ.
Mạnh và rẻ là tốt — nhưng dữ liệu vẫn lên cloud
Với dữ liệu nhạy cảm, Namtech triển khai nền tảng AI riêng tư nội bộ — mô hình chạy trên hạ tầng của bạn, dữ liệu tại chỗ, không rời tổ chức.
Đặt lịch tư vấn miễn phíLưu ý: Bài viết tổng hợp từ nguồn công khai tại 22/06/2026; số liệu giá API là theo báo chí, cần đối chiếu khi có bảng giá chính chủ. Thông tin tham khảo.