Gemini 3.5 Flash ra mắt tại Google I/O 2026: bản Flash vượt cả Pro thế hệ trước

Ngày 19/05/2026 tại Google I/O 2026, Google công bố Gemini 3.5 Flash — mẫu đầu dòng của thế hệ 3.5 và được định vị là model "mặc định" cho lập trình cùng AI agent. Điểm gây chú ý nhất: đây chỉ là bản Flash (vốn là dòng nhẹ, nhanh, rẻ), nhưng theo trang DeepMind, nó đã vượt cả Gemini 3.1 Pro thế hệ trước trên hàng loạt benchmark về coding và tác vụ agentic — đồng thời nhanh hơn và rẻ hơn đáng kể.

Tóm tắt nhanh

Khi nào: 19/05/2026, tại Google I/O 2026.
Cái gì: Gemini 3.5 Flash — model "mặc định" cho lập trình & AI agent; trạng thái "available now" (theo DeepMind). Bản 3.5 Pro "sắp ra mắt".
Điểm nhấn: Bản Flash vượt cả Gemini 3.1 Pro thế hệ trước trên benchmark coding/agentic.
Tốc độ: ~4x so với model frontier khác; cửa sổ ngữ cảnh 1 triệu (1M) token.
Giá API: ~$1.50 / $9 trên 1M token (input/output) — theo báo chí, cần đối chiếu khi có bảng giá chính chủ.

Có gì mới tại Google I/O 2026?

Tại sự kiện thường niên, Google đưa Gemini 3.5 Flash lên làm tâm điểm và định vị nó là model mặc định cho lập trình và xây dựng AI agent. Theo trang DeepMind, model ở trạng thái "available now", trong khi bản mạnh hơn — Gemini 3.5 Pro — được giới thiệu là "sắp ra mắt".

Ngoài model, Google còn cập nhật ứng dụng Gemini với loạt tính năng mới: Daily Brief (bản tóm tắt hằng ngày), Gemini Spark (agent hoạt động 24/7) và Gemini Omni (AI video). Công ty cũng công bố Gemini đã đạt hơn 900 triệu người dùng hằng tháng, phục vụ trên 230+ quốc gia và 70+ ngôn ngữ.

Laptop hiển thị dòng code lập trình — Gemini 3.5 Flash được định vị làm model mặc định cho lập trình và AI agent. Ảnh: Pexels

Benchmark: bản Flash vượt Pro thế hệ trước

Theo số liệu trên trang DeepMind, Gemini 3.5 Flash đạt kết quả ấn tượng trên các bộ benchmark coding và agentic:

Terminal-Bench 2.1: 76,2%
MCP Atlas: 83,6%
GDPval-AA: 1656 Elo
Finance Agent v2: 57,9% — so với 43,0% của Gemini 3.1 Pro thế hệ trước
CharXiv: 84,2%

Bảng — Benchmark Gemini 3.5 Flash (số liệu DeepMind)
Benchmark	Gemini 3.5 Flash	Gemini 3.1 Pro
Terminal-Bench 2.1	76,2%	—
MCP Atlas	83,6%	—
GDPval-AA	1656 Elo	—
Finance Agent v2	57,9%	43,0%
CharXiv	84,2%	—

Điểm đáng chú ý: con số ở Finance Agent v2 cho thấy bản Flash mới nhỉnh hơn rõ rệt so với bản Pro của thế hệ liền trước trong một tác vụ agentic phức tạp — minh chứng cho thông điệp "nhanh hơn, rẻ hơn nhưng không yếu hơn".

Tốc độ, ngữ cảnh và giá

Theo công bố, Gemini 3.5 Flash có tốc độ nhanh hơn khoảng 4 lần so với các model frontier khác, kèm cửa sổ ngữ cảnh 1 triệu (1M) token — đủ để xử lý codebase lớn hoặc tài liệu dài trong một lượt.

Về chi phí, theo báo chí (cần đối chiếu khi Google công bố bảng giá chính chủ), giá API vào khoảng $1.50 cho mỗi 1M token đầu vào và $9 cho mỗi 1M token đầu ra. Đây là mức rất cạnh tranh cho một model có năng lực coding/agentic ở tầm này — và là một phần lý do Google định vị nó làm lựa chọn "mặc định".

Bảng — Giá API Gemini 3.5 Flash (theo báo chí, cần đối chiếu)
Loại token	Giá / 1M token
Đầu vào	~$1.50
Đầu ra	~$9

Ý nghĩa với người làm sản phẩm

Việc một bản Flash — vốn là dòng tối ưu chi phí — vượt được bản Pro của thế hệ trước cho thấy chi phí cho mỗi đơn vị năng lực AI tiếp tục giảm nhanh. Với đội ngũ xây dựng AI agent, công cụ coding, trợ lý nội bộ, điều này mở ra khả năng triển khai tác vụ phức tạp ở mức giá trước đây chỉ dành cho model cao cấp.

Tốc độ ~4x và ngữ cảnh 1M token cũng có ý nghĩa thực tế: agent phản hồi nhanh hơn, đọc được nhiều ngữ cảnh hơn trong một lần gọi, giảm số vòng lặp và chi phí tổng thể.

Góc nhìn Namtech

Một model vừa mạnh vừa rẻ là tin tốt cho mọi đội phát triển. Tuy nhiên cần nhớ một điểm quan trọng: dù dùng Gemini hay bất kỳ AI cloud nào, dữ liệu của bạn vẫn được gửi lên hạ tầng của nhà cung cấp nước ngoài. Với những bài toán dùng dữ liệu nhạy cảm — thông tin khách hàng, hồ sơ nội bộ, mã nguồn lõi — đây là rủi ro về tuân thủ (PDPL, chuyển dữ liệu xuyên biên giới) và về quyền kiểm soát.

Cách cân bằng hợp lý: dùng các model cloud mạnh như Gemini 3.5 Flash cho tác vụ chung, nhưng với dữ liệu cốt lõi thì cân nhắc AI nội bộ chạy trên hạ tầng của chính doanh nghiệp để dữ liệu không rời tổ chức.

Robot AI tương tác giao diện số — Model nhanh và rẻ hơn cho AI agent và coding. Ảnh: Tara Winstead / Pexels

Câu hỏi thường gặp

Gemini 3.5 Flash đã dùng được chưa?

Theo trang DeepMind, Gemini 3.5 Flash ở trạng thái "available now" tại thời điểm ra mắt (19/05/2026). Bản mạnh hơn — Gemini 3.5 Pro — được giới thiệu là "sắp ra mắt".

Giá API của Gemini 3.5 Flash là bao nhiêu?

Theo báo chí, giá vào khoảng $1.50 / 1M token đầu vào và $9 / 1M token đầu ra. Đây là số liệu theo báo chí, cần đối chiếu với bảng giá chính thức của Google khi công bố.

Vì sao bản Flash lại vượt được bản Pro thế hệ trước?

Đây là model thế hệ mới hơn (3.5 so với 3.1). Theo số liệu DeepMind, ví dụ rõ nhất là Finance Agent v2: Gemini 3.5 Flash đạt 57,9% so với 43,0% của Gemini 3.1 Pro — phản ánh tiến bộ về kiến trúc và huấn luyện giữa hai thế hệ.

Mạnh và rẻ là tốt — nhưng dữ liệu vẫn lên cloud

Với dữ liệu nhạy cảm, Namtech triển khai nền tảng AI riêng tư nội bộ — mô hình chạy trên hạ tầng của bạn, dữ liệu tại chỗ, không rời tổ chức.

Đặt lịch tư vấn miễn phí

Lưu ý: Bài viết tổng hợp từ nguồn công khai tại 22/06/2026; số liệu giá API là theo báo chí, cần đối chiếu khi có bảng giá chính chủ. Thông tin tham khảo.

Nguồn tham khảo

Gemini 3.5 Flash ra mắt tại Google I/O 2026: bản Flash vượt cả Pro thế hệ trước về coding và AI agent