Token AI là gì? Đơn vị dữ liệu & cửa sổ ngữ cảnh của AI

Q: Làm sao đếm số token của một đoạn văn bản?

Dùng đúng tokenizer của model: tiktoken cho các model OpenAI, hoặc tokenizers của Hugging Face cho model mã nguồn mở. Các con số ước lượng chỉ để tham khảo nhanh; muốn chính xác phải chạy tokenizer thật.

Token là đơn vị dữ liệu nhỏ nhất mà một mô hình AI (LLM) đọc vào và sinh ra — thường là một mảnh từ, một từ ngắn hoặc một dấu câu, chứ không phải nguyên câu hay nguyên từ. Mô hình không "nhìn thấy" chữ như con người; nó chuyển văn bản thành một dãy token, mỗi token gắn với một mã số (ID), rồi tính toán trên các con số đó. Hiểu token giúp bạn nắm được hai thứ quan trọng: cửa sổ ngữ cảnh (AI nhớ được bao nhiêu) và chi phí (dịch vụ AI cloud tính tiền theo token).

Tóm tắt nhanh

Token là gì: mảnh nhỏ nhất của văn bản mà mô hình xử lý — mảnh từ, từ ngắn hoặc dấu câu — mỗi token có một ID số.
Tỷ lệ tham khảo (tiếng Anh): 1 token ≈ 4 ký tự ≈ ¾ từ, tức 100 token ≈ 75 từ.
Tiếng Việt tốn nhiều token hơn tiếng Anh vì dấu, ký tự có dấu và cách tách từ — ảnh hưởng cả chi phí lẫn dung lượng ngữ cảnh.
Cửa sổ ngữ cảnh là "bộ nhớ làm việc": vượt giới hạn thì token cũ bị đẩy ra và mô hình "quên".
Token = tiền với AI cloud; chạy AI nội bộ on-premise thì chi phí gần như cố định, không tính theo token.

Token là gì?

Với con người, đơn vị đọc tự nhiên là từ. Với mô hình ngôn ngữ, đơn vị đó là token — mảnh nhỏ nhất mà mô hình đọc vào và sinh ra. Một token có thể là một từ ngắn nguyên vẹn (nhà), một mảnh của từ dài (ternational trong "international"), một dấu câu (.) hay thậm chí một khoảng trắng. Từ càng thông dụng thì càng dễ là một token đơn; từ hiếm hoặc dài thường bị cắt thành nhiều token.

Điểm mấu chốt: mô hình không xử lý chữ, nó xử lý số. Mỗi token được ánh xạ tới một ID số nguyên trong từ điển token của mô hình. Câu của bạn trở thành một dãy ID, mô hình dự đoán ID token tiếp theo, rồi dãy ID kết quả được dịch ngược lại thành chữ. Toàn bộ "trí thông minh" bạn thấy đều là chuỗi dự đoán token nối nhau.

Tách token (tokenization) hoạt động thế nào?

Quá trình biến văn bản thành token gọi là tokenization. Đa số mô hình hiện nay dùng cách tách subword (mảnh dưới từ), phổ biến nhất là thuật toán kiểu BPE (Byte Pair Encoding). Ý tưởng: giữ nguyên các mảnh chữ hay gặp thành một token, và ghép các mảnh đó lại để tạo từ hiếm — nhờ vậy mô hình xử lý được cả những từ chưa từng thấy mà không cần từ điển vô hạn.

Ví dụ, từ "darkness" có thể được tách thành hai token: "dark" + "ness". Phần gốc "dark" rất thông dụng nên là một token; hậu tố "ness" cũng lặp lại ở nhiều từ (kindness, softness…) nên được tái sử dụng. Nhờ cơ chế này, một từ mới như "darkishness" vẫn tách được thành các mảnh quen thuộc.

Với tiếng Anh, một quy tắc tham khảo hữu ích: 1 token ≈ 4 ký tự ≈ ¾ từ, nghĩa là khoảng 100 token ≈ 75 từ. Đây là con số ước lượng, không phải quy tắc cứng.

Tiếng Việt thường tốn nhiều token hơn tiếng Anh cho cùng một lượng nội dung. Lý do: chữ có dấu (dấu thanh, ký tự Unicode nhiều byte hơn), cách tách từ tiếng Việt không trùng với thói quen tách của bộ tokenizer vốn tối ưu cho tiếng Anh, nên nhiều âm tiết bị cắt thành nhiều token nhỏ. Hệ quả thực tế: cùng một văn bản, bản tiếng Việt tốn nhiều token hơn → chi phí cao hơn (với AI cloud) và chiếm nhiều dung lượng cửa sổ ngữ cảnh hơn.

Luồng xử lý: văn bản → tokenizer (BPE) → token kèm ID → nằm trong cửa sổ ngữ cảnh → mô hình → trả lời. Sơ đồ: Namtech.

Cửa sổ ngữ cảnh (context window) là gì?

Cửa sổ ngữ cảnh là số token tối đa mà mô hình có thể "nhìn thấy" cùng lúc — bao gồm cả phần bạn nhập vào lẫn phần mô hình đang sinh ra. Hãy hình dung nó như bộ nhớ làm việc: mọi thứ nằm trong cửa sổ thì mô hình còn "nhớ"; thứ gì vượt ra ngoài thì coi như không tồn tại.

Khi hội thoại hoặc tài liệu dài vượt quá giới hạn, token cũ nhất bị đẩy ra để nhường chỗ cho token mới — và mô hình thực sự "quên" phần đầu. Đây là lý do một chatbot đôi khi lãng quên điều bạn nói lúc đầu cuộc trò chuyện dài.

Các mô hình hiện nay có cửa sổ ngữ cảnh rất khác nhau, từ hàng chục nghìn token tới cỡ khoảng một triệu token tùy mô hình. Con số này thay đổi nhanh theo thời gian và theo phiên bản, nên khi triển khai bạn nên tra cứu giới hạn cụ thể của mô hình mình dùng thay vì nhớ một con số cố định.

Token & chi phí

Với dịch vụ AI cloud, token chính là đơn vị tính tiền: bạn trả theo số token đưa vào (input) và số token sinh ra (output). Vì thế prompt càng dài, tài liệu dán vào càng nhiều, câu trả lời càng dài thì hóa đơn càng cao — và mức giá biến động theo lượng dùng cũng như theo mô hình.

Một điểm dễ bị bỏ qua: các token "suy luận" / "thinking" (khi mô hình tự viết ra chuỗi lập luận trước khi trả lời) tốn nhiều tài nguyên hơn đáng kể so với việc trả lời thẳng — vì mô hình sinh ra rất nhiều token trung gian mà bạn không nhìn thấy nhưng vẫn được tính.

Đây là chỗ AI nội bộ khác biệt hẳn: khi mô hình chạy on-premise trên hạ tầng của bạn, chi phí gần như cố định (phần cứng + điện + vận hành) bất kể bạn dùng bao nhiêu token. Dùng nhiều tới đâu, hóa đơn không nhảy theo từng token. Xem thêm: Tự xây AI nội bộ — tổng quan & lộ trình.

Tối ưu token như thế nào?

Dù dùng AI cloud (để tiết kiệm tiền) hay AI nội bộ (để tiết kiệm ngữ cảnh và tốc độ), việc dùng token khôn ngoan luôn có lợi:

Prompt gọn, rõ: bỏ phần thừa, viết yêu cầu súc tích — ít token đầu vào mà vẫn đủ thông tin.
Dùng RAG thay vì nhồi cả kho tài liệu: chỉ nạp đúng đoạn liên quan tới câu hỏi vào ngữ cảnh, thay vì dán nguyên tài liệu dài. Xem RAG cho tài liệu nội bộ.
Tóm tắt hội thoại dài: với các phiên trò chuyện kéo dài, thay các lượt cũ bằng một bản tóm tắt ngắn để tiết kiệm token mà vẫn giữ mạch.

Bảng — Cách tối ưu token
Kỹ thuật	Cách làm
Prompt gọn, rõ	Bỏ phần thừa, viết yêu cầu súc tích — ít token đầu vào mà vẫn đủ thông tin
Dùng RAG thay vì nhồi cả kho tài liệu	Chỉ nạp đúng đoạn liên quan tới câu hỏi vào ngữ cảnh, thay vì dán nguyên tài liệu dài
Tóm tắt hội thoại dài	Thay các lượt cũ bằng một bản tóm tắt ngắn để tiết kiệm token mà vẫn giữ mạch

Cho đội IT

Muốn biết một đoạn văn bản tốn bao nhiêu token, đừng đoán — hãy đếm bằng chính tokenizer của mô hình. Hai công cụ phổ biến:

OpenAI tiktoken: thư viện Python đếm token theo đúng bộ mã hóa từng model.
Hugging Face tokenizers: nạp tokenizer của model mã nguồn mở (Qwen, Llama…) để đếm cho AI nội bộ.

Bảng — Hai công cụ đếm token phổ biến
Công cụ	Dùng cho
OpenAI `tiktoken`	Thư viện Python đếm token theo đúng bộ mã hóa từng model OpenAI
Hugging Face `tokenizers`	Nạp tokenizer của model mã nguồn mở (Qwen, Llama…) để đếm cho AI nội bộ

Đếm nhanh bằng tiktoken:

# pip install tiktoken
import tiktoken
enc = tiktoken.get_encoding("cl100k_base")  # bộ mã hóa của một số model OpenAI
tokens = enc.encode("Token AI là gì?")
print(len(tokens))       # số token của chuỗi
print(tokens)            # dãy ID số của từng token

Mẹo: thử cùng một câu bằng tiếng Anh và tiếng Việt để tự thấy tiếng Việt tốn nhiều token hơn.

Góc nhìn Namtech

Với doanh nghiệp Việt, token không chỉ là khái niệm kỹ thuật — nó tác động trực tiếp tới chi phí và khả năng xử lý tài liệu dài, đặc biệt khi nội dung tiếng Việt vốn tốn token hơn. Namtech triển khai nền tảng AI riêng tư nội bộ chạy 100% tại chỗ trên Apple Silicon với mô hình mã nguồn mở: bạn không phải trả tiền theo từng token, được toàn quyền kiểm soát dung lượng ngữ cảnh, và dữ liệu không rời tổ chức. Hiểu token là bước đầu để dùng AI hiệu quả — dù bạn chọn cloud, nội bộ, hay kết hợp.

Câu hỏi thường gặp

Token có phải là một từ không?

Không hẳn. Token là mảnh nhỏ nhất mô hình xử lý — có thể là một từ ngắn, một phần của từ dài, một dấu câu hay khoảng trắng. Với tiếng Anh, trung bình 1 token ≈ ¾ từ; một từ dài hoặc hiếm có thể bị cắt thành nhiều token.

Vì sao tiếng Việt tốn nhiều token hơn tiếng Anh?

Vì chữ tiếng Việt có dấu (ký tự Unicode nhiều byte hơn) và cách tách từ không khớp với bộ tokenizer vốn tối ưu cho tiếng Anh, nên nhiều âm tiết bị cắt thành nhiều token nhỏ. Cùng một nội dung, bản tiếng Việt thường dùng nhiều token hơn — tốn chi phí và ngữ cảnh hơn.

Cửa sổ ngữ cảnh đầy thì chuyện gì xảy ra?

Token cũ nhất bị đẩy ra khỏi cửa sổ để nhường chỗ cho token mới, và mô hình "quên" phần đó. Vì vậy hội thoại rất dài có thể khiến mô hình bỏ sót điều bạn nói lúc đầu; cách xử lý là tóm tắt hoặc dùng RAG nạp lại đúng phần cần.

Làm sao đếm số token của một đoạn văn bản?

Dùng đúng tokenizer của model: tiktoken cho các model OpenAI, hoặc tokenizers của Hugging Face cho model mã nguồn mở. Các con số ước lượng (1 token ≈ 4 ký tự) chỉ để tham khảo nhanh; muốn chính xác phải chạy tokenizer thật.

Muốn AI xử lý tài liệu dài mà không lo hóa đơn token?

Namtech triển khai nền tảng AI riêng tư nội bộ — mô hình mã nguồn mở chạy 100% trên hạ tầng của bạn, chi phí cố định, dữ liệu không rời tổ chức.

Đặt lịch tư vấn miễn phí

Lưu ý: Bài viết mang tính giải thích khái niệm, cập nhật 02/07/2026; giới hạn cửa sổ ngữ cảnh và giá token thay đổi nhanh theo từng mô hình — hãy tra cứu tài liệu chính thức của mô hình bạn dùng.

Tài liệu tham khảo