Question 1

Token là gì trong ngữ cảnh của LLM?

Accepted Answer

Token là một đoạn văn bản mà mô hình ngôn ngữ xử lý. Token có thể là từ, phần của từ hoặc thậm chí là ký tự đơn lẻ. Ví dụ, từ 'hamburger' có thể được chia thành 'ham', 'bur', 'ger' — ba token.

Question 2

Tại sao các mô hình khác nhau có số token khác nhau?

Accepted Answer

Các mô hình khác nhau sử dụng các tokenizer (sơ đồ mã hóa) khác nhau. GPT-4o sử dụng o200k_base với từ vựng 200.000 token, trong khi GPT-4 và GPT-3.5 sử dụng cl100k_base với 100.000 token.

Question 3

Số token Claude chính xác đến mức nào?

Accepted Answer

Số token Claude hiển thị ở đây là ước tính gần đúng dựa trên tokenizer cl100k_base. Mặc dù Claude sử dụng tokenizer riêng, các con số thường rất gần với giá trị thực tế.

Question 4

Làm thế nào để sử dụng số token để tối ưu hóa prompt?

Accepted Answer

Biết số token giúp bạn giữ trong giới hạn ngữ cảnh của mô hình (ví dụ 128K cho GPT-4o, 200K cho Claude 3.5), ước tính chi phí API và tối ưu hóa prompt bằng cách loại bỏ văn bản không cần thiết.

Bộ Đếm Token

Tính năng

Hỗ Trợ Đa Mô Hình

Đếm Thời Gian Thực

Token Hóa Chính Xác

Quyền Riêng Tư Trước Tiên

Câu Hỏi Thường Gặp

Token là gì trong ngữ cảnh của LLM?

Tại sao các mô hình khác nhau có số token khác nhau?

Số token Claude chính xác đến mức nào?

Làm thế nào để sử dụng số token để tối ưu hóa prompt?

Giới Thiệu Bộ Đếm Token

Công cụ liên quan

Đếm từ

Định dạng JSON

So sánh văn bản