123456789101112131415161718 |
- import tiktoken
- def num_tokens(text: str, model: str = "qwen3-embedding") -> int:
- """
- 计算不同模型的 token 数
- - GPT 系列:用 encoding_for_model
- - Qwen 系列:默认用 cl100k_base
- """
- try:
- if model.lower().startswith("qwen"):
- encoding = tiktoken.get_encoding("cl100k_base")
- else:
- encoding = tiktoken.encoding_for_model(model)
- except KeyError:
- encoding = tiktoken.get_encoding("cl100k_base")
- return len(encoding.encode(text))
|