Token
Alternatif isimler: token, context window
Yapay zeka modellerinin metni işlerken kullandığı en küçük birim — kabaca 4 karakterlik veya kelimenin parçası.
Token; bir kelime, kelime parçası veya noktalama işareti olabilir. İngilizce'de 1000 token ortalama 750 kelimedir; Türkçe'de oran daha düşük olabilir çünkü Türkçe sondan eklemeli yapısı nedeniyle daha fazla parçaya bölünür.
Modeller; girdi + çıktı toplamında bir token sınırına sahiptir (context window). Maliyet ve hız da token başına hesaplandığı için prompt'un kısa ve öz olması doğrudan ekonomik etki yapar. Üretim sistemlerinde token sayımı için OpenAI tiktoken, Anthropic'in token sayma API'si veya tokenizer kütüphaneleri kullanılır.
Örnek prompt
Türkçe metinde token sayımı
"Yapay zeka modelleri Türkçeyi nasıl işler?" cümlesi GPT-4o tokenizer'ında ~12 token; aynı anlamdaki İngilizce karşılığı ise ~9 token tutar. Maliyet hesaplarken Türkçe içerik için %20-40 ek bütçe planlayın.
Sık yapılan hatalar
- Bağlam penceresinin sadece girdi için kullanılabileceğini sanmak; çıktı tokenları da aynı pencereyi paylaşır.
- Türkçe içerikte İngilizce token tahminlerini kullanmak; bütçe öngörüsü düşük çıkar.
Sıkça sorulan sorular
Türkçe içerikte 1 kelime kaç token?
Ortalama 1.5-2 token. Uzun ve ekli kelimelerde 3-4 token'a kadar çıkabilir.
Token limitini aşarsam ne olur?
API hata döner; arayüzlerde model genelde başlangıçtaki bağlamı keser. Üretim sistemlerinde önceden tokenize edip kontrol etmek önerilir.