Token

Alternatif isimler: token, context window

Yapay zeka modellerinin metni işlerken kullandığı en küçük birim — kabaca 4 karakterlik veya kelimenin parçası.

Token; bir kelime, kelime parçası veya noktalama işareti olabilir. İngilizce'de 1000 token ortalama 750 kelimedir; Türkçe'de oran daha düşük olabilir çünkü Türkçe sondan eklemeli yapısı nedeniyle daha fazla parçaya bölünür.

Modeller; girdi + çıktı toplamında bir token sınırına sahiptir (context window). Maliyet ve hız da token başına hesaplandığı için prompt'un kısa ve öz olması doğrudan ekonomik etki yapar. Üretim sistemlerinde token sayımı için OpenAI tiktoken, Anthropic'in token sayma API'si veya tokenizer kütüphaneleri kullanılır.

Örnek prompt

Türkçe metinde token sayımı

"Yapay zeka modelleri Türkçeyi nasıl işler?" cümlesi GPT-4o tokenizer'ında ~12 token; aynı anlamdaki İngilizce karşılığı ise ~9 token tutar. Maliyet hesaplarken Türkçe içerik için %20-40 ek bütçe planlayın.

Sık yapılan hatalar

  • Bağlam penceresinin sadece girdi için kullanılabileceğini sanmak; çıktı tokenları da aynı pencereyi paylaşır.
  • Türkçe içerikte İngilizce token tahminlerini kullanmak; bütçe öngörüsü düşük çıkar.

Sıkça sorulan sorular

Türkçe içerikte 1 kelime kaç token?

Ortalama 1.5-2 token. Uzun ve ekli kelimelerde 3-4 token'a kadar çıkabilir.

Token limitini aşarsam ne olur?

API hata döner; arayüzlerde model genelde başlangıçtaki bağlamı keser. Üretim sistemlerinde önceden tokenize edip kontrol etmek önerilir.

Sözlükte ilgili terimler