Embedding

Alternatif isimler: vektör, gömme vektör, semantic embedding

Bir metin parçasını anlamsal olarak temsil eden, sabit uzunluklu sayı vektörüdür.

Embedding'ler; arama (semantic search), sınıflandırma, öneri sistemleri ve RAG'ın temel yapı taşıdır. Aynı anlama gelen iki cümle, vektör uzayında birbirine yakın embedding'lere sahip olur.

Embedding modeli seçimi (örneğin text-embedding-3-large), boyut (örneğin 1536) ve normalleşme; arama kalitesini doğrudan etkiler. Çok dilli görevlerde, eğitildiği dile göre embedding kalitesi farklılaşır; Türkçe için çok dilli (multilingual) embedding modelleri tercih edilir.

Örnek prompt

Embedding kullanım senaryosu

Soru: "İade nasıl alırım?"
Veritabanında arama yaparken bu soru önce embedding'e dönüştürülür, sonra "ürün iade süreci" başlıklı doküman parçasıyla yüksek kosinüs benzerliği bulur ve yanıta dahil edilir.

Sık yapılan hatalar

  • Farklı embedding modellerini karıştırmak; vektör uzayları uyumsuz olur.
  • Türkçe içerikte yalnızca İngilizce embedding modeli kullanmak; arama doğruluğu düşer.

Sıkça sorulan sorular

Embedding ile token aynı şey mi?

Hayır. Token metnin parçasıdır; embedding ise bir veya daha fazla tokenın anlamını temsil eden sayı vektörüdür.

Sözlükte ilgili terimler