Embedding
Alternatif isimler: vektör, gömme vektör, semantic embedding
Bir metin parçasını anlamsal olarak temsil eden, sabit uzunluklu sayı vektörüdür.
Embedding'ler; arama (semantic search), sınıflandırma, öneri sistemleri ve RAG'ın temel yapı taşıdır. Aynı anlama gelen iki cümle, vektör uzayında birbirine yakın embedding'lere sahip olur.
Embedding modeli seçimi (örneğin text-embedding-3-large), boyut (örneğin 1536) ve normalleşme; arama kalitesini doğrudan etkiler. Çok dilli görevlerde, eğitildiği dile göre embedding kalitesi farklılaşır; Türkçe için çok dilli (multilingual) embedding modelleri tercih edilir.
Örnek prompt
Embedding kullanım senaryosu
Soru: "İade nasıl alırım?" Veritabanında arama yaparken bu soru önce embedding'e dönüştürülür, sonra "ürün iade süreci" başlıklı doküman parçasıyla yüksek kosinüs benzerliği bulur ve yanıta dahil edilir.
Sık yapılan hatalar
- Farklı embedding modellerini karıştırmak; vektör uzayları uyumsuz olur.
- Türkçe içerikte yalnızca İngilizce embedding modeli kullanmak; arama doğruluğu düşer.
Sıkça sorulan sorular
Embedding ile token aynı şey mi?
Hayır. Token metnin parçasıdır; embedding ise bir veya daha fazla tokenın anlamını temsil eden sayı vektörüdür.