Dil, anlam ile fonksiyonel hale geldiği için sayısal tekniklere uzun süre direndi. Manayı sayısallaştırmak -ve sayısallaştırılmış manayı bir araya getirmek- çok zor olduğu için yakın zamana kadar yapay zeka bu konuda dikkate değer işler yapamıyordu.
Doğal dilleri yapay zeka ile ele almanın ilk zorluğu anlamın temel birimini bulmakta. Kelimeleri anlamın temel unsuru olarak almak mantıklı görünüyor ama noktalama işaretleri, bileşik kelimeler, ekler, kökler derken kelimeler yetersiz kalıyor. Bunun için “gösterge” (token) kavramı kullanılıyor. Metni yukarıda saydığımız bileşenleri gözönüne ayırarak parçalara bölmemiz gerekiyor.

Yukarıda gördüğünüz örnek modern büyük dil modellerinin kullandığı göstergelere ayırma işleminin bir sonucu. Göstergeleri dijital resimlerdeki piksellere benzetebiliriz. Pikseller bir görüntüdeki en temel bilgi birimi, göstergeler de bir metindeki en temel bilgi birimi. Anlamdan bizi uzaklaştırmasın diye bundan sonra kelime diyeceğim ama yapay zeka bağlamında kelime dediğimde kasettiğim gösterge (token).
Bir sonraki adımı atmak için her bir kelimeyi sayısal olarak ifade etmemiz gerekiyor. Görüntü olsa işimiz kolay, her rengi 3 temel rengin yoğunluğu olarak ifade edebiliriz. Örneğin RGB sistemi renkleri kırmızı, yeşil ve mavi renklerin yoğunluğu ile sayısallaştırır. 8-bitlik renk derinliğinde (0,0,0) siyahı, (255,255,255) ise beyazı temsil eder. Bu sayısallaştırmanın güzelliği, matematiksel işlemlerin “mana” içermesidir. Siyahla beyazı toplayıp ikiye bölerseniz grinin bir tonunu (128,128,128) elde edersiniz.
Kelimeleri sayısallaştırırken de rastgele bir sırayla 1. kelime, 2. kelime demek yeterli değil çünkü mana ile bağlantıyı kaybederiz. Bunun yerine kelimeleri çok bileşenli sayılarla eşleştirerek manayı koruyan bir sayısallaştırma elde etmek mümkün. Bunu 2013’te çıkan word2vec modelleriyle yapmaya başladık. Aşağıda gördüğünüz gibi kelimeleri vektörlere (çok bileşenli sayı dizileri) eşlediğimizde sayısal bağlantılar elde etmek mümkün. “Kral” kelimesinden “Erkek” kelimesini çıkartıp “Kadın” kelimesini eklediğimizde “Kraliçe”yi buluyoruz.

Büyük dil modellerinin tamamında bu yaklaşımı kullanılıyor. Kelimeleri, birbirleriyle ilişkilerini koruyacak biçimde sayı dizilerine (bunları şekildeki vektörler olarak düşünebiliriz) eşleyerek anlamı cebir ve geometrinin alanına çekiyoruz.

Leave a Reply