Sözün Fethi

Kelimeleri sayısallaştırmayı başardıktan sonra doğal dil işleme çok hızlı ilerledi. Bunu şu andan bakarak teorik araçların keşfedilmiş olmasına bağlayabiliriz.

Kelimeleri anlamla bağlantılı biçimde sayısallaştırmak bilgisayarların dille ilgili bütün sorunları çözmesine yetmiyor çünkü anlam kelimeye sabitlenmiş tek bir değer değil. “Pencere açık”, “Bakkal açık”, “Mana açık” hepsinde bağlantılı ama farklı “açık”lar var. Bazı kelimelerin, örneğin “O”, kendi başına hiç anlamı yok sadece bağlamla anlam kazanıyor. Çeviri yaparken bu sorunları apaçık görünür. Teker teker kelimeleri çevirince “tavuk çevirme”, “chicken translation” olabilir. Bağlam dilde o kadar belirleyici ki kelimelerden öte cümlelerin bile farklı metinlerde bambaşka anlamlar taşıdığı oluyor.

Elbette ilerleme kaydetmek için problemleri baştan sona çözmek şart değil. Bağlam konusunda en azından hangi kelimenin hangi diğer kelimelere referansla manasını kazandığını anlayabilsek çeviri işini becerebiliriz diye düşünen Google araştırmacıları 2017’de “Transformer” mimarisini ortaya attı. “İhtiyaç duyduğunuz tek şey dikkat” (Attention is all you need) adıyla çıkan makalede her bir kelimenin manasının etrafındaki diğer kelimelerden ne kadar etkilendiğini ölçen “dikkat” mekanizması en büyük yenilikti¹.

“Şemsiyeyi çantaya koymadım, çok büyüktü.” ve “Şemsiyeyi çantaya koymadım, çok küçüktü.” cümlelerinde ne küçük ne büyük anlamak insanlar için çok kolay. Dikkat mekanizması, hangi kelimelerin hangileriyle ilişkili olduğunun hesabını tutarak yapay zeka modellerinin bağlamdan bu gibi incelikleri öğrenmesini sağlıyor.

Google dikkat mekanizmasını çeviri alanında kullanmak için geliştirmişti, OpenAI ise aynı tekniği genel olarak dili anlamaya yönelik kullanmayı denedi. 2018 yılında geliştirdiği GPT-1 (generative pre-trained transformer) modeli, bir metin havuzunu kendi başına bir “ön eğitim” (pre-training) verisi olarak kullanma fikriyle ortaya çıktı. Ön eğitimde model soru cevaplamak ya da çeviri yapmak gibi amaçlarla eğitilmez. Sadece verilen bir metne bakarak bir sonraki kelimeyi tahmin etmek için eğitilir. Böylelikle model dili bağlam içerisinde anlamayı öğrenir.

Bu yaklaşımın avantajı, ön eğitim adımında özel olarak hazırlanmış bir veriye ihtiyaç duyulmaması. Böylelikle bütün internet modeliniz için eğitim verisine dönüşüyor. Bu yöntemle dil becerilerini kazanan modele daha sonra amaca özel hazırlanmış soru-cevap ya da çeviri veri setleri öğretilerek (supervised fine tuning) nihai çıktılar elde ediliyor.

Bu yaklaşımı daha büyük veri setleri, daha fazla işlemci gücü ve pekiştirmeli öğrenme teknikleriyle geliştiren GPT-3.5, 2022 yılında sözü fethetti. Neredeyse her sorumuza makul (doğru demiyorum) yanıtlar veren, bizimle sohbet edebilen büyük dil modelleri o günden bu yana sürekli gelişiyor. Görüntü ve ses işleme alanındaki teknolojiler de dil ile biraraya gelmeye başladı. Ada Lovelace’ın kehaneti gerçekleşti, artık makineler müzik de yapıyor.

ChatGPT’den çok kısa süre sonra çeşit çeşit açık ve kapalı kaynaklı büyük dil modeli piyasaya çıktı. Google, Microsoft, Meta (Facebook) gibi büyük teknoloji firmaları yarışa katıldı, katılmayanlar ayıplandı.

İlk yıllarda bu modellerin eksikleri çok basit sorularla açığa çıkıyordu. “Strawberry kelimesinde kaç r vardır?” gibi sorulara bir türlü doğru cevap veremiyorlardı. Çok mantıklı konuşuyormuş gibi görünmelerine rağmen yalan yanlış cevaplarla çok sık karşılaşıyorduk. Bunun sebebi büyük dil modellerinin, adı üstünde dil modeli olması. Bu modeller mantık, toplama, çarpma gibi şeyleri bilmiyorlar.

Daha çok veri, daha büyük modeller gibi kaba kuvvete dayalı yaklaşımlar da bu eksikleri gidermeye yetmiyor. “Kendiliğinden ortaya çıkan beceriler” (emergent skills) gibi bir umut vardı ama bu söylemi doğrulayacak bir gelişme yaşanmadı.

Çözümü dil modellerini doğrudan soruları cevaplamak için kullanmak yerine, soruları analiz edip çözümleri bulmak için doğru araçlara (hesap makinesi, programlama ortamı, internet araması gibi) yönlendirmekte bulduk. “Agentic AI” denilen bu yaklaşımda, dil modelleri soruyu yanıtlamak için gerekli adımları planlıyor, her bir adımı uygun araca iletiyor, bu araçlardan gelen yanıtları biraraya getirerek çözümü buluyor.

“Ali’nin 3 kız kardeşi var, kız kardeşlerinin de 2 erkek kardeşi var. Ali’nin kaç erkek kardeşi vardır?” gibi insanlar için basit sorulara büyük dil modelleri kendi başlarına doğru yanıt veremiyor. Planlama ve araç kullanımı adımlarını da sürece dahil ettiğimizde akıl yürütme gerektiren sorulara da iyi yanıtlar almaya başladık.

Mükemmel değilse bile planlama ve araç kullanımı dil, ses ve görüntü modelleriyle birarada kullanılınca ortaya gerçekten etkileyici sonuçlar çıkmaya başladı. 2025 yılı başlarında büyük dil modellerinin çuvalladığı basit sorular üretmek çok kolaydı, 2026 başı itibariyle artık oldukça karmaşık sorulara bile doğru yanıtlar alıyoruz. Arthur C. Clarke “Yeterince karmaşık her teknoloji büyü gibi görünür” demiş. Büyük dil modelleri ve onları çevreleyen diğer araçlar da şu an büyüleyici sonuçlar üretiyor.

Aslında dikkat mekanizması ilk kez RNN mimarili modellerde ortaya çıktı. Bu makalede RNN yapısını tamamen bir kenara bırakıp, yalnızca dikkat mekanizmasını kullanarak daha iyi sonuçlar elde edildi. ↩︎

Sözün Fethi

Comments

Leave a Reply Cancel reply

More posts

Sözün Fethi

Bilinç Problemi

Manayı Sayısallaştırmak

Simülasyon ve Pekiştirmeli Öğrenme