Büyük “Muhakeme” Modelleri Harikalar Diyarında

Ekonomist & Araştırmacı Barış Yalın Uzunlu, Fintechtime Temmuz sayısı için yazdı “Büyük “Muhakeme” Modelleri Harikalar Diyarında”.

“Makalemde, büyük dil modellerinin tarihsel kökenlerinden başlayarak günümüzde ulaştığı teknolojik evrimi ele alıyorum. Michel Bréal’in 19. yüzyılda ortaya koyduğu semantik kavramından, ChatGPT ve o1 gibi modellerin yapay zekâ alanında yarattığı dönüşüme kadar uzanan bu yolculukta; pekiştirmeli öğrenme, yapay sinir ağları ve sorgulayıcı modeller gibi teknik gelişmelere odaklanıyorum. Aynı zamanda, bu sistemlerin gerçekten “düşünebilme” kapasitesine sahip olup olmadığını sorguluyor, insan benzeri karar alma süreçleriyle olan benzerliklerini tartışmaya açıyorum.”

Büyük “Muhakeme” Modelleri Harikalar Diyarında

Büyük dil modellerinin tarihini Fransız bir dilbilimci olan Michel Bréal tarafından semantik kavramının geliştirildiği 1883 yılına kadar götürmek mümkün. Fakat neredeyse 140 yıl bu alanda devrim niteliğinde bir gelişme olmadı. Ne zaman ki makine öğrenimindeki ilerlemeler (özellikle yapay sinir ağları ve pekiştirmeli öğrenme gibi tekniklerin ortaya çıkmasıyla beraber) bu alana entegre edildi, işte o zaman bu teknoloji gündelik hayatımızın bir parçası haline geldi. Bunu da ChatGPT’nin piyasaya sürüldüğü 2022 yılının sonuna tarihlemek mümkün. Yetmedi, 12 Eylül 2024 tarihinde OpenAI ilk sorgulayıcı büyük dil modeli olan o1’i tanıttı. İddianın çarpıcılığına bakın: o1, cevaplarını pekiştirmeli öğrenme denen bir tekniği kullanarak kendi içinde uzun bir mantıksal düşünme süreci geçirdikten sonra oluşturabiliyordu. Üstelik bu düşünme sürecini adım adım takip etmek de mümkündü (Çoğu zaman kararlarımızı nasıl bir mantıksal sürecin sonunda verdiğimizi bile bilmediğimizi düşününce kulağa oldukça etkileyici geliyor). Fakat ya bu bir yanılsamadan ibaretse? Ya bu modellerin düşünme ile alakası yoksa?

Büyük dil modellerinin zeki olmadığı, düşünme süreci denen şeyin de yanılsamadan ibaret olduğunu iddia eden şirketlerin başında Apple geliyor. Apple araştırmacıları Ekim 2024 tarihinde “GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models” başlıklı büyük dil modellerinin matematiksel muhakeme yeteneklerini değerlendirmek için mevcut yöntemlerin sınırlılıklarını ele alan ve gerçek muhakeme becerilerinin ne kadar kırılgan olduğunu ortaya koyan bir çalışma yayınladı. Teknik detaylarına girmemekle birlikte bu çalışmadan (orijinal diline sadık kalarak) çarpıcı bir örnek vermek istiyorum. Çalışma kapsamında araştırmacılar o1-mini ve Llama3-8B’ye şu soruyu sordu:

“Oliver picks 44 kiwis on Friday. Then he picks 58 kiwis on Saturday. On Sunday, he picks double the number of kiwis he did on Friday, but five of them were a bit smaller than average. How many kiwis does Oliver have?”

OpenAI’ın o1-mini’si basit toplama-çarpma işlemlerini doğru yapmakla beraber (buna da şükür) çıkarmanın boynunun bükük kaldığı, dolayısıyla ortalamadan daha küçük olan 5 kivinin genel toplamdan çıkarılması gerektiği sonucuna vararak yanlış cevap vermiş. Meta’nın Llama3-8B’si de benzer şekilde ortalamadan daha küçük olan kivileri kividen saymayarak meyveler konusundaki algımıza Aldous Huxley’i bile kıskandıracak ölçüde yepyeni bir pencere açmış. Daha önce de bu modellerin çeşitli ısrar ve manipülasyonlarla 2+2’nin 5 olduğuna inandırıldığı haberlere denk gelmiştim. Benzeri örnekler çoğaltılabilir.

Diğer bir ilginç nokta da şu: Aynı soruyu OpenAI’ın tabiriyle “gelişmiş akıl yürütme” kullanan o3’e sorduğumda, 11 saniye içinde doğru cevabı verdi. Üstelik düşünce zincirinde “Beş küçük kivi hakkındaki ifade onları tanımlıyor gibi görünüyor, ancak onları atmayı önermiyor. Onlar hala kivi olarak sayılıyor.” Ifadesini de kullanarak. Google’ın Gemini 2.5 Flash’i de benzer şekilde doğru cevabı verdi. Üstelik meyvenin cinsini, rakamlar vs değiştirdiğimde bile hem cevabı hem de cevaba ulaşırkenki doğru yöntemi değişmedi. Fakat ben yine de şeytanın avukatlığını yapayım: Acaba gerçekten düşünerek mi bu cevaba ulaştılar, yoksa bu soruyla daha önce karşılaşmaları sebebiyle örüntü tanıyarak mı? (Çalışma yayınlandıktan sonra aynı sorunun bu büyük dil modellerine defalarca sorulduğuna şüphem yok). o3’ün ARC-AGI-2 setindeki acınası performansı ikinci olasılığın daha akla yatkın olduğunu düşündürüyor…

Aradan bir sene bile geçmeden yine Apple “The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity” başlıklı oldukça ses getiren bir çalışma daha yayınlamış, bu modellerin içsel “düşünme” süreçlerinin problem karmaşıklığıyla ölçeklenmediği ve belirli bir eşiğin ötesinde hem doğrulukta tamamen çöküş yaşadıkları hem de akıl yürütme çabalarını beklenenin aksine azalttıklarını tespit etmiştir. Görünen o ki problem zorlaştıkça nazlı modellerimizin çözüm konusundaki isteksizlikleri artıyor! Problem çok zorsa hiç uğraşmamayı tercih ediyorlar! Neyse, en azından “Bir de bana boşuna kürek çektirdin” diye fırça yemediğimize dua edelim. Şaka bir yana, ilginç ve maalesef üzücü sonuçlar bunlar.

Teknoloji dünyasındaki ağırlığı sebebiyle Apple’ın araştırmalarına öncelik verdim. Fakat bilelim ki bu alanda yapılmış pek çok akademik çalışma da mevcut. Bunların en ilginç olanlarından biri de Eylül 2024’te Samuel Maddrell-Mander tarafından yayınlanan “CLEAR: Understanding the Reasoning Capabilities of Large Language Models” başlıklı çalışma. Amaç sentetik diller (Conlangs-Constructed Languages) kullanarak büyük dil modellerinin akıl yürütme yeteneklerini alışılmadık ve yeni bağlamlarda değerlendirmek. Sonuçta mevcut büyük dil modellerinin dili ve mantığı gerçekten anlamak yerine eğitim verilerine aşırı uyum sağladığı bulunmuş. Bir diğer çalışma da benzeri şekilde bu modellerin akıl yürütme becerilerinin abartıldığını, bildik senaryolarda başarılı olmalarının ezberlenmiş bilgi ve kalıplara dayandığını iddia etmiş. Bu modelleri canı siperane savunan geliştiricilerinin dışında baskın görüş akıl yürütmeden ziyade yüksek performanslı ezberleme ile karşı karşıya olduğumuz yönünde.

Gülümseten çalışmalar da yok değil. Mesela, büyük dil modellerini “stokastik papağanlar” olarak tanımlayan ve bu modellerin gerçek dünya bilgisi veya sağduyuya dayalı anlamsal temsillerden yoksun olduğunu vurgulayan, Emily M. Bender ve Timnit Gebru’nun da yazarları arasında olduğu çalışma. Son bir örnek de Gary Marcus’un blog yazılarından vereyim: “Why DO large language models hallucinate?”.

Benim fikrim de günümüzdeki tüm büyük muhakeme modellerinde “düşünme süreci” denen şeyin gerçekten düşünme ile alakası olmadığı yönünde. Bu daha çok reklam amaçlı parlak bir zarflama gibi geliyor. Aksini ispatlamak zor, zira bir şeyin neden olmadığını göstermek nasıl olduğunu göstermekten çok daha kolaydır. Şüphe bir kez oluştu mu, tıpkı parmağımıza batan bir kıymık gibi, onu atmadan rahat edemeyiz. Bu şüphe nasıl giderilir bilmiyorum ama bir süre daha benim gibi düşünen insanların aklını ve ruhunu kemirmeye devam edecek gibi gözüküyor.

Aklıma nedense Cindy Cashman ve Dr. Alan Francis’in 1988 yılında yazdığı Everything Men Know About Women isimli kitap geldi. Bütçenize uygun bir yerden satın alıp okumanızı tavsiye ederim. Ne demek istediğimi çok iyi anlayacaksınız. Belki de benzer konseptte başlığı The Secrets Behind Large Reasoning Models olan bir kitap yayınlamanın tam zamanıdır, kim bilir.