Psikoloji Testi Yapay Zekanın En Büyük Açığını Yakaladı: Uzun Görevlerde Dikkat Çöküyor

📅 11.06.2026 09:50 | ⏱️ 7 dk okuma | 🔥 3 okunma | ✍️ Editör: Gökhan Yalta

WhatsApp X Facebook

Psikoloji Testi Yapay Zekanın En Büyük Açığını Yakaladı: Uzun Görevlerde Dikkat Çöküyor

Hızlı Erişim / İçindekiler

Stroop Etkisi: İnsan Zihni ve Makinelerin Sınavı
Yapay Zeka Modellerinin Dikkat Testi Sonuçları
Uzun Metinlerde Kontrol Neden Tamamen Kayboluyor?
İnsan Odaklanması ile Makine Dikkati Arasındaki Uçurum

Yapay zeka sistemleri, insan dilini taklit etme ve devasa veri yığınlarını işleme konusunda her geçen gün daha etkileyici bir performans sergiliyor. Ancak bu sistemlerin karmaşık mantık yürütme süreçlerinde gerçekten başarılı olup olmadıkları hala büyük bir tartışma konusu. Bilim insanları, bu sorunun yanıtını bulmak için tıp ve psikoloji dünyasının klasikleşmiş dikkat testlerinden birini en gelişmiş dil modellerine uyguladı. Ortaya çıkan bulgular, yapay zekanın kısa vadeli görevlerde kusursuz görünse de veri dizisi uzadığında dikkati elinde tutamadığını ve adeta havlu attığını gösterdi. Bazı lider sistemlerin başarı oranı, görev karmaşıklaştıkça yüzde 90'lardan sıfıra yaklaşan dramatik bir çöküş yaşadı.

Stroop Etkisi: İnsan Zihni ve Makinelerin Sınavı

Nöropsikoloji alanında yetmiş yılı aşkın süredir kullanılan Stroop testi, bir canlının odaklanma becerisini ve yürütücü işlevlerini ölçen en temel araçlardan biridir. Testin mantığı oldukça basit görünse de insan beyni için ciddi bir zihinsel direnç gerektirir. Katılımcılara mavi mürekkeple yazılmış bir "KIRMIZI" kelimesi gösterilir ve onlardan kelimeyi okumaları değil, sadece yazıldığı mürekkep rengini söylemeleri istenir. Okumak, yetişkin bir insan için otomatikleşmiş refleksif bir eylemdir. Bu yüzden beyin, ilk etapta kelimeyi okuma dürtüsünü bastırmak ve kelimenin anlamına odaklanmak yerine rengi seçip ayırt etmek için yoğun bir zihinsel enerji harcar. Bu süreç, bilimsel gelişmeler ve bilişsel psikolojide zihinsel esneklik ile dikkat kontrolünün en net ölçütü olarak kabul edilir.

Yapay Zeka Modellerinin Dikkat Testi Sonuçları

Suketu Patel liderliğindeki bir araştırma ekibi, günümüzün en popüler büyük dil modellerini (LLM) bu klasik psikoloji testine tabi tuttu. Gelişmiş sistemlerin kısa listelerle çalışırken, yani sadece beş kelimelik renk dizilimleri aldıklarında oldukça başarılı oldukları gözlemlendi. Sorunlar, kelime sayısı ve dolayısıyla görevin süresi uzamaya başladığında baş gösterdi. Yapay zeka sistemleri, girdi boyutu büyüdükçe temel talimatı unutup ezber kalıplarına yenik düştü. Elde edilen istatistikler, teknoloji devlerinin en çok güvendiği mimarilerin bile zihinsel dayanıklılık testinde sınıfta kaldığını net bir şekilde ortaya koydu.

Modellerin performans eğrileri incelendiğinde düşüşün ne denli sert olduğu daha net anlaşılıyor. Örneğin GPT-4o, beş kelimelik kısa bir listede yüzde 91 gibi yüksek bir doğruluk payı yakaladı. Kelime sayısı ona çıktığında bu oran aniden yüzde 57'ye geriledi. Liste kırk kelimeye ulaştığında ise sistem tamamen dağıldı ve doğru yanıt oranı yüzde 15'e kadar düştü. Benzer şekilde Claude 3.5 Sonnet, yirmi kelimeye kadar nispeten istikrarlı bir grafik çizse de kırk kelimelik büyük senaryoda yüzde 24 başarı oranında kaldı. Benzer çöküş eğilimleri GPT-5, Claude Opus 4.1 ve Gemini 2.5 gibi diğer güncel sistemlerde de net bir biçimde kendini tekrar etti.

Uzun Metinlerde Kontrol Neden Tamamen Kayboluyor?

Testin zorluk derecesi artırılıp, uyumlu ve uyumsuz kelimeler aynı metin bloğu içinde harmanlandığında durum yapay zeka haberleri açısından çok daha düşündürücü bir boyuta ulaştı. Karışık listelerde modellerin uyumsuz renkleri ayırt etme yeteneği neredeyse tamamen sıfırlandı. Araştırmacılara göre bu başarısızlığın temel sebebi, yapay zekanın "mürekkep rengini söyle" komutunu hafızasında canlı tutamamasıdır. Sistemler, girdinin hacmi büyüdükçe odaklarını kaybediyor ve en yoğun eğitim aldıkları otomatik davranışa, yani kelimeleri doğrudan okuma eğilimine geri dönüyor.

Bu zafiyet, modellerin üzerine inşa edildiği olasılık tabanlı mimarinin doğal bir sonucu olarak görülüyor. Yapay zeka, bir sonraki kelimenin ne olacağını tahmin etmek üzere eğitildiği için, önüne gelen kelimenin görsel rengini ayırt etmek yerine metinsel dizilimi takip etmeyi seçiyor. Yani en güçlü olduğu kası olan metin işleme refleksi, dikkat gerektiren bu spesifik görevde onun en büyük zayıflığına dönüşüyor. Sistem, bastırması gereken baskın eğitim verisinin esiri olmaktan kurtulamıyor.

İnsan Odaklanması ile Makine Dikkati Arasındaki Uçurum

Bu bilimsel çalışma, insan zekası ile yapay zekanın çalışma prensipleri arasındaki temel bir ayrımı gözler önüne seriyor. İnsanlar da Stroop testinde benzer bir içsel çatışma yaşar ve kelimeleri okuma dürtüsünü bastırmakta zorlanır. Buna karşın, biyolojik bir beyin listenin uzunluğundan bağımsız olarak ana hedefe kilitlenebilir ve dikkatini uzun süre koruyabilir. Bir insan yüz kelimelik bir listede bile yüksek doğruluk oranını koruyabilirken, mevcut yapay zeka mimarileri bunu başaramıyor.

Mevcut büyük dil modelleri, insan dilini ve mantığını çok başarılı bir şekilde taklit edebilse de dikkat mekanizmaları biyolojik beyinlerden çok farklı çalışıyor. İnsan beyni, arka plandaki gürültüyü ve çelişkili bilgileri filtreleyerek tek bir amaca odaklanma konusunda evrimsel bir avantaja sahip. Bugün milyarlarca parametreyle çalışan algoritmalar ise zihinsel yük arttığında bilişsel kontrolü kaybediyor. Bu durum, günümüz yapay zeka teknolojisinin sadece biçimsel olarak insanı andırdığını, derinlemesine odaklanma ve öz denetim noktasında henüz yolun başında olduğunu hatırlatıyor.

Kaynak: sciencedaily.com A classic brain test exposed AI's biggest weakness

BilimBox Yorumu: Yapay zeka geliştiricileri uzun süredir sistemlerin "bağlam penceresini" büyütmekle, yani tek seferde yüz binlerce kelimeyi okuyabilmesiyle övünüyor. Ancak bu araştırma, bir bilgisayarın devasa bir metni okuyabilmesiyle, o metindeki kritik bir talimata kesintisiz odaklanabilmesinin tamamen farklı şeyler olduğunu açıkça gösteriyor. Stroop testi gibi basit bir dikkat tuzağı, milyar dolarlık modellerin zihinsel illüzyonunu adeta paramparça etti. Yapay zekanın uzun görevlerde dikkatinin dağılması ve en güçlü ezberine sığınması, günümüz sistemlerinin aslında "düşünmediğini", sadece istatistiksel birer tahmin motoru olduğunu kanıtlıyor. İnsan zihni, dikkati dağıtacak unsurları baskılama konusunda harika bir biyolojik filtreye sahip. Eğer yapay zekayı gerçekten otonom hale getirmek ve kritik sektörlerde güvenle kullanmak istiyorsak, ona sadece daha fazla veri okutmayı değil, gereksiz veriyi görmezden gelip ana hedefe sadık kalmayı, yani gerçek anlamda "yürütücü kontrolü" öğretmemiz gerekecek. Bu eksiklik giderilmediği sürece, karşımızdaki sistemler ne kadar gelişirse gelişsin, zihinsel birer illüzyondan öteye geçemeyecektir.

Bu makale güvenilir kaynaklardan yapay zeka yardımıyla çevrilmiş ve Gökhan Yalta tarafından kontrol edilip düzenlenerek yayına alınmıştır. Teknoloji ve bilim vizyonumuz hakkında daha fazla bilgi edinmek için hakkında sayfamıza göz atabilirsiniz.