Ana Sayfa Teknoloji AI Sudoku’da berbat. Çok daha rahatsız edici ki, nedenini açıklayamaması

AI Sudoku’da berbat. Çok daha rahatsız edici ki, nedenini açıklayamaması

10
0

Chatbots, gerçekçi bir metin yazmak veya garip fütüristik görünümlü görüntüler oluşturmak gibi, iyi oldukları şeyleri yaptıklarını izlediğinizde gerçekten etkileyici olabilir. Ancak, üretken AI’dan bir gazetenin arkasında bulduğunuz bulmacalardan birini çözmesini istemeye çalışın ve işler hızla raylardan çıkabilir.

Colorado Boulder Üniversitesi’ndeki araştırmacılar, Sudoku’yu çözmek için farklı büyük dil modellerine meydan okuduklarında buldular. Ve standart 9×9 bulmaca bile değil. Daha kolay bir 6×6 bulmaca genellikle bir LLM’nin dış yardımı olmadan yeteneklerinin ötesindeydi (bu durumda belirli bulmaca çözme araçları).

AI Atlas

Daha önemli bulgu, modellerden çalışmalarını göstermeleri istendiğinde geldi. Çoğunlukla yapamadılar. Bazen yalan söylediler. Bazen şeyleri mantıklı olmayan şekillerde açıkladılar. Bazen halüsinasyonlar ve hava durumu hakkında konuşmaya başladılar.

Gen AI araçları kararlarını doğru veya şeffaf bir şekilde açıklayamazsa, bu şeyleri hayatlarımız ve kararlarımız üzerinde daha fazla kontrol verdiğimiz için dikkatli olmamıza neden olmalı, dedi Boulder’daki bir bilgisayar bilimi profesörü olan Ashutosh Trivedi kağıt Temmuz ayında Hesaplamalı Dilbilim Derneği bulgularında yayınlandı.

Trivedi, “Bu açıklamaların şeffaf olmasını ve AI’nın neden bu kararı verdiğini ve AI’nın insanı sevebileceği bir açıklama sağlayarak insani manipüle etmeye çalıştığını yansıtmak istiyoruz.” Dedi.

Bir karar verdiğinizde, en azından haklı çıkarmaya veya ona nasıl ulaştığınızı açıklamaya çalışabilirsiniz. Bu toplumun temel bir bileşenidir. Verdiğimiz kararlardan sorumlu tutuluyoruz. Bir AI modeli kendini doğru veya şeffaf bir şekilde açıklayamayabilir. Güvenir misin?

Neden Sudoku ile mücadele ediyor?

AI modellerinin daha önce temel oyunlarda ve bulmacalarda başarısız olduğunu gördük. Openai’nin chatgpt (diğerleri arasında) 1979 Atari oyununda bilgisayar rakibi tarafından satrançta tamamen ezildi. Apple’ın yakın tarihli bir araştırma makalesi, modellerin mücadele edebileceğini buldu. Hanoi Kulesi gibi diğer bulmacalar.

LLM’lerin çalışma ve bilgideki boşlukları doldurma şekli ile ilgilidir. Bu modeller bu boşlukları, eğitim verilerinde veya geçmişte gördükleri diğer şeylerde benzer durumlarda neler olduğuna göre tamamlamaya çalışmaktadır. Bir sudoku ile soru mantıktır. Yapay zeka, makul bir cevap gibi görünen her boşluğu sırayla doldurmaya çalışabilir, ancak düzgün bir şekilde çözmek için, bunun yerine tüm resme bakmalı ve bulmacadan bulmacaya değişen mantıklı bir sipariş bulmalıdır.

Devamını oku: AI Necessities: Uzmanlarımıza göre, Gen Ai’nin sizin için çalışmasını sağlamanın 29 yolu

Chatbots benzer bir nedenden dolayı satrançta kötüdür. Mantıksal bir sonraki hareket bulurlar, ancak üç, dört veya beş hareketin önde olduğunu düşünmezler. Satranç iyi oynamak için gereken temel beceri budur. Chatbots da bazen satranç parçalarını kurallara gerçekten uymayan veya parçaları anlamsız bir tehlikeye atmayacak şekilde hareket ettirme eğilimindedir.

LLM’lerin Sudoku’yu çözebilmesini bekleyebilirsiniz, çünkü bunlar bilgisayarlar ve bulmaca sayılardan oluşur, ancak bulmacaların kendileri gerçekten matematiksel değildir; Onlar sembolik. CU’da profesör ve araştırma makalesinin yazarlarından biri olan Fabio Somenzi, “Sudoku, sayı olmayan herhangi bir şeyle yapılabilecek sayılara sahip bir bulmaca olarak ünlüdür.” Dedi.

Araştırmacıların makalesinden bir örnek istemi kullandım ve Chatgpt’e verdim. Araç işini gösterdi ve tekrar tekrar işe yaramayan bir bulmaca göstermeden önce cevap verdiğini, sonra geri dönüp düzelttiğini söyledi. Bot, son saniyelik düzenlemeleri almaya devam eden bir sunum yapıyormuş gibiydi: Bu son cevap. Hayır, aslında boşver, Bu son cevap. Sonunda deneme yanılma yoluyla cevabı aldı. Ancak deneme yanılma, bir kişinin gazetede bir sudoku çözmesi için pratik bir yol değildir. Bu çok fazla siliniyor ve eğlenceyi mahvediyor.

Bir robot bir kişiye karşı satranç oynar.

AI ve robotlar, onları oynamak için inşa edilirlerse oyunlarda iyi olabilir, ancak büyük dil modelleri gibi genel amaçlı araçlar mantık bulmacalarıyla mücadele edebilir.

Getty Photographs aracılığıyla cevher huiing/bloomberg

AI işini göstermek için mücadele ediyor

Colorado araştırmacıları sadece botların bulmacaları çözüp çözemeyeceğini görmek istemedi. Botların onlar üzerinde nasıl çalıştığına dair açıklamalar istediler. İşler iyi gitmedi.

Openai’nin O1 ön görüşü akıl yürütme modelini check eden araştırmacılar, açıklamaların-doğru çözülmüş bulmacalar için bile-hareketlerini doğru bir şekilde açıklamadığını veya haklı çıkarmadığını ve temel terimleri yanlış aldığını gördüler.

CU’da bilgisayar bilimi yardımcı doçenti Maria Pacheco, “İyi oldukları bir şey makul görünen açıklamalar sağlamaktır.” Dedi. “İnsanlara hizalanıyorlar, bu yüzden sevdiğimiz gibi konuşmayı öğreniyorlar, ancak gerçek adımların çözmek için ne olması gerektiğine sadık olup olmadıkları, biraz mücadele ettiğimiz yer.”

Bazen açıklamalar tamamen alakasızdı. Makalenin çalışması bittiğinden beri, araştırmacılar yeni modelleri check etmeye devam ettiler. Somenzi, Trivedi ile aynı testler aracılığıyla Openai’nin O4 akıl yürütme modelini çalıştırdıklarında, bir noktada, tamamen vazgeçtiğini söyledi.

“Bir sonraki soru sorduğumuz, cevap Denver için hava tahmini oldu” dedi.

(Açıklama: CNET’in ana şirketi Ziff Davis, Nisan ayında Openai’ye karşı bir dava açtı ve Ziff Davis’in AI sistemlerini eğitmede ve işletmesinde telif haklarını ihlal ettiğini iddia etti.)

Kendinizi açıklamak önemli bir beceridir

Bir bulmacayı çözdüğünüzde, düşüncelerinizle neredeyse kesinlikle başka birini yürüyebilirsiniz. Bu LLM’lerin bu temel işte bu kadar muhteşem bir şekilde başarısız olması önemsiz bir sorun değil. Yapay zeka şirketleri sürekli olarak sizin adınıza harekete geçebilecek “AI ajanları” hakkında konuşurken, kendinizi açıklayabilmek esastır.

Şimdi AI’ya verilen veya yakın gelecekte planlanan iş türlerini düşünün: araba kullanmak, vergi yapmak, iş stratejilerine karar vermek ve önemli belgeleri tercüme etmek. Bir insan, bu şeylerden birini yaptıysanız ve bir şeyler ters giderse ne olacağını hayal edin.

Somenzi, “İnsanlar yüzlerini kararlarının önüne koymak zorunda kaldıklarında, bu karara neyin yol açtığını açıklayabiliyorlar.” Dedi.

Bu sadece makul bir cevap alma meselesi değil. Doğru olması gerekiyor. Bir gün, bir AI’nın kendisinin açıklaması mahkemede durmak zorunda kalabilir, ancak yalan söylediği biliniyorsa ifadesi nasıl ciddiye alınabilir? Kendilerini açıklayamayan bir kişiye güvenmezsiniz ve bulduğunuz birine de güvenmezsiniz, gerçek yerine ne duymak istediğinizi söylemekti.

Trivedi, “Bir açıklama yapmak, yanlış nedenden dolayı yapılırsa manipülasyona çok yakındır.” Dedi. “Bu açıklamaların şeffaflığı konusunda çok dikkatli olmalıyız.”



avots