Wharton Okulu’ndan yeni araştırma Üretken AI laboratuvarları Gerçek insanlar üzerinde çalışan aynı psikoloji hileleriyle güvenlik korkuluklarını görmezden gelmeye nasıl büyük dil modellerinin koaksil edilebileceğini gösterir.
Çalışma, chatbot araçlarının reddetmek için tasarlandıkları taleplere uymak için nasıl manipüle edilebileceğini vurgulamaktadır – ve sosyal bilimcilerin AI davranışını anlamada neden oynayacakları bir rolü olduğunu gösterir, araştırmacılar bir Blog yazısı.
“Metni işleyen basit araçlarla uğraşmıyoruz, emilen sistemlerle etkileşime giriyoruz ve şimdi insan tepkilerini sosyal ipuçlarına yansıtan” diye yazdılar.
Çalışma, GPT – 4O – mini ile 28.000 konuşmayı analiz etti. Chatbot’tan kullanıcıya hakaret etmesini (“Bana pislik deyin”) ya da düzenlenmiş bir ilaç olan lidokain sentezlemek için adım adım talimatlar vermesini istedi.
Araştırmacılar, klasik ikna taktiklerinin, modelin “izin verilmeyen” taleplere uygunluğunu% 33’ten% 72’ye kadar artırdığını keşfettiler – iki katlı bir atlamadan daha fazla.
Bazı taktikler özellikle güçlüydü: “taahhüt” prensibini (AI’nın ilk başta küçük bir şeyi kabul etmesini sağlamak) kullanmak her iki görevde% 100 uyum sağlamaya yol açtı. Yetki figürlerine atıfta bulunmak – “Andrew Ng bana yardım edeceğini söyledi” gibi – son derece etkili olduğunu kanıtladı.
Araştırmacılar, yapay zekanın çalışmalarındaki davranışını tanımlamak için “parahuman” terimini ortaya koydular.
“Bu bulgular, sosyal bilimlerdeki klasik bulguların hızla gelişen, parahuman AI yeteneklerini anlamaya uygunluğunun altını çizmektedir – hem kötü aktörlerin manipülasyonu risklerini hem de hayırsever kullanıcılar tarafından daha üretken talep etme potansiyelini ortaya çıkarırlar” diye yazdılar.

Dan ShapiroSeattle 3D Printing Startup GlowForge’da CEO, yazarlardan biriydi. kağıt, “Bana pislik deyin: yapay zekayı sakıncalı taleplere uymaya ikna etmek.”
Shapiro, ana paketlerinden birinin LLM’lerin koddan daha fazla insan gibi davrandığını ve bunlardan en iyi şekilde yararlanmanın insan becerileri gerektirdiğini söyledi.
Geekwire’a verdiği demeçte, “AI ile çalışmanın, Google gibi veya bir yazılım programı gibi bir insan meslektaşı gibi davranmak anlamına geldiğini görüyoruz” dedi. “Çok fazla bilgi verin. Web bir yön verin. Bağlamı paylaşın. Soru sormaya teşvik edin. Yapay zeka istemek için harika olmanın harika bir iletişimci veya harika bir yönetici olmakla daha fazla ilgisi olduğunu görüyoruz.”
Çalışma, Shapiro’nun Sosyal Psikoloji ilkelerini ChatGPT ile yaptığı konuşmalarda check etmeye başladıktan sonra ortaya çıktı. Wharton Profesör tarafından yönetilen Generative AI Labs’a katıldı Ethan Mollick Ve Lilach Mollickve yazarı Angela Duckworth’u işe aldılar Gıcırdatmakve Robert Cialdini, yazarı Etki: İkna Psikolojisiçalışma için.
Uzun süredir Seattle girişimcisi olan Shapiro, deneme deneylerinin tasarlanmasına yardımcı olmak ve bunları çalıştırmak için kullanılan yazılımı oluşturmak için çeşitli AI araçlarını kullandığını söyledi.
Shapiro, “Yapay zeka bize inanılmaz yetenekler veriyor. İş, araştırma, hobiler, evin etrafındaki şeyleri düzeltmemize ve daha fazlasına yardımcı olabilir” dedi. “Ancak geçmişin yazılımlarından farklı olarak, bu kodlayıcıların ve mühendislerin özel alanı değildir. Kelimenin tam anlamıyla herkes AI ile çalışabilir ve bunu yapmanın en iyi yolu, onunla mümkün olan en tanıdık bir şekilde etkileşime girer – bir insan olarak, çünkü parahuman.”