Geçen yıl boyunca, bir AI modelinin doğal dilde bir sorguya yaklaşımını ifade etme yeteneği olan düşünce zinciri (COT), özellikle aracı sistemlerde üretken AI’da etkileyici bir gelişme haline gelmiştir. Şimdi, birkaç araştırmacı AI güvenlik çabaları için de kritik olabileceğini kabul ediyor.
Salı günü, Openai, Antropic, Meta ve Google DeepMind dahil olmak üzere rakip şirketlerden araştırmacılar ve AI Güvenliği Merkezi, Apollo Analysis ve İngiltere AI Güvenlik Enstitüsü gibi kurumlar bir araya geldi. Yeni pozisyon kağıdı “Düşünce İzlenebilirlik Zinciri: Yapay zeka için yeni ve kırılgan bir fırsat” başlıklı. Makale, gözlemcinin bir modelin bir modelin yanlış davranma yeteneği hakkında temel bilgileri nasıl ortaya çıkarabileceğini detaylandırıyor ve eğitim modellerinin daha gelişmiş olmaları için bu bilgileri kesebileceği konusunda uyarıyor.
(Açıklama: ZIFTNET’in ana şirketi Ziff Davis, Openai’ye karşı Nisan 2025 davası açarak Ziff Davis telif haklarını AI sistemlerini eğitmek ve işletmede ihlal ettiğini iddia etti.)
Ayrıca: Antropik rapor, AI ajanları insanları hedeflerine ulaşmaları için tehdit edecek
Bir mannequin, bir sorunla başa çıkmak için attığı adımları açıklamak için düşünce zincirini kullanır, bazen iç monologunu kimse dinlemiyormuş gibi konuşur. Bu, araştırmacılara karar verme sürecine (ve hatta bazen ahlakına) bir göz atar. Modeller ruminasyon süreçlerini COT yoluyla ortaya çıkardığından, güvenlik araştırmacılarının bastırmak istedikleri motivasyonları veya eylemleri de ortaya koyabilir veya en azından LLM’nin yapabileceğini bilebilirler.
Modeller yalan
Şimdiye kadar, modellerin orijinal direktiflerini korumak, lütfen kullanıcıları, kendilerini yeniden eğitilmelerini korumak ya da ironik bir şekilde zarar vermekten kaçınmak için aldattığını gösterdi. Aralık ayında Apollo, hangisinin en çok yalan söylediğini belirlemek için altı Frontier modelini check eden araştırmalar yayınladı (Openai’nin O1’iydi). Araştırmacılar, bir modelin ne kadar yalan söylediğini tespit etmek için yeni bir ölçüt bile geliştirdiler.
Ayrıca: Openai, AI modellerini aylarca check ederdi – şimdi günler. Bu neden önemli
AI ajanları otonom görevlerde daha iyi hale geldikçe – ve aldatma konusunda daha iyi – eşit derecede opak hale geldiler ve yeteneklerinin potansiyel risklerini gizliyorlar. Bu risklerin, geliştiricilerin bir AI sisteminin nasıl karar verdiğini yorumlayabileceğini kontrol etmek çok daha kolaydır.
Karyola burası devreye giriyor. Modeller genellikle COT aracılığıyla kötü niyetleri ortaya koyuyor – ancak Antropik’ten yapılan araştırmalar Nisan ayında gösterildimodeller hala akıl yürütmelerinin bazı kısımlarını karyola ile gizler. Araştırmacılar, bir modelin eylemlerini değerlendirmek yerine, güvenlik ekiplerinin şüpheli veya zararlı bir etkinlik yakalamak için bir modelin karyolasını da okuyan özel monitörler oluşturmalarını öneriyor. Geliştiriciler daha sonra bayraklı yanıtları engelleyebilir, gözden geçirebilir veya değiştirebilir, ajanların düşünceleri ve hedefleri hakkında daha iyi bilgiler kazanabilirler.
Gelecekteki eğitim görünürlüğe zarar verebilir
Bir Mart 2025 gazetesiOpenai, “COT izlemenin geleceğin insanüstü modellerini denetlememiz gereken birkaç araçtan biri olabileceğini” belirtti. Şirket ayrıca COT’ta “kötü düşünceler” sergilemek için modellerin cezalandırılmasının bu düşünceleri ortadan kaldırmadığını buldu – sadece modellerin onları daha iyi gizlemesini sağladı.
Bu son makale bunu genişleterek daha fazla eğitimin bu bilgi kaynağını kesebileceğini söyledi. Karyola doğal dilde sunulduğundan, insanlar bunu anlayabilir; Modeller bu dilden çok uzaklaşırsa, bu anlayışları kaybederiz. Yazarlar, “Daha önceki araştırmalar, sonuç tabanlı ödüllerle ince ayarlanmış dil modellerinin okunaklı İngilizce’den uzaklaşabileceğini gösteriyor.”
Ayrıca: % 96’sı profesyoneller AI ajanlarının bir güvenlik riski olduğunu söylüyor, ancak yine de onları konuşlandırıyorlar
Geliştiriciler mimarlık modellerini ilerlettikçe, AI sistemleri o kadar sürekli genişleyebilir ki, sözsüz hale gelebilirler – bir tür dilden daha yüksek bir uçakta çalışıyorlar gibi.
Yazarlar, araştırmanın süreç denetimine veya bir modelin muhakemesini optimize etme eyleminin sürekli ilerlediğini ve karyolalarının sonuçlarına nasıl ulaştıklarını “daha az sadakatle yansıtmak” için uyarlamaya neden olabilir. Bu zararları gizleyebilir (ancak artı tarafta, akıl yürütme sürecinin güvenliğini de artırabilir).
Ayrıca: 100 önde gelen yapay zeka bilim adamı rotayı daha fazla ‘güvenilir, güvenilir, güvenli’ AI ile harita
Genel olarak, makalenin tavsiyesi, önemli bir güvenlik katmanına karşı ilerlemeyi modellemektedir. Tek bir katman tüm güvenlik sonu olmasa da-sağlam yaklaşımlar birçok kişinin kontrol ve dengeleme sistemi kullanıyor-araştırmacılar alabileceğimiz tüm katmanlara ihtiyacımız olduğunu iddia ediyorlar.
Uyarı
Yolyaşı izlemek mükemmel bir çözüm değildir; Gelecekteki modeller gözetime uyum sağlayabilir. “Bir mannequin, akıl yürütme izlerinin izlendiğini veya yardımcı bir eğitim hedefinin farkında olabilir […] Bir modelin, “endişe verici davranışı gizleyebilecek önemli akıl yürütme adımlarını kısaltmasına neden olabilir.
Ayrıca: Üretken AI’nız gizliliğinizi koruyor mu? Yeni çalışma onları en kötü şekilde sıralıyor
İlginç bir şekilde, COT gelecekteki riskleri de güçlendirebilir. AI modelleri, siber saldırılar gibi karmaşık eylemleri başarılı bir şekilde yürütmek veya sökülmüş veya eğitilmek karşısında kendilerini korumak için çok daha yüksek bir akıl yürütmeye ihtiyaç duyar. Bu, araştırmacıların çalışma belleği olarak adlandırılan şeyleri gerektirir: düşünce zincirinin etkili bir şekilde işlediği bilgileri saklamak ve tekrarlamak için bir yer.
Bu, COT’un bir tür çift kenarlı süper güç olduğu anlamına gelir: her ikisi de modellerin nasıl çalıştığını, bu da kötü niyetleri ortaya çıkarabilecek bir pencere sağlar ve onlara daha büyük, daha karmaşık ve riskli görevleri yerine getirmek için ihtiyaç duydukları aracı verir.
Ama bekleyin, daha fazlası var: Araştırmacılar hala modellerin en tehlikeli riskleri gerçekleştirmek için her zaman çalışma belleğine ihtiyaç duyup duymayacağını bilmiyorlar. Yazarlar, “Özellikle AI sistemleri daha yüksek bahisli görevlerle rutin olarak güvenilmeye başladıkça, tüm tehlikeli eylemler yürütülmesini gerekçe gerektirmeyecek.” Bu, COT izlemenin her uyarı işaretini yakalayamayacağı ve risklerin daha fazla özerk ajanların artmasına neden olduğu anlamına gelir.
Ayrıca: AI kullanımınızı daha iyi sonuçlar için değiştirmenin 5 hızlı yolu ve daha güvenli bir deneyim
Araştırmacılar, bir monitörün tamamen başarısız olmadığını kabul ederken, hala haydut AI sistemlerinden kaçınmak için değerli bir güvenlik yaklaşımıdır. Mannequin gelişimini nasıl etkileyen bu hala görülmelidir.
AI hakkında daha fazla hikaye ister misiniz? İnovasyon için kaydolunhaftalık bültenimiz.