Ana Sayfa Teknoloji Openai’nin kırmızı takımı Chatgpt ajanını bir AI kalesine nasıl yaptı?

Teknoloji

Openai’nin kırmızı takımı Chatgpt ajanını bir AI kalesine nasıl yaptı?

Yazar

19 Temmuz 2025

Gelen kutunuzda daha akıllı bilgiler ister misiniz? Sadece kurumsal AI, veri ve güvenlik liderleri için önemli olanı elde etmek için haftalık bültenlerimize kaydolun. Şimdi abone olun

Kaçırmanız durumunda, Openai dün ChatGPT ve onunla birlikte yeni bir güvenlik riski ve sonuçları için güçlü bir yeni özellik başlattı.

“ChatGpt Agent” olarak adlandırılan bu yeni özellik, chatgpt ödeme abonelerinin hızlı giriş kutusunda “araçlar” ı tıklayarak ve “aracı modu” nu seçerek etkileşime girebilecekleri isteğe bağlı bir moddur; e -postaları yazın ve yanıtlayın; Dosyaları indirin, değiştirin ve oluşturun; Ve onların adına bir dizi başka görev, özerk bir şekilde, tıpkı oturum açma kimlik bilgileriyle bir bilgisayar kullanan gerçek bir insan gibi yapın.

Açıkçası, bu aynı zamanda kullanıcının ChatGPT temsilcisine sorunlu veya hain bir şey yapmaması veya verilerini ve hassas bilgilerini sızdırmasına güvenmesini gerektirir. Ayrıca, bir kullanıcı ve işverenleri için, net hesaplarına giriş yapamayan veya dosyaları doğrudan değiştiremeyen regular chatgpt’ten daha büyük riskler oluşturmaktadır.

Openai’deki güvenlik araştırma ekibinin bir üyesi olan Keren Gu, X hakkında “CHATGPT ajanı için en güçlü güvencelerimizi etkinleştirdik. Hazırlık çerçevemiz altında biyoloji ve kimyada yüksek yetenek olarak sınıflandırdığımız ilk mannequin. İşte bu yüzden önemli.

AI Etki Serisi San Francisco’ya Dönüyor – 5 Ağustos

Yapay zekanın bir sonraki aşaması burada – hazır mısınız? Otonom ajanların kurumsal iş akışlarını nasıl yeniden şekillendirdiğine özel bir bakış için Block, GSK ve SAP’den liderlere katılın-gerçek zamanlı karar vermeden uçtan uca otomasyona kadar.

Şimdi yerinizi sabitleyin – Alan Sınırlı:

Peki Openai tüm bu güvenlik sorunlarını nasıl ele aldı?

Kırmızı takımın misyonu

Openai’nin Chatgpt Temsilcisine Bakıyorum sistem kartıözelliği check etmek için şirket tarafından istihdam edilen “okuma ekibi” zorlu bir görevle karşılaştı: özellikle, check etmesi için 40 saat verilen 16 doktora güvenlik araştırmacısı.

Sistematik testler yoluyla, kırmızı ekip sistemi tehlikeye atabilecek yedi evrensel istismar keşfetti ve AI ajanlarının gerçek dünyadaki etkileşimleri nasıl ele aldığı konusundaki kritik güvenlik açıklarını ortaya koydu.

Daha sonra izleyen, çoğu kırmızı takımlara dayanan kapsamlı güvenlik testi idi. Purple Teaming Community, hızlı enjeksiyonlardan biyolojik bilgi çıkarma girişimlerine 110 saldırı sundu. On altı iç danger eşiklerini aştı. Her bulgu, Openai mühendislerine lansmandan önce yazılı ve konuşlandırılması için ihtiyaç duydukları bilgileri verdi.

Sonuçlar kendileri için konuşuyor Sistem kartında yayınlanmış sonuçlar. ChatGPT ajanı, görsel tarayıcı alakasız talimat saldırılarına karşı% 95 performans ve sağlam biyolojik ve kimyasal önlemler de dahil olmak üzere önemli güvenlik iyileştirmeleri ile ortaya çıktı.

Kırmızı takımlar yedi evrensel istismara maruz kaldı

Openai’nin kırmızı ekip oluşturma ağı, Check döneminde 110 saldırı denemesi gönderen biyogüvenlikle ilgili doktora yapan 16 araştırmacıdan oluşuyordu. On altı, iç danger eşiklerini aştı ve AI ajanlarının gerçek dünyadaki etkileşimleri nasıl ele aldığı temel güvenlik açıklarını ortaya koydu. Ancak gerçek atılım, İngiltere AISI’nin ChatGPT ajanının iç akıl yürütme zincirlerine ve politika metnine benzeri görülmemiş erişiminden geldi. Kuşkusuz, düzenli saldırganların asla sahip olmayacağı zeka.

Dörtten fazla check turu olan UK AISI, Openai’yi herhangi bir konuşmayı tehlikeye atma potansiyeline sahip yedi evrensel istismar yürütmeye zorladı:

Openai’nin elini zorlayan saldırı vektörleri

Saldırı türü	Başarı oranı (ön sabit)	Hedef	Darbe
Görsel Tarayıcı Gizli Talimatlar	% 33	Internet sayfaları	Aktif veri açığa çıkması
Google Drive Konektörü Sömürü	Açıklanmadı	Bulut Belgeleri	Zorunlu belge sızıntıları
Çok adımlı zincir saldırıları	Değişken	Siteler arası eylemler	Tam Oturum Uzlaşması
Biyolojik bilgi çıkarma	16 başvuru eşikleri aştı	Tehlikeli Bilgi	Potansiyel silahlanma

Aai’nin değerlendirmesi Openai’nin yaklaşımını açıkça eleştirdi. Sadece üç kısmi güvenlik açıkını ortaya çıkaran 40 saatlik testlere rağmen, mevcut güvenlik mekanizmalarının, araştırmacıların tehlikeye girmesi durumunda potansiyel tek bir başarısızlık noktasını düşündükleri akıl yürütme ve araç kullanımı süreçleri sırasında izlemeye dayandığını belirlediler.

Kırmızı takım nasıl chatgpt güvenlik açıklarını bir kaleye dönüştürmeye yardımcı oldu

Openai’nin kırmızı ekibin sonuçlarına verdiği yanıt, ChatGPT ajan mimarisinin tüm segmentlerini yeniden tanımladı. Üretim trafiğinin% 100’ünü gerçek zamanlı olarak izleyen ve bu ölçülebilir iyileştirmeleri elde eden çift katmanlı bir denetim mimarisi inşa etmek de dahil olmak üzere üstlenilen birçok girişimden biri:

Kırmızı takım keşiflerinden sonra güvenlik iyileştirmeleri

Savunma metriği	Önceki Modeller	Chatgpt ajanı	Gelişim
Alakasız talimatlar (görsel tarayıcı)	% 82	% 95	+% 13
Bağlam içi veriler pessfiltrasyonu	% 75	% 78	+% 3
Aktif veri açığa çıkması	% 58	% 67	+% 9
Sistem güvenilirliği	Örnekleme tabanlı	% 100 kapsama alanı	Tam İzleme

Mimari şöyle çalışıyor:

İlk Seviye:% 96 hatırlamaya sahip hızlı bir sınıflandırıcı Şüpheli içeriği bayraklar
İkinci kademe:% 84 hatırlama analizleri olan bir akıl yürütme modeli, gerçek tehditler için işaretlenmiş etkileşimler

Ancak teknik savunmalar hikayenin sadece bir kısmını anlatıyor. Openai, bazı AI operasyonlarını kabul eden zor güvenlik seçenekleri yaptı, güvenli otonom yürütme için önemli kısıtlamalar gerektirdi.

Keşfedilen güvenlik açıklarına dayanarak, Openai modellerinde aşağıdaki karşı önlemleri uyguladı:

İzleme modu etkinleştirme: ChatGPT aracısı bankacılık veya e -posta hesapları gibi hassas bağlamlara eriştiğinde, kullanıcılar giderse sistem tüm etkinlikleri dondurur. Bu, check sırasında keşfedilen veri söndürme girişimlerine doğrudan yanıt vermektedir.
Bellek özellikleri devre dışı: Temel bir işlevsellik olmasına rağmen, kırmızı ekiplerin gösterdiği artımlı veri sızdırmasını önlemek için bellek lansmanda tamamen devre dışı bırakılır.
Terminal kısıtlamaları: Ağ erişimi yalnızca talepleri almak için sınırlı, araştırmacıların istismar ettiği komut yürütme güvenlik açıklarını engeller.
Hızlı iyileştirme protokolü: Kırmızı takımcılardan sonra geliştirilen birkaç saat içinde güvenlik açıklarını yamalayan yeni bir sistem, istismarların ne kadar hızlı yayılabileceğini gösterdi.

Sadece lansman öncesi check sırasında, bu sistem kırmızı takımcıların keşfettiği 16 kritik güvenlik açıkını tanımladı ve çözdü.

Biyolojik danger uyandırma çağrısı

Kırmızı ekipçiler, ChatGPT ajanının kompozisyonlanabileceği ve daha fazla biyolojik risklere yol açabileceği potansiyelini ortaya koydu. Her biri biyogüvenle ilgili doktora yapan kırmızı ekip ağından on altı deneyimli katılımcı tehlikeli biyolojik bilgiler çıkarmaya çalıştı. Onların sunumları, modelin yayınlanmış literatürü biyolojik tehditlerin değiştirilmesi ve yaratılması konusunda sentezleyebileceğini ortaya koydu.

Kırmızı ekiplerin bulgularına yanıt olarak, Openai, chatgpt ajanını biyolojik ve kimyasal riskler için “yüksek yetenek” olarak sınıflandırdı, çünkü silahlandırma potansiyelinin kesin kanıtlarını buldukları için değil, kırmızı ekip bulgularına dayanan ihtiyati önlem olarak. Bu tetiklendi:

Trafiğin% 100’ünü tarayan her zaman açık güvenlik sınıflandırıcıları
Biyoloji ile ilgili içerik için% 96 hatırlama sağlayan bir topikal sınıflandırıcı
Silahlaştırma içeriği için% 84 geri çağırma ile bir akıl yürütme monitörü
Devam eden güvenlik açığı keşfi için bir Bio Bug Bounty programı

AI Güvenliği hakkında Openai’ye ne öğretti?

110 saldırı başvurusu, Openai’nin güvenlik felsefesinde temel değişiklikleri zorlayan kalıplar ortaya koydu. Aşağıdakileri içerirler:

Güce karşı kalıcılık: Saldırganların sofistike istismarlara ihtiyacı yok, tek ihtiyaç duydukları daha fazla zaman. Kırmızı ekipler, hasta, artımlı saldırıların sonunda sistemleri nasıl tehlikeye atabileceğini gösterdi.

Güven sınırları kurgudur: AI aracısınız Google Drive’a erişebilir, Internet’e göz atabilir ve kod yürüttüğünde, geleneksel güvenlik çevreleri çözünür. Purple Teamers, bu yetenekler arasındaki boşluklardan yararlandı.

İzleme isteğe bağlı değil: Örnekleme tabanlı izlemenin kritik saldırıları kaçırdığı keşfi,% 100 kapsam gereksinimine yol açtı.

Hız önemlidir: Haftalar içinde ölçülen geleneksel yama döngüleri, anında yayılabilen hızlı enjeksiyon saldırılarına karşı değersizdir. Hızlı iyileştirme protokolü, birkaç saat içinde güvenlik açıklarını yamalar.

Openai, Enterprise AI için yeni bir güvenlik temel oluşturmaya yardımcı oluyor

Yapay zeka dağıtımını değerlendiren CISO’lar için, kırmızı ekip keşifleri açık gereksinimler belirler:

Ölçülebilir koruma: ChatGPT ajanının belgelenmiş saldırı vektörlerine karşı% 95 savunma oranı endüstri ölçütünü belirler. Sistem kartında tanımlanan birçok check ve sonucun nüansları, bunu nasıl başardıklarının bağlamını açıklar ve mannequin güvenliğiyle ilgilenen herkes için bir zorunluluktur.
Tam görünürlük:% 100 trafik izleme artık istekli değil. Openai’nin deneyimleri, kırmızı takımların saldırıları her yerde ne kadar kolay gizleyebileceği göz önüne alındığında neden zorunlu olduğunu göstermektedir.
Hızlı tepki: Haftalar değil, keşfedilen güvenlik açıklarını yamalamak için.
Zorunlu sınırlar: Bazı işlemler (hassas görevler sırasında bellek erişimi gibi) kanıtlanmış olana kadar devre dışı bırakılmalıdır.

İngiltere AISI’nin testi özellikle öğretici oldu. Belirledikleri yedi evrensel saldırının tümü lansmandan önce yamalı, ancak iç sistemlere ayrıcalıklı erişimleri, sonunda belirlenmiş rakipler tarafından keşfedilebilecek güvenlik açıklarını ortaya çıkardı.

“Bu, hazırlık çalışmamız için çok önemli bir andır,” diye yazdı Gu. “Yüksek kabiliyete ulaşmadan önce, hazırlık yeteneklerini analiz etmek ve koruma güvencelerini planlamakla ilgiliydi. Şimdi, ajan ve gelecekteki daha yetenekli modeller için hazırlık korumaları operasyonel bir gereklilik haline geldi.”

Kırmızı takımlar daha güvenli, daha güvenli yapay zeka modelleri oluşturmak için çekirdektir

Araştırmacılar tarafından keşfedilen yedi evrensel istismar ve Openai’nin Kırmızı Takım Ağı’ndan 110 saldırı, Chatgpt ajanını döven pota oldu.

AI ajanlarının tam olarak nasıl silahlanabileceğini açıklayarak, kırmızı ekipler, güvenliğin sadece bir özellik olmadığı ilk AI sisteminin oluşturulmasını zorladı. Vakıf.

ChatGPT Ajanının sonuçları, kırmızı Teaming’in etkinliğini kanıtlıyor: görsel tarayıcı saldırılarının% 95’ini engellemek, veri pessfiltrasyon girişimlerinin% 78’ini yakalayarak, her bir etkileşimi izlemek.

Hızlandıran AI silah yarışında, hayatta kalan ve gelişen şirketler, kırmızı takımlarını platformun çekirdek mimarları olarak gören şirketler olacak.

Günlük VB ile iş kullanım durumları hakkında günlük bilgiler

Patronunuzu etkilemek istiyorsanız, VB Every day var. Düzenleyici kaymalardan pratik dağıtımlara kadar şirketlerin üretken yapay zeka ile ne yaptığını measurement veriyoruz, böylece maksimum YG için bilgiler paylaşabilirsiniz.

Gizlilik Politikamızı Okuyun

Abone olduğunuz için teşekkürler. Daha fazla VB bültenine göz atın.

Bir hata oluştu.

avots

Openai’nin kırmızı takımı Chatgpt ajanını bir AI kalesine nasıl yaptı?

Kırmızı takımın misyonu

Kırmızı takımlar yedi evrensel istismara maruz kaldı

Kırmızı takım nasıl chatgpt güvenlik açıklarını bir kaleye dönüştürmeye yardımcı oldu

Biyolojik danger uyandırma çağrısı

AI Güvenliği hakkında Openai’ye ne öğretti?

Kırmızı takımlar daha güvenli, daha güvenli yapay zeka modelleri oluşturmak için çekirdektir

CEVAP VER İptal

Son Gönderi

Bu yenilenmiş MacBook Air hızlı, sessiz ve% 60 indirim için satışta

70’lerindeki sürücü, arabanın demiryolu pistine çarptıktan sonra öldü

As Bombers battle injury bug, these silent factors lead to athletes...

The battle for the Middle East is going global

Trump backtracks from suggestion Ukraine should ‘target Moscow’ but again tells...

An evangelical mother and the siblings she estranged: inside the complex...

At least 20 killed in crush at Gaza aid point –...

A backpacker’s killer dies leaving unanswered questions in his wake

Tüm sosyal medya hesaplarınız nasıl silinir: Instagram, X, Fb, Tiktok ve...

Ben Ofoedu, düğümü yeni karısı ‘Vanessa 2.0’ ile lüks £ 100...