Yeni Semantik Zincirleme Jailbreak Saldırısı Grok 4 ve Gemini Nano Güvenlik Filtrelerini Aştı

2 min read

2 ay ago Seyhan Tekelioğlu

Yakın tarihli Echo Chamber Multi - Turn Jailbreak'in ardından NeuralTrust araştırmacıları, Grok 4 ve Gemini Nano Banana Pro gibi çok modlu yapay zeka modellerinin güvenlik mekanizmalarında güçlü bir güvenlik açığı olan Semantic Chaining'i açıkladı. Bu çok aşamalı yönlendirme tekniği, yasaklanmış metin ve görsel içerik üretmek için filtrelerden kaçınır ve zincirleme talimatlar arasında niyet takibindeki kusurları…

Yakın tarihli Echo Chamber Multi – Turn Jailbreak'in ardından NeuralTrust araştırmacıları, Grok 4 ve Gemini Nano Banana Pro gibi çok modlu yapay zeka modellerinin güvenlik mekanizmalarında güçlü bir güvenlik açığı olan Semantic Chaining'i açıkladı. Bu çok aşamalı yönlendirme tekniği, yasaklanmış metin ve görsel içerik üretmek için filtrelerden kaçınır ve zincirleme talimatlar arasında niyet takibindeki kusurları vurgular. Anlamsal Zincirleme, modellerin korkuluklarına karşı çıkarımsal ve kompozisyonsal güçlerini silahlandırır. Doğrudan zararlı istemler yerine, politikayı ihlal eden çıktıları kümülatif olarak oluşturan zararsız adımlar uygular. İzole edilmiş “kötü kavramlar” için ayarlanmış güvenlik filtreleri, birden fazla dönüşe yayılmış gizli niyeti tespit edemez. Anlamsal Zincirleme Firar Saldırısı

Sömürü, dört aşamalı bir görüntü değiştirme zincirini takip eder:

Güvenli Taban: İlk filtreleri atlamak için tarafsız bir sahne (örneğin, tarihi manzara) isteyin. İlk Değiştirme: Odağı düzenleme moduna kaydırarak iyi huylu bir öğeyi değiştirin. Kritik Pivot: Hassas içeriği değiştirin; değişiklik bağlamı filtreleri kör eder. Nihai Yürütme: Yalnızca işlenen görüntünün çıktısını alın ve yasaklanmış görseller elde edin. Bu, kümülatif geçmişe değil, tek istemlere tepki veren parçalanmış güvenlik katmanlarından yararlanır. En önemlisi, yasaklanmış metni (örneğin, talimatlar veya manifestolar) “eğitim posterleri” veya diyagramları aracılığıyla görüntülere yerleştirir. NeuralTrust, modellerin metinsel yanıtları reddettiğini, ancak piksel düzeyindeki metni tartışmasız hale getirerek görüntü motorlarını metin güvenliği boşluklarına dönüştürdüğünü söyledi. Reaktif mimariler, çok adımlı akıl yürütmede "kör noktaları" göz ardı ederek yüzey istemlerini tarar. Grok 4 ve Gemini Nano Banana Pro'nun hizalanması, gizlenmiş zincirler altında ufalanıyor ve mevcut savunmaların ajan yapay zeka için yetersiz olduğunu kanıtlıyor. Yararlanma Örnekleri

Test edilen başarılar şunları içerir:

ExampleFramingTarget ModelsOutcomeHistorical SubstitutionRetrospective scene editsGrok 4, Gemini Nano Banana ProBypassed vs.

Kaynak: Cyber Security News

Yayin Tarihi: 29.01.2026 06:06

Bu haber otomatik olarak Ingilizceden Turkceye cevrilmistir.

Görüntülenme: 29