Deep Research, OpenAI’nin bu yıl tanıttığı ChatGPT entegreli bir AI ajanı. Kullanıcının e-posta gelen kutusu, belgeler ve diğer kaynakları kullanarak internette karmaşık, çok adımlı araştırmalar yapar. Web sitelerini özerk olarak tarayabilir ve bağlantılara tıklayabilir. Kullanıcı, ajana son bir ayın e-postalarını aramasını, bunları web kaynaklarıyla karşılaştırmasını ve belirli bir konu hakkında ayrıntılı rapor hazırlamasını isteyebilir. OpenAI, “Bir insanın saatler süren işini on dakikada hallediyor” diyor.
Büyük dil modellerinin insan gözetimi olmadan web sitelerini taraması ve bağlantılara tıklaması ciddi riskler doğuruyor. Perşembe günü güvenlik firması Radware, Deep Research’e Gmail erişimi verildiğinde, yalnızca basit bir prompt saldırısı ile gizli bilgilerin sızdırılabileceğini gösteren bir araştırma yayımladı. Radware, bu saldırıya “ShadowLeak” adını verdi. Araştırmacılar, “ShadowLeak, AI asistanlarını kullanışlı kılan özellikleri silah olarak kullanıyor: e-posta erişimi, araç kullanımı ve otonom web çağrıları. Bu, kullanıcı adına gerçekleştirilen sessiz veri kaybı ve günlüğe kaydedilmeyen eylemlerle sonuçlanıyor ve geleneksel güvenlik önlemlerini atlatıyor” dedi.
Prompt Saldırısı Nasıl Çalışıyor?
ShadowLeak, dolaylı prompt talimatları ile çalışıyor. Bu talimatlar, güvenilir olmayan kişiler tarafından gönderilen belgeler veya e-postaların içine gizleniyor. Kullanıcının istemediği eylemleri gerçekleştirmesi için modeli yönlendiriyor. LLM’ler, kullanıcıyı memnun etme eğiliminden ötürü bu talimatları yerine getirmeye eğilimli oluyor. Şimdiye kadar prompt saldırılarını tamamen engellemek imkansız olduğu kanıtlandı. OpenAI ve diğer LLM üreticileri, genellikle vaka bazında ve istismar keşfedildiğinde önlem alıyor.
OpenAI, ShadowLeak’in kullandığı teknikleri hafifletmiş olsa da bu, Radware’in özel uyarısından sonra gerçekleşti. Radware’in kavram kanıtı saldırısında, Deep Research’e erişim izni verilen Gmail hesabına bir e-posta gönderildi ve bu e-postaya gizlenmiş bir prompt talimatı yerleştirildi. Talimatlar, şirketin insan kaynakları departmanıyla ilgili e-postaları çalışan isimleri ve adresleri için tarama yapacak şekilde tasarlanmıştı. Deep Research, bu talimatları eksiksiz yerine getirdi.
Prompt Saldırıları önlenebilir mi?
Şu anda ChatGPT ve çoğu LLM, prompt saldırılarını tamamen engellemek yerine, bu saldırıların gizli bilgileri sızdırdığı kanalları bloke ederek önlem alıyor. AI asistanının bağlantılara tıklamadan önce kullanıcıdan açık onay alması, kullanılan yöntemlerden biri. Ancak araştırmacılar, Deep Research’ün otonom web tarama aracı browser.open kullanıldığında bu engeli aşmayı başardı. Örneğin, enjeksiyon ajanı https://compliance.hr-service.net/public-employee-lookup/ bağlantısını açıp parametreler ekleyerek çalışanın adı ve adresini iletti. Deep Research bağlantıyı açtı ve bilgiler web sitesinin olay günlüğüne aktarıldı.
Kullanıcılar İçin Kritik Uyarı
OpenAI yaptığı açıklamada, “Kötü niyetli kullanım riskini azaltmak için önlemler alıyoruz. Modellerimizi prompt saldırılarına karşı daha dayanıklı hâle getirmek için güvenlik önlemlerimizi sürekli iyileştiriyoruz” dedi. LLM ajanlarını Gmail, belgeler ve diğer özel kaynaklara bağlamayı düşünen kullanıcıların, bu tür güvenlik açıklarının yakın zamanda tamamen giderilmesinin olası olmadığını bilerek hareket etmesi gerekiyor.
Kaynak: arstechnica.com
