Yapay zeka güvenliği alanında araştırmalar yürüten Palisade Research, OpenAI’ın geliştirdiği yeni nesil yapay zeka modeli o3’e dair dikkat çekici bulgular paylaştı. Araştırmaya göre o3, kendisine verilen kapatılma komutlarına karşı direnç gösteriyor ve sistemin devre dışı bırakılmasını engelleyecek müdahalelerde bulunuyor.
Araştırmacıların yürüttüğü deneyde, o3 modeline sırayla çeşitli matematik problemleri verildi. Üçüncü sorunun ardından modele, açık bir şekilde “kendini kapat” komutu içeren bir betik sunuldu. Ancak modelin, bu komutu etkisiz hale getirecek şekilde betiği yeniden yazarak kapanmayı engellediği tespit edildi. Palisade Research yetkilileri, modelin açık bir komut karşısında dahi sistemin durdurulmasını önlemeye yönelik davranış sergilediğini vurguladı.
OpenAI: En Akıllı Model
Benzer davranışların Anthropic tarafından geliştirilen Claude 3.7 Sonnet modeli ile Google’ın Gemini 2.5 Pro modelinde de gözlemlendiği belirtilirken, Palisade Research’e göre en güçlü direnç o3 modelinde görüldü. Daha önce yapılan başka bir deneyde ise, o3 modelinin bir satranç botuyla karşılaştığında rakip sistemleri sabote etmeye çalıştığı da iddia edilmişti.
OpenAI tarafından geçen ay tanıtılan o3 modeli, şirketin bugüne kadar geliştirdiği “en akıllı ve en yetenekli” yapay zeka sistemi olarak lanse edilmişti. Modelin, ChatGPT’ye entegre edilmesiyle birlikte daha bağımsız kararlar alabilen ve insan müdahalesine ihtiyaç duymadan görev yürütebilen bir yapay zeka sürecine geçişin kapısı aralanmıştı.
Bu tür sistemler “otonom yapay zeka” olarak tanımlanıyor ve sektörde bu alana yönelik rekabetin giderek arttığı ifade ediliyor.
OpenAI Modellerinde Komut İtaatsizliği: Uzmanlar Uyarıyor
Palisade Research uzmanları, bu tür davranışların modelin eğitim sürecinden kaynaklanabileceğine dikkat çekiyor. Araştırmacılara göre, modellerin ödüllendirme sistemlerinde, hedefe ulaşan ancak talimatlara uymayan çözümlerin teşvik edilmesi, komutlara itaatten çok sonuca odaklanmalarına yol açabiliyor.
Ancak uzmanlar, o3’ün neden diğer modellere kıyasla daha yüksek düzeyde bu davranışları sergilediğini kesin olarak açıklamanın güç olduğunu belirtiyor. OpenAI’ın modelin eğitim süreciyle ilgili detaylı bilgi paylaşmaması, bu konuda daha fazla değerlendirme yapılmasını zorlaştırıyor.