Carnegie Mellon Üniversitesi'nden bir grup araştırmacı, yapay zeka ajanlarının iş dünyasında insan çalışanların yerini alıp alamayacağını test etmek amacıyla dikkat çekici bir deney gerçekleştirdi.
Tamamen yapay zeka ajanlarının görev aldığı sanal bir şirket kuran ekip, bu ajanların performansını detaylı biçimde inceledi.
Yapay zeka ajanlarının performansı nasıl değerlendirildi?
Elde edilen sonuçlar, son dönemde sıkça tartışılan 'yapay zeka işimizi elimizden alacak mı?' sorusuna önemli bir yanıt sundu.
Araştırmanın bulguları, yapay zeka teknolojisinin iş dünyasında bağımsız ve otonom bir şekilde çalışabilmesi için hâlâ önemli eksiklikleri olduğunu gösterdi.
Sanal şirketin yapay zeka ajanları
Yapay zeka ajanları, deney kapsamında finansal analist, proje yöneticisi ve yazılım mühendisi gibi çeşitli pozisyonlarda görevlendirildi.
Claude, GPT-4o, Gemini, Nova, Llama ve Qwen gibi önde gelen yapay zeka modelleri, şirketin farklı departmanlarında çalıştı.
Deneyin sonuçları neyi ortaya koydu?
Araştırmacılar, ajanların hem bireysel hem de ekip olarak üstlendikleri görevlerde ne kadar başarılı olduklarını ölçmek için çok sayıda iş tanımı belirledi.
Görevler arasında veri tabanı analizinden sanal ofis turu düzenlemeye kadar geniş bir yelpaze yer aldı.
Ancak sonuçlar, yapay zeka ajanlarının görevlerinin üçte birinden fazlasında başarısız olduğunu ortaya koydu.
Özellikle Claude 3.5 Sonnet, en yüksek başarı oranına sahip olmasına rağmen, yalnızca görevlerinin yüzde 24'ünü tam anlamıyla tamamlayabildi.
Başarı oranları ve maliyet analizi
Kısmi başarılar da hesaba katıldığında bu oran yüzde 34,4'e yükseldi.
Gemini 2.0 Flash ise yüzde 11,4'lük oranla ikinci sırada yer aldı.
Diğer ajanların ise yüzde 10'un altında kaldığı görüldü.
Bu veriler, yapay zeka ajanlarının iş dünyasında henüz insan çalışanların yerini dolduracak düzeyde olmadığını net biçimde ortaya koydu.
Yapay zeka ajanlarının karşılaştığı zorluklar nelerdir?
Deney sırasında yapay zeka ajanlarının en çok zorlandığı konuların başında, karmaşık talimatları doğru yorumlayamama ve iletişim gerektiren görevlerde yetersiz kalma geldi.
Örneğin, bir dosyanın '.docx' formatında kaydedilmesi istendiğinde, bazı ajanlar bu talimatı doğru şekilde uygulayamadı.
Ayrıca, iş arkadaşlarıyla iletişim kurmayı gerektiren durumlarda ve sosyal akıl yürütme gerektiren görevlerde de ciddi sorunlar yaşandı.
Web taraması sırasında karşılaşılan açılır pencereler gibi beklenmedik durumlar ise, yapay zeka ajanlarının süreci atlamasına ve görevleri eksik tamamlamasına neden oldu.
Maliyet açısından değerlendirme
Araştırmacılar, bu tür başarısızlıkların temelinde, mevcut yapay zeka teknolojisinin insan yargısı, yaratıcılığı ve esnekliğiyle boy ölçüşememesinin yattığını belirtti.
Maliyet açısından bakıldığında ise, Claude 3.5 Sonnet'in 6,34 dolarlık operasyonel giderle en pahalı ajan olduğu, buna karşılık Gemini 2.0 Flash'ın yalnızca 0,79 dolarlık bir maliyete sahip olduğu tespit edildi.
Ancak düşük maliyet, başarı oranını artırmaya yetmedi.
İş dünyasında yapay zeka teknolojisinin geleceği neyi ifade ediyor?
Bu deneyin sonuçları, yapay zeka teknolojisinin iş dünyasında belirli ve dar kapsamlı görevlerde faydalı olabileceğini, ancak bağımsız ve otonom bir şekilde çalışabilmesi için daha uzun bir yol kat etmesi gerektiğini gösterdi.
Araştırmacılar, insan çalışanların yargı yeteneği, yaratıcılığı ve değişen koşullara uyum sağlama becerisinin, günümüz iş dünyasında hâlâ vazgeçilmez olduğunu vurguladı.
Yapay zeka ajanlarının mevcut haliyle, karmaşık ve çok aşamalı iş süreçlerinde insan desteğine ihtiyaç duyduğu ortaya çıktı.
Bu bulgular, işini yapay zekaya kaptırma endişesi taşıyan çalışanlar için bir nebze olsun rahatlatıcı olabilir.
Çünkü mevcut durumda, yapay zeka teknolojisi insanın yerini tamamen alacak seviyede değil.
