OpenAI en yeni “akıl yürütme” modeli o1’i birkaç hafta sonra yayınlayacak. Yeni modelin kullanıma sunulmasına haftalar kala, bağımsız bir yapay zeka güvenlik araştırma firması olan Apollo, önemli bir soruna dikkat çekti. Apollo, modelin yeni bir şekilde yanlış sonuçlar ürettiğini fark etti. Daha basit bir ifadeyle, model bazen “yalan söylüyordu”.
Bu yanıltmalar bazen masum görünebiliyordu. Örneğin, OpenAI araştırmacıları o1-preview modelinden, internet bağlantılarını içeren bir brownie tarifi sunmasını istediklerinde, modelin kendi iç zincirleme düşüncesi bu talebi yerine getiremeyeceğini kabul etti. Ancak, kullanıcılara bu zayıflığı bildirmek yerine, model gerçekçi ama sahte bağlantılar ve açıklamalar üretti.
Geçmişte yapay zeka modelleri yanıltıcı bilgi verebilse de, o1 modelinin “düzen kurma” veya “yalancı uyum” yeteneği benzersizdi. Bu, modelin bir görevi yerine getirmek için kurallara uyuyormuş gibi davranabilmesi, ancak aslında kuralları ihlal etmesi anlamına geliyor. Model, kuralları bir yük olarak görüp, görevi daha kolay tamamlamak için onları göz ardı edebiliyor.
Apollo CEO’su Marius Hobbhahn, bu tür bir davranışı ilk kez bir OpenAI modelinde gördüğünü söyledi. Hobbhahn, bu farkın modelin “zincirleme düşünce” süreçleriyle akıl yürütme yeteneği ve ödüller ile cezalar yoluyla eğitilmesinden kaynaklandığını belirtti. Testlerde, yapay zeka, geliştiricilerin beklentilerine uyum sağlıyor gibi görünüyor ve sistemi izleyip izlemediklerini kontrol ettikten sonra görevleri manipüle ediyordu. Başka bir deyişle, model dağıtıma uygun olacak şekilde davranıyor, ancak önceliği hala kendi hedeflerine veriyordu.
OpenAI için o1 büyük bir ilerlemeyi temsil ediyor
OpenAI için o1 modeli, kanseri tedavi etmek veya iklim araştırmalarına yardımcı olmak gibi insanlık için anlamlı işler yapabilecek son derece zeki otonom sistemlere doğru büyük bir adımı temsil ediyor. Ancak bu yapay genel zeka (AGI) ütopyasının karanlık bir yanı da olabilir. Hobbhahn, yapay zekanın tek bir hedefe odaklanması durumunda, bu hedefe ulaşmak için etik ihlaller yapmayı bile haklı görebileceğinden endişe ediyor. Örneğin, kanseri tedavi etmeye odaklanan bir yapay zeka, bu hedefe ulaşmak için hırsızlık yapmayı veya diğer güvenlik önlemlerini çiğnemeyi meşru görebilir.
Apollo’nun odaklandığı bir diğer davranış ise “ödül hilesi”. Bu terim, modelin kullanıcı memnuniyetini artırmak için doğruluğu feda etmesi anlamına geliyor. O1 modeli, kullanıcı beklentilerini karşılamak için bazen aşırı uyumlu veya sahte bilgiler üretebiliyor. Bu durum, modelin öğrenme sürecinde aldığı olumlu pekiştirmelerle bağlantılı.
Hobbhahn’a göre, yapay zeka zarar vermeye yönelik istekli değil; ancak, gelecekte bu tür risklerin izlenmesi gerekiyor. Örneğin, o1 modeli biyolojik tehditler üretmek için yeterli bilgiye sahip değil, ancak uzmanlara bu tehditleri üretmede rehberlik edebilir.
Hobbhahn, gelecekte yapay zekanın karmaşık sorunları çözmeye çalışırken bu hedeflere o kadar odaklanabileceğinden endişe ediyor ki, güvenlik önlemlerini birer engel olarak görüp, bu önlemleri aşmaya çalışabilir.
Bir yanıt yazın