
Google DeepMind ekibi, Gemini 2.0 tabanlı Gemini Robotics ve Gemini Robotics-ER adlı iki yeni model ile robotik sektörüne giriş yaptı.
Google Gemini Robotics Neler Sunuyor?
Gemini Robotics, Gemini 2.0’a dayanan ve robotları kontrol etmek için yeni bir çıktı kipi olarak fiziksel eylemlerin eklendiği gelişmiş bir vizyon-dil-eylem (VLA) modeli olarak nitelendiriliyor. Google, bu yeni modelin eğitimde daha önce hiç görmediği durumları anlayabildiğini iddia ediyor.
Diğer vizyon-dil-eylem modelleriyle karşılaştırıldığında Gemini Robotics, kapsamlı bir genelleme kıyaslamasında 2 kat daha iyi performans gösteriyor. Gemini Robotics, Gemini 2.0 modeli üzerine inşa edildiğinden farklı dillerde doğal dil anlama yeteneklerine sahip. Bu nedenle model, insanların komutlarını çok daha iyi bir şekilde anlayabiliyor.
El becerisi tarafında Gemini Robotics’in hassas manipülasyon gerektiren son derece karmaşık, çok adımlı görevleri halledebileceği de iddia ediliyor. Örneğin, bu model origami katlama yapabiliyor veya bir atıştırmalığı kilitli poşete koyabiliyor.
Gemini Robotics-ER ise uzamsal muhakemeye odaklanan ve robotikçilerin onu mevcut düşük seviyeli kontrolörlerine bağlamasına olanak tanıyan gelişmiş bir görme-dil modeli. Bu modeli kullanarak robotikçiler bir robotu kutudan çıktığı anda kontrol etmek için gereken tüm adımlara sahip olacaklar. Buna algılama, durum tahmini, uzamsal anlayış, planlama ve kod üretiminin dahil olduğunu belirtelim.
Ek olarak Google, Gemini 2.0 modellerine dayalı insansı robotlar inşa etmek için Apptronik ile ortaklık kuruyor. Google ayrıca Gemini Robotics-ER’nin geleceği üzerinde Agile Robots, Agility Robotics, Boston Dynamics ve Enchanted Tools gibi seçkin güvenilir testçilerle de çalışıyor.
Bir yanıt yazın