Yapay zeka dil modelleri alanında, OpenAI’nin ChatGPT’si yakın zamanda tanıttığı ses ve görüntü özellikleriyle sınırları zorlamaya devam ederken, bu özellikleri ve potansiyel faydalarını, altta yatan teknolojileri ve OpenAI’nin güvenlik yaklaşımını inceleyelim.
ChatGPT artık sesli etkileşimleri destekliyor ve kullanıcılara yapay zeka asistanıyla dinamik konuşmalar yapma olanağı sunuyor. Düz metin ve kısa bir konuşma örneğinden son derece insan benzeri ses üretebilen yeni bir “metinden-sese”(text-to-speech) modeli ile çok yönlü ve kullanıcı dostu hale gelen bu teknolojiye ek olarak OpenAI, beş farklı ses oluşturmak için profesyonel seslendirme sanatçılarıyla işbirliği yaparak konuşma deneyimini geliştirdi.
Görsel taraftaki gelişmelerde ise, yeni keşfedilen görüntü işleme yeteneği ile kullanıcılar artık sorunları gidermek, görsel içeriği keşfetmek veya karmaşık verileri analiz etmek için bir veya daha fazla görüntüyü yapay zeka ile paylaşabiliyor. Ayrıca, mobil uygulamada kullanılabilen çizim aracı, kullanıcıların bir görüntüdeki belirli ilgi alanlarını vurgulamasına olanak tanıyarak etkileşimleri daha hassas hale getiriyor. Bu görüntü anlama özelliği, dil becerilerini fotoğraflar, ekran görüntüleri ve metin ve görüntü içeren belgeler de dahil olmak üzere çok çeşitli görüntülere uygulayan GPT-3.5 ve GPT-4 gibi gelişmiş modeller tarafından desteklenmektedir.
Yapay zeka dil modellerinde önemli bir sıçrama anlamına gelen bu yetenekler, iletişim ve problem çözme için en son teknolojiyle desteklenen yeni olanaklar sunuyor. Şu anda, ses ve görüntü özellikleri Plus ve Enterprise kullanıcılarına sunuluyor ve yakın gelecekte geliştiricilere ve diğer kullanıcı gruplarına erişimin genişletilmesi planlanıyor.
Kaynak: https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
Bir yanıt yazın