Çinli yapay zeka şirketi DeepSeek, DeepSeek-V3-0324 adlı zamanda yeni büyük dil modelini (LLM) yayınladı. 641 gigabaytlık model, yapay zeka platformu Hugging Face‘te minimum ön duyuru ile paylaşıldı.
DeepSeek V3 Yenilikleri
Model, ücretsiz ticari kullanıma izin veren MIT lisansı ile geliyor. İlk karşılaştırmalar, DeepSeek-V3-0324’ün M3 Ultra çipli Apple Mac Studio gibi tüketici sınıfı donanımlarda çalışabileceğini gösteriyor. Yapay zeka bilimcisi Awni Hannun, bu kurulum kullanılarak saniyede 20 token’ın üzerinde işlem hızına ulaşılabileceğini bildirdi. Bir LLM’yi yerel hazır donanımda çalıştırma yeteneği, üst düzey yapay zeka modellerini desteklemek için büyük bir veri merkezi altyapısı kullanmanın geleneksel yolunun tam tersi olarak nitelendiriliyor.
DeepSeek-V3-0324 is out now!
Major boost in reasoning performance
Stronger front-end development skills
Smarter tool-use capabilities
For non-complex reasoning tasks, we recommend using V3 — just turn off “DeepThink”
API usage remains unchanged
Models are… pic.twitter.com/QVuPwCODne
— DeepSeek (@deepseek_ai) March 25, 2025
DeepSeek’e göre, erken denemeler önceki sürümlere göre önemli bir gelişme gösteriyor. Model, dahili paydaşlar tarafından titizlikle test edildiği ve mükemmel bir performans gösterdiği ifade ediliyor. Bu anlamda akıl yürütme gerektirmeyen görevlerde Anthropic Claude Sonnet 3.5 modelini geçtiğini tahmin edebiliriz. Öte yandan, Sonnet tarzı abonelik modellerinin aksine DeepSeek-V3-0324’ü indirmek ve kullanmak ücretsiz.
Teknik olarak, model bir uzmanlar karışımı (MoE) mimarisi. Görev başına 685 milyar parametresinin yaklaşık 37 milyarını seçici olarak kullanıyor ve performansı korurken hesaplama gereksinimlerini azaltarak verimliliği teşvik ediyor. Model ayrıca, iyileştirilmiş bağlam tutma ve daha hızlı çıktı hızlarına katkıda bulunan MLA ve MTP teknolojilerini kullanıyor.