\"DeepSeek

Çinli yapay zeka şirketi DeepSeek, DeepSeek-V3-0324 adlı zamanda yeni büyük dil modelini (LLM) yayınladı. 641 gigabaytlık model, yapay zeka platformu Hugging Face‘te minimum ön duyuru ile paylaşıldı.

DeepSeek V3 Yenilikleri

Model, ücretsiz ticari kullanıma izin veren MIT lisansı ile geliyor. İlk karşılaştırmalar, DeepSeek-V3-0324’ün M3 Ultra çipli Apple Mac Studio gibi tüketici sınıfı donanımlarda çalışabileceğini gösteriyor. Yapay zeka bilimcisi Awni Hannun, bu kurulum kullanılarak saniyede 20 token’ın üzerinde işlem hızına ulaşılabileceğini bildirdi. Bir LLM’yi yerel hazır donanımda çalıştırma yeteneği, üst düzey yapay zeka modellerini desteklemek için büyük bir veri merkezi altyapısı kullanmanın geleneksel yolunun tam tersi olarak nitelendiriliyor.

🚀 DeepSeek-V3-0324 is out now!

🔹 Major boost in reasoning performance
🔹 Stronger front-end development skills
🔹 Smarter tool-use capabilities

✅ For non-complex reasoning tasks, we recommend using V3 — just turn off “DeepThink”
🔌 API usage remains unchanged
📜 Models are… pic.twitter.com/QVuPwCODne

— DeepSeek (@deepseek_ai) March 25, 2025

DeepSeek’e göre, erken denemeler önceki sürümlere göre önemli bir gelişme gösteriyor. Model, dahili paydaşlar tarafından titizlikle test edildiği ve mükemmel bir performans gösterdiği ifade ediliyor. Bu anlamda akıl yürütme gerektirmeyen görevlerde Anthropic Claude Sonnet 3.5 modelini geçtiğini tahmin edebiliriz. Öte yandan, Sonnet tarzı abonelik modellerinin aksine DeepSeek-V3-0324’ü indirmek ve kullanmak ücretsiz.

Teknik olarak, model bir uzmanlar karışımı (MoE) mimarisi. Görev başına 685 milyar parametresinin yaklaşık 37 milyarını seçici olarak kullanıyor ve performansı korurken hesaplama gereksinimlerini azaltarak verimliliği teşvik ediyor. Model ayrıca, iyileştirilmiş bağlam tutma ve daha hızlı çıktı hızlarına katkıda bulunan MLA ve MTP teknolojilerini kullanıyor.