Alibaba, Qwen3 ile sektör liderlerine meydan okuyor
Investing.com — Alibaba Group Holdings Ltd ADR (NYSE:BABA) Salı günü yeni nesil büyük dil modeli serisi Qwen3’ü tanıttı. Şirket böylece yapay zeka ürünlerini çeşitli model boyutları ve mimarileriyle genişletti. Bu seri, 0,6 milyardan 235 milyar parametreye kadar uzanan sekiz açık ağırlıklı modeli içeriyor. Bunların altısı yoğun, ikisi ise uzman karışımı (MoE) modellerdir.
Amiral gemisi model olan Qwen3-235B-A22B, kodlama, matematik ve genel görevlerdeki kıyaslama testlerinde DeepSeek-R1, Grok-3 ve Gemini-2.5-Pro gibi önde gelen modellerle rekabet edebilecek bir performans gösterdi. Qwen3-30B-A3B gibi daha küçük modeller de daha fazla parametre içeren modelleri geride bıraktı. Bu durum, yapı ve eğitimde verimlilik artışına işaret ediyor.
Ön eğitimli ve eğitim sonrası varyantlar dahil tüm modeller Hugging Face, ModelScope ve Kaggle üzerinden kamuya açık şekilde erişilebilir durumda. Alibaba, dağıtım için SGLang ve vLLM’yi öneriyor. Yerel kullanıcılar ise LMStudio, llama.cpp ve KTransformers gibi araçları kullanarak Qwen3’ü çalıştırabilir.
Qwen3, ölçeklenebilir ve uyarlanabilir performans sunuyor. Kullanıcılar hesaplama bütçelerini doğruluk ve kaynak maliyeti arasında denge kuracak şekilde ayarlayabilir. Bu esneklik, yapay zekayı tüketici veya kurumsal iş akışlarına entegre eden geliştiricilerin giderek çeşitlenen taleplerini karşılamayı amaçlıyor.
Bu modeller 119 dil ve lehçeyi destekliyor. Bu sayı, bir önceki model olan Qwen2.5’in kapsadığı dil sayısının üç katı. Bu geniş çok dilli yetenek, Qwen3’ü zengin dilsel çeşitliliğe sahip gelişmekte olan bölgeler dahil küresel pazarlarda benimsenmek için avantajlı konuma getiriyor.
Qwen3 modelleri, kodlama ve aracı işlevlerde ilerlemeler gösteriyor. Model-koşullu komut verme (MCP) ile daha derin entegrasyon için geliştirilmiş durumda. Bu iyileştirmeler, otonom ajanlar ve daha yüksek hassasiyete sahip geliştirici araçları gibi sofistike uygulamaları destekliyor.
Seri, STEM, muhakeme, kitaplar ve sentetik veri setleri dahil yüksek kaliteli kaynaklardan oluşan 36 trilyon token üzerinde eğitildi. Bu veri yükseltmesi, dil anlama, programlama yetkinliği ve uzun bağlam hafızasında önemli kazanımlar sağlıyor.
Qwen3, MoE modelleri için qk katman normalizasyonu ve global-batch yük dengeleme gibi mimari ve eğitim yenilikleri kullanıyor. Bu durum, daha fazla eğitim stabilitesi ve tüm model ölçeklerinde tutarlı performans iyileştirmeleri sağlıyor.
Üç aşamalı ön eğitim yaklaşımı, dil kavrama, muhakeme ve uzun bağlam işlemeyi ayrı ayrı hedefliyor. Token dizileri 32.000’e kadar uzatıldı. Bu modüler strateji, Qwen3’ün karmaşık, çok turlu etkileşimleri ve daha büyük belgeleri işleme yeteneğini geliştiriyor.
Her model türü için ölçekleme yasalarıyla yönlendirilen optimize edilmiş hiperparametrelerle Qwen3, Alibaba’nın bugüne kadarki en bilinçli ve teknik açıdan kapsamlı ürünü olarak öne çıkıyor. Sektör gözlemcileri, açık ağırlık stratejisi ve çok dilli erişiminin, onu küresel yapay zeka yarışında önemli bir rakip haline getirebileceğini söylüyor.
Bu makale yapay zekanın desteğiyle oluşturulmuş, çevrilmiş ve bir editör tarafından incelenmiştir. Daha fazla bilgi için Şart ve Koşullar bölümümüze bakın.