Alibaba’nın Qwen ekibi Pazartesi günü Qwen 2.5 ailesine başka bir yapay zeka (AI) modeli yayınladı. Qwen 2.5-VL-32B talimatı olarak adlandırılan AI modeli, gelişmiş performans ve optimizasyonlarla birlikte geliyor. 32 milyar parametreye sahip bir vizyon dili modelidir ve Qwen 2.5 ailesinde üç milyar, yedi milyar ve 72 milyar parametre büyüklüğü modeline katılır. Tıpkı ekibin önceki tüm modelleri gibi, aynı zamanda izin veren bir lisans altında bulunan açık kaynaklı bir AI modelidir.
Bir blog yayınında, Qwen ekibi şirketin en son Vizyon Dil Modelini (VLM) detaylandırdı. Qwen 2.5 3b ve 7b modellerinden daha yeteneklidir ve Foundation 72B modelinden daha küçüktür. Büyük dil modelinin (LLM) eski sürümleri Deepseek-V3’ten daha iyi performans gösterdi ve 32B modelinin Google ve Mistral’ın benzer büyüklükteki sistemlerinden daha iyi performans gösterdiği söyleniyor.
Özelliklerine gelen Qwen 2.5-VL-32B-Instruct, daha ayrıntılı ve daha iyi biçimlendirilmiş yanıtlar sağlayan ayarlanmış bir çıkış stiline sahiptir. Araştırmacılar, yanıtların insan tercihleriyle yakından uyumlu olduğunu iddia ettiler. Matematiksel akıl yürütme kabiliyeti de geliştirilmiştir ve AI modeli daha karmaşık problemleri çözebilir.
Görüntü anlama yeteneğinin ve görüntü ayrıştırma, içerik tanıma ve görsel mantık kesintisi de dahil olmak üzere akıl yürütme odaklı analizinin doğruluğu da geliştirilmiştir.
Qwen 2.5-VL-32B-İncruct
Fotoğraf Kredisi: Qwen
Dahili testlere dayanarak, Qwen 2.5-VL-32B’nin MMMU, MMMU-Pro ve Mathvista kıyaslamalarında Mistral-Small-3.1-24b ve Google’ın Gemma-3-27B gibi karşılaştırılabilir modellerin yeteneklerini aştığı iddia ediliyor. İlginç bir şekilde, LLM’nin MM-MT bankında çok daha büyük Qwen 2-VL-72B modelinden daha iyi performans gösterdiği iddia edildi.
Qwen ekibi, en son modelin doğrudan araçları akılda tutabilecek ve yönlendirebilecek görsel bir ajan olarak oynayabileceğini vurgular. Doğal olarak bilgisayar kullanımı ve telefon kullanımı yapabilir. Girdi olarak bir saatten fazla süreli metin, resim ve videoları kabul eder. Ayrıca JSON ve yapılandırılmış çıkışları da destekler.
Temel mimari ve eğitim, eski Qwen 2.5 modelleriyle aynıdır, ancak araştırmacılar modelin videoları değişen örnekleme oranlarında anlamasını sağlamak için dinamik bir FPS örneklemesi uyguladılar. Başka bir geliştirme, zamansal dizi ve hız anlayarak bir videodaki belirli momentleri belirlemesine izin verir.
Qwen 2.5-VL-32B-In-in-bükülme GitHub ve onun sarılma yüz listesi üzerinden indirilebilir. Model, hem akademik hem de ticari kullanıma izin veren Apache 2.0 lisansı ile birlikte geliyor.
(Tagstotranslate) Alibaba Qwen 2 5 VL 32B AI Model Serbest Bırakma Özellikleri Özellikleri Alibaba (T) AI Model (T) AI (T) Yapay Zeka (T) LLM
Kaynak