Epoch AI, Yapay Zeka Modellerinin Yeteneklerini Test Etmek İçin FrontierMath AI Benchmark’ı Başlattı

Epoch AI, Yapay Zeka Modellerinin Yeteneklerini Test Etmek İçin FrontierMath AI Benchmark’ı Başlattı
Yayınlama: 12.11.2024
4
A+
A-

Kaliforniya merkezli bir araştırma enstitüsü olan Epoch AI, geçen hafta yeni bir yapay zeka (AI) kıyaslaması başlattı. FrontierMath olarak adlandırılan yeni AI kıyaslaması, büyük dil modellerinin (LLM’ler) yeniden düzenleme ve matematiksel problem çözme yeteneklerini test ediyor. Yapay zeka firması, veri kirliliği ve yapay zeka modellerinin çok yüksek puanlar alması gibi faktörler nedeniyle mevcut matematik kıyaslamalarının pek kullanışlı olmadığını iddia ediyor. Epoch AI, önde gelen LLM’lerin bile yeni kıyaslamada yüzde ikiden daha az puan aldığını iddia ediyor.

Epoch AI FrontierMath Benchmark’ı Başlattı

AI firması, X’teki (eski adıyla Twitter) bir gönderide, yüzlerce köken ve yayınlanmamış matematik problemi oluşturmak için 60’tan fazla matematikçiyle işbirliği yaptığını açıkladı. Epoch AI, bu soruların çözülmesinin matematikçilerin bile saatlerini alacağını iddia ediyor. Yeni kriterin geliştirilmesinin arkasındaki nedenin, AI modellerinin genellikle yüksek puan aldığı GSM8K ve MATH gibi mevcut kriterlerin sınırlamaları olduğu belirtildi.

Şirket, LLM’lerin elde ettiği yüksek puanların büyük ölçüde veri kirliliğinden kaynaklandığını iddia etti. Bu, soruların bir şekilde zaten yapay zeka modellerine beslendiği ve soruların kolayca çözülmesine olanak sağladığı anlamına geliyor.

FrontierMath, benzersiz ve hiçbir yerde yayınlanmamış yeni problemleri dahil ederek sorunu çözer ve veri kirliliğiyle ilişkili riskleri azaltır. Ayrıca kıyaslama, sayı teorisi, gerçek analiz ve cebirsel geometrideki hesaplama açısından yoğun problemlerin yanı sıra Zermelo-Fraenkel küme teorisi gibi konuları da içeren çok çeşitli soruları içerir. Yapay zeka firması, tüm soruların “tahmin kanıtı” olduğunu, yani güçlü bir mantık yürütmeden kazara çözülemeyeceklerini söylüyor.

Epoch AI, yapay zekanın yeteneğini ölçmek için, yapay zekanın birden fazla adımda akıl yürütmeyi sürdürmesi gereken yaratıcı problem çözme konusunda kıyaslamaların oluşturulması gerektiğini vurguladı. Özellikle sektör emektarlarının çoğu, mevcut kriterlerin bir yapay zeka modelinin ne kadar gelişmiş olduğunu doğru bir şekilde ölçmek için yeterli olmadığına inanıyor.

Şirketin o1 modelinin arkasında yer alan OpenAI araştırmacısı Noam Brown, yeni kıyaslamaya bir gönderiyle yanıt vererek yeni kıyaslamayı memnuniyetle karşıladı ve şunları söyledi: “Öncü modeller için bu kadar düşük geçiş oranlarına sahip yeni bir değerlendirme görmeyi seviyorum.”

En son teknoloji haberleri ve incelemeleri için Gadgets 360’ı takip edin XFacebook, WhatsApp, Konular ve Google Haberler. Gadget’lar ve teknolojiyle ilgili en yeni videolar için YouTube kanalımıza abone olun. En etkili kişiler hakkında her şeyi öğrenmek istiyorsanız şirket içi Who’sThat360’ımızı Instagram ve YouTube’da takip edin.

Poco X7 Pro, Xiaomi’nin HyperOS 2’siyle Hindistan’da Gönderilen İlk Akıllı Telefon Olabilir


iQOO 13 Renk Seçenekleri 3 Aralık’ta Hindistan’da Lansman Öncesi Ortaya Çıktı



Kaynak

Viyanablog Sitesinin Kurucusuyum.