Epoch AI, Yapay Zeka Modellerinin Yeteneklerini Test Etmek İçin FrontierMath AI Benchmark’ı Başlattı

Yayınlama: 12.11.2024

A⁺

A^-

Kaliforniya merkezli bir araştırma enstitüsü olan Epoch AI, geçen hafta yeni bir yapay zeka (AI) kıyaslaması başlattı. FrontierMath olarak adlandırılan yeni AI kıyaslaması, büyük dil modellerinin (LLM’ler) yeniden düzenleme ve matematiksel problem çözme yeteneklerini test ediyor. Yapay zeka firması, veri kirliliği ve yapay zeka modellerinin çok yüksek puanlar alması gibi faktörler nedeniyle mevcut matematik kıyaslamalarının pek kullanışlı olmadığını iddia ediyor. Epoch AI, önde gelen LLM’lerin bile yeni kıyaslamada yüzde ikiden daha az puan aldığını iddia ediyor.

Epoch AI FrontierMath Benchmark’ı Başlattı

AI firması, X’teki (eski adıyla Twitter) bir gönderide, yüzlerce köken ve yayınlanmamış matematik problemi oluşturmak için 60’tan fazla matematikçiyle işbirliği yaptığını açıkladı. Epoch AI, bu soruların çözülmesinin matematikçilerin bile saatlerini alacağını iddia ediyor. Yeni kriterin geliştirilmesinin arkasındaki nedenin, AI modellerinin genellikle yüksek puan aldığı GSM8K ve MATH gibi mevcut kriterlerin sınırlamaları olduğu belirtildi.

Şirket, LLM’lerin elde ettiği yüksek puanların büyük ölçüde veri kirliliğinden kaynaklandığını iddia etti. Bu, soruların bir şekilde zaten yapay zeka modellerine beslendiği ve soruların kolayca çözülmesine olanak sağladığı anlamına geliyor.

FrontierMath, benzersiz ve hiçbir yerde yayınlanmamış yeni problemleri dahil ederek sorunu çözer ve veri kirliliğiyle ilişkili riskleri azaltır. Ayrıca kıyaslama, sayı teorisi, gerçek analiz ve cebirsel geometrideki hesaplama açısından yoğun problemlerin yanı sıra Zermelo-Fraenkel küme teorisi gibi konuları da içeren çok çeşitli soruları içerir. Yapay zeka firması, tüm soruların “tahmin kanıtı” olduğunu, yani güçlü bir mantık yürütmeden kazara çözülemeyeceklerini söylüyor.

Epoch AI, yapay zekanın yeteneğini ölçmek için, yapay zekanın birden fazla adımda akıl yürütmeyi sürdürmesi gereken yaratıcı problem çözme konusunda kıyaslamaların oluşturulması gerektiğini vurguladı. Özellikle sektör emektarlarının çoğu, mevcut kriterlerin bir yapay zeka modelinin ne kadar gelişmiş olduğunu doğru bir şekilde ölçmek için yeterli olmadığına inanıyor.

Şirketin o1 modelinin arkasında yer alan OpenAI araştırmacısı Noam Brown, yeni kıyaslamaya bir gönderiyle yanıt vererek yeni kıyaslamayı memnuniyetle karşıladı ve şunları söyledi: “Öncü modeller için bu kadar düşük geçiş oranlarına sahip yeni bir değerlendirme görmeyi seviyorum.”

En son teknoloji haberleri ve incelemeleri için Gadgets 360’ı takip edin XFacebook, WhatsApp, Konular ve Google Haberler. Gadget’lar ve teknolojiyle ilgili en yeni videolar için YouTube kanalımıza abone olun. En etkili kişiler hakkında her şeyi öğrenmek istiyorsanız şirket içi Who’sThat360’ımızı Instagram ve YouTube’da takip edin.

Poco X7 Pro, Xiaomi’nin HyperOS 2’siyle Hindistan’da Gönderilen İlk Akıllı Telefon Olabilir

iQOO 13 Renk Seçenekleri 3 Aralık’ta Hindistan’da Lansman Öncesi Ortaya Çıktı

Kaynak

ai, ai kıyaslama, epoch ai frontiermath kıyaslama testi büyük dil modellerini başlattı epoch ai, sürmanşet, yapay zeka

Patron

Viyanablog Sitesinin Kurucusuyum.

Benzer Konular

Toplum neden alkolden kurtulmuyor

Durum: 15.03.2025 08:58 Alkol binlerce yıldır kültürümüzün bir parçası – çılgınlığı ve ritüeli seviyoruz – ama riski ne olacak? Tüm tehlikelere rağmen, bizi tekrar tekrar büyüleyen bir kumaş hakkında. . İnsanların ve alkolün ortak geçmişi uzundur: Çin’den arkeolojik bulgular, 7.000 ila 9.000 yıl önce fermente içeceklerden keyif aldığımızı gösteriyor. Alkol...

15.03.2025

Toplum neden alkolden kurtulmuyor için yorumlar kapalı

Snapdragon 8 Elite, 200 Megapiksel Kameralı Samsung Galaxy S25 Ultra Hindistan’da Piyasaya Sürüldü: Fiyat, Teknik Özellikler

Samsung Galaxy S25 Ultra, şirketin Galaxy S25 serisi akıllı telefonlardaki amiral gemisi modeli olarak Çarşamba günü piyasaya sürüldü. Çarşamba günü düzenlenen Galaxy Unpacked etkinliğinde Güney Koreli firma, özel Snapdragon 8 Elite for Galaxy yongasıyla desteklenen, 12 GB RAM ve 1 TB’a kadar depolama alanına sahip telefonu sergiledi. Bu yılki model,...

23.01.2025

Snapdragon 8 Elite, 200 Megapiksel Kameralı Samsung Galaxy S25 Ultra Hindistan’da Piyasaya Sürüldü: Fiyat, Teknik Özellikler için yorumlar kapalı

Hükümetin oluşumu: Parti liderleri Van der Bellen’e rapor veriyor

Bir sonraki hükümet kurma eylemi bugün Hofburg’da gerçekleşiyor ve üç sahneden oluşuyor. Federal Başkan Alexander Van der Bellen, gelecekteki koalisyonun nasıl olabileceğini araştırmak için FPÖ, ÖVP ve SPÖ başkanlarını ayrı ayrı kabul ediyor. Devlet başkanı Herbert Kickl, Karl Nehammer ve Andreas Babler’den kimin yaşayabilir bir hükümeti bir araya getirebileceğini bulmalarını...

21.10.2024

Hükümetin oluşumu: Parti liderleri Van der Bellen’e rapor veriyor için yorumlar kapalı

Xiaomi 15’in 120Hz AMOLED Ekran ve Snapdragon 8 Elite Yonga Seti ile Geleceği Öngörülüyor: Beklenen Özellikler

Xiaomi 15’in, Xiaomi 15 Pro ve 15 Ultra modelleriyle birlikte şirketin en yeni amiral gemisi akıllı telefon serisinin bir parçası olarak Çin’de piyasaya sürülmesi bekleniyor. Bir ihbarcının iddialarına göre, 2023’teki Xiaomi 14’ün halefi, Qualcomm’un her yerde Snapdragon 8 Gen 4 olarak bilinen Snapdragon 8 Elite yonga seti ile gelebilir. Telefonun...

17.10.2024

Xiaomi 15’in 120Hz AMOLED Ekran ve Snapdragon 8 Elite Yonga Seti ile Geleceği Öngörülüyor: Beklenen Özellikler için yorumlar kapalı

Avusturya’da Mirasçılar, Araç Sürücüleri ve Mülk Sahiplerine Daha Yüksek Vergiler mi Geliyor?

VİYANA – SNmedia.at/2024’te milyar dolarlık bütçe açığını kapatması gereken hükümet, gelir kaynaklarını artırmanın yollarını tartışıyor. SPÖ lideri Andreas Babler, koalisyon görüşmelerinde ekonomik krizin etkilerinden bahsederek, “Kriz zamanlarında tasarruf son çare olmamalıdır” dedi. SPÖ’nün seçim kampanyasında önerdiği varlık ve veraset vergileri, yıllık beş ila altı milyar avro gelir getirme potansiyeline sahip....

30.11.2024

Avusturya’da Mirasçılar, Araç Sürücüleri ve Mülk Sahiplerine Daha Yüksek Vergiler mi Geliyor? için yorumlar kapalı

Gazze Planları: Beyaz Saray, Trump ifadelerini yeniden sıralayarak

Leavitt, “Cumhurbaşkanı için ABD’nin bölgedeki tüm insanlar için istikrarı sağlamak amacıyla yeniden yapılanma çabalarına katılmak zorunda olduğu açıkça belirtildi.” Dedi. Bu, ABD askerlerinin Gazze Şeridi’nde de konuşlandığı anlamına gelmez. Ve “Amerikan vergi mükelleflerinin bu çabaları finanse edeceği anlamına gelmez”. Trump’ın Gazze Şeridi’ndeki askerlerin görevini dışlayıp içermediği sorusu üzerine sözcü, “Başkan...

06.02.2025

Gazze Planları: Beyaz Saray, Trump ifadelerini yeniden sıralayarak için yorumlar kapalı

POPÜLER KONULAR