Hugging Face, geçen hafta küçük dil modellerinin (SLM’ler) daha büyük modellerden nasıl daha iyi performans gösterebileceğini gösteren yeni bir vaka çalışmasını paylaştı. Gönderide platformun araştırmacıları, yapay zeka (AI) modellerinin eğitim süresini artırmak yerine test süresi hesaplamasına odaklanmanın, AI modelleri için gelişmiş sonuçlar gösterebileceğini iddia etti. İkincisi, yapay zeka modellerinin bir sorunu çözmek için daha fazla zaman harcamasına olanak tanıyan ve kendi kendini geliştirme ve verimliliklerini artırabilecek bir doğrulayıcıya karşı arama yapma gibi farklı yaklaşımlar sunan bir çıkarım stratejisidir.
Hugging Face, bir gönderisinde, bir yapay zeka modelinin yeteneklerini geliştirmeye yönelik geleneksel yaklaşımın genellikle kaynak yoğun ve son derece pahalı olabileceğini vurguladı. Tipik olarak, eğitim öncesi veri ve algoritmaların, temel modelin bir sorguyu parçalama ve çözüme ulaşma şeklini iyileştirmek için kullanıldığı, eğitim zamanı hesaplaması adı verilen bir teknik kullanılır.
Alternatif olarak araştırmacılar, yapay zeka modellerinin bir sorunu çözmek için daha fazla zaman harcamasına ve kendilerini düzeltmelerine olanak tanıyan bir teknik olan test süresi hesaplama ölçeklendirmesine odaklanmanın da benzer sonuçlar gösterebileceğini iddia etti.
OpenAI’nin test süresi hesaplamasını kullanan o1 muhakeme odaklı modelinin örneğini vurgulayan araştırmacılar, bu tekniğin, eğitim verilerinde veya ön eğitim yöntemlerinde herhangi bir değişiklik yapılmamasına rağmen yapay zeka modellerinin gelişmiş yetenekler sergilemesine izin verebileceğini belirtti. Ancak bir sorun vardı. Çoğu akıl yürütme modeli kapalı olduğundan, kullanılan stratejileri bilmenin bir yolu yoktur.
Araştırmacılar, LLM geliştiricilerinin eğitim sonrası aşamada test süresi hesaplamasını tam olarak nasıl ölçeklendirebileceğini ortaya çıkarmak için Google DeepMind tarafından yapılan bir çalışmayı ve tersine mühendislik tekniklerini kullandı. Vaka çalışmasına göre, yalnızca işlem süresinin arttırılması, karmaşık sorguların çıktılarında önemli bir iyileşme göstermemektedir.
Bunun yerine araştırmacılar, yapay zeka modellerinin sonraki yinelemelerdeki yanıtları değerlendirmesine ve potansiyel hataları belirleyip düzeltmesine olanak tanıyan bir kendi kendini iyileştirme algoritmasının kullanılmasını öneriyor. Ek olarak, modellerin arama yapabileceği bir doğrulayıcının kullanılması yanıtları daha da iyileştirebilir. Bu tür doğrulayıcılar, öğrenilmiş bir ödül modeli veya sabit kodlanmış buluşsal yöntem olabilir.
Daha gelişmiş teknikler, bir modelin problem başına birden fazla yanıt ürettiği ve hangisinin daha uygun olduğuna karar vermek için bir puan atadığı N’nin en iyisi yaklaşımını içerecektir. Bu tür yaklaşımlar bir ödül modeliyle eşleştirilebilir. Adım adım akıl yürütmeye ve her adım için puan atamaya öncelik veren ışın arama, araştırmacıların vurguladığı bir diğer stratejidir.
Hugging Face araştırmacıları yukarıda bahsedilen stratejileri kullanarak Llama 3B SLM’yi kullanabildiler ve MATH-500 testinde çok daha büyük bir model olan Llama 70B’den daha iyi performans göstermelerini sağladılar.