Ana Sayfa Teknoloji Openai prestijli matematik yarışmasında altın kazanır – bu neden düşündüğünüzden daha önemlidir?

Openai prestijli matematik yarışmasında altın kazanır – bu neden düşündüğünüzden daha önemlidir?

4
0

Openai

Openai, karmaşık matematik problemleri yoluyla ilerleyebilecek AI modelleri oluşturmak için yarışta yeni bir kilometre taşı elde etti.

Cumartesi günü şirket duyurulmuş Modellerinden biri, dünyanın en prestijli ve zor matematik rekabeti olarak kabul edilen Uluslararası Matematik Olimpiyatı’nda (IMO) altın madalya düzeyinde performans elde etti.

Kritik olarak, kazanan mannequin, IMO sorunlarını çözmek için özel olarak tasarlanmamıştır, DeepMind’in AlphaGo’ları gibi daha önceki sistemler – Dünyanın önde gelen Go oyuncusunu yenmek 2016 yılında-çok dar, göreve özgü bir alanda büyük bir veri kümesi üzerinde eğitildi. Daha ziyade, kazanan, doğal dili kullanarak metodik olarak sorunlarla düşünmek için tasarlanmış genel amaçlı bir akıl yürütme modeliydi.

Ayrıca: chatgpt aşağı mı? Yalnız değilsin. İşte Openai’nin söylediği şey

“Bu, belirli bir resmi matematik sistemi değil, matematik yapan bir LLM,” diye yazdı Openai. “Genel zekaya doğru ana iticimizin bir parçası.”

(Açıklama: ZIFTNET’in ana şirketi Ziff Davis, Openai’ye karşı Nisan 2025 davası açtı ve Ziff Davis telif haklarını AI sistemlerini eğitmek ve işletmede ihlal ettiğini iddia etti. Ziff Davis’in de Downdetector’a sahip olduğunu.)

Bu noktada kullanılan modelin kimliği hakkında çok fazla şey bilinmemektedir. IMO araştırmasına liderlik eden Openai’de bir araştırmacı olan Alexander Wei, buna “deneysel bir akıl yürütme LLM” adını verdi X PostAltın madalyada çelenkli bir çilek resmini de içeren, şirketin Eylül ayında çıkış yapan O1 akıl yürütme modelleri ailesinin üzerine inşa edildiğini gösteriyor.

“Açık olmak gerekirse: Yakında GPT-5’i piyasaya sürüyoruz, ancak IMO’da kullandığımız mannequin ayrı bir deneysel mannequin,” diye ekledi Openai X.

Mannequin ne kadar iyi performans gösterdi?

1959’da başlayan IMO, her yıl 100’den fazla ülkeden yaklaşık 50 yarışmacı çekiyor.

Yarışmacılar iki gün boyunca toplam altı soruya kanıt tabanlı yanıtlar vermelidir. Bu kanıtlar, her bir ultimate skoru için oybirliğiyle fikir birliği ile eski IMO altın madalyaları tarafından değerlendirilir. Katılımcıların% 9’undan daha azı altın elde etmektedir.

Wei’ye göre, Openai’nin deneysel modeli altı sorundan beşini çözdü ve altın madalya kazanarak 42 olası puandan 35’ini (yaklaşıkpercent83) kazandı. Her kanıt oluşuyordu yüzlerce metin satırmodelin akıl yürütme süreci boyunca çalışması için attığı bireysel adımları temsil eder. Rekabetin hesap makinelerinin veya diğer dış araçların kullanımına karşı yasaklanmasına uygun olarak, Openai’nin modelinin İnternet’e erişimi yoktu; Sadece adım adım sorunların her birinde akıl yürütüyordu.

Ayrıca: 8 Chatgpt Ajan testlerim sadece 1 mükemmel sonuç üretti – ve birçok alternatif gerçek

“Mannequin bir uzun “Araştırma projesinde yer alan başka bir Openai araştırmacısı Noam Brown, X Post. “O1 saniyeler boyunca düşündü. Dakikalar için derin araştırma. Bu saatlerce düşünüyor. Önemli olarak, düşüncesi ile daha etkili.”

Openai’ye göre, analistler daha önce 2025 yılına kadar bir AI sisteminin IMO’da altın kazanma şansının sadece% 18 olduğunu tahmin etmişlerdi.

Büyük resim

Tüm etkileyici yetenekleri için, AI uzun zamandır basit aritmetik ve temel matematik kelime problemleri ile mücadele etti – kişinin ileri algoritmalar için nispeten basit olması gerektiğini düşünebileceği görevler. Ancak daha dar mantıksal bulmacaların aksine, matematik, çoğu AI sisteminin ulaşamayacağı bir soyut akıl yürütme ve kavramsal hokkabazlık gerektirir.

Ancak bu olağanüstü hızlı bir hızda değişiyor. Bir yıldan biraz fazla bir süre önce, AI modelleri hala GSM8K gibi ilkokul düzeyinde matematik ölçütleri kullanılarak değerlendiriliyordu. O1 ve Deepseek’in R1 gibi akıl yürütme modelleri hızlı bir şekilde mükemmelleşti, önce AIME gibi lise düzeyinde kıyaslamalar yaptı ve daha sonra üniversite seviyesine ve ötesine geçti.

Üst düzey matematik kapasitesi, akıl yürütme modelleri için altın standart haline gelmiştir, çünkü az miktarda halüsinasyon veya köşe kesme bile bir modelin çıktısını çok hızlı ve internet bir şekilde mahvedebilir. Başka tür yanıtlar üretirken, örneğin, yazılı bir denemeye yardım sağlarken kaçmak daha kolaydır, çünkü çok sık çeşitli yorumlara açıktırlar.

Ayrıca: yapay zeka için temel modeller oluşturmak için 5 ipucu

Openai’nin IMO Altın Madalyası, ölçeklenebilir, genel amaçlı bir akıl yürütme yaklaşımının, uzun süredir mevcut AI sistemlerinin erişiminin ötesinde olduğuna inanılan görevlerde alana özgü modelleri aşabileceğini göstermektedir. Anlaşıldığı üzere, matematikten başka bir şey yapmamak için eğitilmiş hiperfokalı, alfago benzeri modeller inşa etmeniz gerekmez; Onları düşünce süreçleri aracılığıyla dili ayrıştırmak ve dikkatlice akıl yürütmeleri için eğitmek yeterlidir ve eğer yeterince zaman verildiyse, dünya standartlarında insan matematikçileriyle eşit rekabet edebilen AI sistemleri oluşturabileceklerdir.

Brown’a göre, yapay zeka endüstrisi boyunca meydana gelen inovasyonun mevcut hızı, matematiksel ve akıl yürütme becerisinin sadece buradan büyüyeceğini gösteriyor. “Trendin devam etmesini bekliyorum,” diye yazdı X. “Daha da önemlisi, yapay zekaya bilimsel keşfe büyük katkıda bulunduğumuzu düşünüyorum.”

AI hakkında daha fazla hikaye ister misiniz? İnovasyon için kaydolunhaftalık bültenimiz.



avots

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz