Google’ın DeepMind Crew ve Openai tarafından geliştirilen yapay zeka modelleri, başarılar listesine ekleyebilecekleri yeni bir övgü var: Matematikte bazı lise öğrencilerini yendiler. Her iki şirket de bu yılki altın madalya elde ettiğini iddia etti Uluslararası Matematik Olimpiyatı (IMO), lise öğrencileri için matematiksel yeteneklerini kanıtlamak isteyen en zorlu yarışmalardan biri.
Olimpiyat, dünyanın dört bir yanından en iyi öğrencileri bir dizi karmaşık, çok aşamalı matematik problemini çözmelerini gerektiren bir sınava katılmaya davet ediyor. Öğrenciler, iki gün boyunca iki buçuk saatlik iki sınavı alırlar, sorunların farklı bölümlerini tamamlamak için atanan nokta değerleri ile toplam altı soruyu çözmekle görevlidir. DeepMind ve Openai modelleri, altı cevaptan beşini mükemmel bir şekilde çözdü ve 42 olası puandan toplam 35’ini puanladı, bu da altın için yeterliydi. Katılan 630’un toplam 67 insan katılımcısı da altının onurunu aldı.
Sonuçlarla hiçbir ilgisi olmayan küçük bir tidbit var, sadece şirketlerin davranışları. DeepMind, IMO’ya katılmaya davet edildi ve altını Pazartesi günü açıkladı. Blog yazısıkuruluşun yayınlanmasının ardından Resmi Sonuçlar öğrenci katılımcılar için. Implicator.ai’ye göreOpenai aslında IMO’ya girmedi. Bunun yerine, diğerlerinin onları çözmede bir çatlak alabilmesi ve kendi başlarına ele alabilmeleri için halka açık olan sorunları aldı. Openai, katılmadığı için IMO tarafından gerçekten doğrulanamayan altın seviyesi bir performansa sahip olduğunu açıkladı. Ayrıca şirket duyurulmuş Pazartesi günü beklemek yerine hafta sonu puanı (resmi puanların yayınlandığı zaman) IMO’nun isteklerine karşıBu, şirketlerden öğrencilerin spot ışığını çalmamasını istedi.
Bu sorunları çözmek için kullanılan modeller sınavlara öğrencilerin yaptığı gibi katıldı. Her sınav için 4,5 saat verildi ve herhangi bir harici araç kullanmasına veya internete erişmesine izin verilmedi. Özellikle, her iki şirket de kullanılmış gibi görünüyor genel amaçlı yapay zeka Daha önce tüm modellerden çok daha iyi olan özel modellerden ziyade.
Bu şirketlerin en üst noktaya yönelik iddiaları hakkında dikkate değer bir gerçek: ne altın elde eden (ya da biliyorsunuz, kendi kendine uygulanan bir altın) kamuya açık değildir. Aslında, halka açık modeller görevde oldukça korkunç bir iş çıkardı. Araştırmacılar, soruları Gemini 2.5 Professional, GroK-4 ve Openai O4 aracılığıyla yürüttüler ve hiçbiri 13 puandan daha yüksek puan alamadı, bu da bronz madalyayı eve götürmek için gerekli olan 19 kişiden kısa.
Hala bolca var Sonuçlar hakkında şüphecilikve halka açık modellerin bu kadar kötü bir şekilde yaptığı gerçeği, eriştiğimiz araçlarda bir boşluk olduğunu ve daha ince ayarlanmış bir modelin yapabileceğini gösteriyor, bu da haklı olarak bu akıllı modellerin neden ölçeklendirilemeyeceği veya yaygın olarak sağlanamayacağı konusunda sorularla sonuçlanmalıdır. Ancak burada hala iki önemli çıkarım var: laboratuvar modelleri akıl yürütme problemlerinde daha iyi hale geliyor ve Openai, bazı gençlerden zafer çalmak için sabırsızlanayan bir grup topal tarafından yönetiliyor.