Ana Sayfa Teknoloji Yeni bir AI kodlama mücadelesi ilk sonuçlarını yayınladı ve güzel değiller

Yeni bir AI kodlama mücadelesi ilk sonuçlarını yayınladı ve güzel değiller

23
0

Yeni bir AI kodlama mücadelesi ilk kazananını ortaya çıkardı ve AI ile çalışan yazılım mühendisleri için yeni bir çubuk belirledi.

Çarşamba günü saat 17: 00’de, kar amacı gütmeyen Laude Institute, Databricks ve Perplexity kurucu ortağı Andy Konwinski tarafından başlatılan çok turlu bir AI kodlama zorluğu olan Ok Ödülü’nün ilk galibini duyurdu. Kazanan, ödül için 50.000 dolar alacak olan Eduardo Rocha de Andrade adında Brezilyalı bir istemi mühendisiydi. Ancak galibiyetten daha şaşırtıcı olan son skoruydu: Testteki soruların sadece% 7,5’ine doğru cevaplarla kazandı.

Konwinski, “Aslında zor bir ölçüt oluşturduğumuz için mutluyuz” dedi. “Önemli olacaklarsa ölçümler zor olmalı,” diye ekledi: “Büyük laboratuvarlar en büyük modelleriyle girerse puanlar farklı olurdu. Ama bu bir tür nokta.

Konwinski, testte% 90’dan daha yüksek puan alabilen ilk açık kaynak modeline 1 milyon dolar söz verdi.

İyi bilinen SWE-Bench sistemine benzer şekilde, Ok Ödülü, mannequin modellerinin gerçek dünyadaki programlama sorunlarıyla nasıl başa çıkabileceğinin bir testi olarak GitHub’dan işaretlenmiş sorunlara karşı modelleri take a look at eder. Ancak SWE-Bench, modellerin antrenman yapabileceği sabit bir sorun kümesine dayanırken, Ok ödülü, kıyaslamaya özgü herhangi bir eğitime karşı korunmak için zamanlanmış bir giriş sistemi kullanarak “SWE-Bench’in kontaminasyonsuz bir versiyonu” olarak tasarlanmıştır. Birinci tur için modeller 12 Mart’a kadar olacaktı. Ok Ödülü organizatörleri daha sonra testi, o tarihten sonra sadece işaretlenen GitHub sorunlarını kullanarak inşa ettiler.

% 7,5 en iyi skor, şu anda daha kolay ‘doğrulanmış’ testinde% 75 en yüksek skor ve daha sert ‘tam’ testinde% 34’ü gösteren SWE-Bench’in kendisinin belirgin bir kontrastında duruyor. Konwinski, eşitsizliğin SWE-Bench’teki kontaminasyondan mı yoksa sadece GitHub’dan yeni sorunlar toplama zorluğundan mı kaynaklandığından emin değil, ancak Ok ödül projesinin soruyu yakında cevaplamasını bekliyor.

TechCrunch, “Bir şeyden daha fazla koşarken, daha iyi bir anlamımız olacak” dedi.

TechCrunch Etkinliği

San Francisco
|
27-29 Ekim 2025

Halka açık bir şekilde mevcut olan çok çeşitli AI kodlama araçları göz önüne alındığında, kısa bir yer gibi görünebilir – ancak ölçütler çok kolay hale geldiğinde, birçok eleştirmen Ok Ödülü gibi projeleri çözmek için gerekli bir adım olarak görüyor AI’nın büyüyen değerlendirme sorunu.

Benzer bir fikir ortaya koyan Princeton araştırmacısı Sayash Kapoor, “Mevcut kriterler için yeni testler inşa etme konusunda oldukça yükselişim” diyor. Son bir makalede. “Bu tür deneyler olmadan, sorunun kontaminasyon olup olmadığını veya hatta sadece döngüde bir insanla SWE-Bench Lider tablosunu hedeflediğini söyleyemeyiz.”

Konwinski için bu sadece daha iyi bir ölçüt değil, sektörün geri kalanına açık bir meydan okuma. “Hype’ı dinlerseniz, yapay zeka doktorları ve AI avukatları ve AI yazılım mühendisleri görmeliyiz ve bu doğru değil” diyor. “Kontaminasyonsuz bir SWE-Bench’te% 10’dan fazla alamıyorsak, bu benim için gerçeklik kontrolü.”

avots