Gelen kutunuzda daha akıllı bilgiler ister misiniz? Sadece kurumsal AI, veri ve güvenlik liderleri için önemli olanı elde etmek için haftalık bültenlerimize kaydolun. Şimdi abone olun
Hong Kong merkezli Excessive-Flyer Capital Administration’ın bir dalı olan Çin AI Startup Deepseek’in hit açık kaynak modeli Deepseek R1-0528’in en son versiyonunu yayınladıktan sonra bir aydan biraz fazla geçti.
Selefi gibi, AI ve küresel iş topluluklarını ne kadar ucuz bir şekilde eğitildiği ve akıl yürütme görevleri üzerinde ne kadar iyi performans gösterdiği, tüm geliştiriciler ve işletmeler için kullanabileceği-R1-0528 de, kısmen izin verilen Apache 2.0 lisansı olan diğer AI laboratuarları ve geliştiriciler tarafından uyarılmaktadır.
Bu hafta, 24 yaşındaki Alman firması TNG Technology Consulting GmbH bir tane yayınladı Böyle bir uyarlama: Deepseek-tng R1T2 ChimeraChimera Büyük Dil Modeli (LLM) ailesindeki en son mannequin. R1T2, verimlilik ve hızda kayda değer bir artış sağlar, R1-0528’in İstihbarat Kıyaslama Skorlarının% 90’ıile cevap üretirken R1-0528’in çıktı belirteç sayısının% 40’ından azı.
Bu, daha kısa yanıtlar ürettiği, doğrudan Daha hızlı çıkarım ve daha düşük hesaplama maliyetleri. Mannequin kartında TNG, AI kodu paylaşım topluluk sarılma yüzünde yeni R1T2 için yayınlanan şirket, “regular R1’den yaklaşık% 20 daha hızlı” (Ocak ayında yayınlanan) “ve R1-0528’den iki kat daha hızlı” olduğunu (Deepseek’ten Mayıs resmi güncellemesi) olduğunu belirtiyor.
Zaten, yanıt AI geliştirici topluluğundan inanılmaz derecede olumlu oldu. Vaibhav (VB) Srivastav, “Lanet olsun! Deepseek R1T2-R1-0528’den% 200 daha hızlı ve R1’den% 20 daha hızlı” diye yazdı. x üzerinde. “DS V3, R1 ve R1-0528 ile uzmanların montajı aracılığıyla yapılan GPQA & AIME 24’teki R1’den önemli ölçüde daha iyi-ve MIT lisanslı, sarılma yüzünde mevcut.”
Bu kazanç, TNG’nin Consultants Montaj (AOE) yöntemi ile mümkün olur-ağırlık tensörlerini (dahili parametreler) bir şekilde birleştirerek, TNG’nin bir önceden eğitilmiş birden fazla modelden seçici olarak birleştirerek bir teknik oluşturulur- Mayıs ayında yayınlanan makale ARXIV’te, Peer İncelenen Açık Erişim On-line Dergisi.
Orijinal R1T Chimera’nın halefi olan R1T2, üç ana modeli entegre eden yeni bir “üç-akıllı” konfigürasyon sunar: Deepseek-R1-0528, Deepseek-R1 ve Deepseek-V3-0324. Sonuç, çıkarım maliyetini önemli ölçüde azaltırken, yüksek akıl yürütme kapasitesini korumak için tasarlanmış bir modeldir.
R1T2, daha fazla ince ayar veya yeniden eğitilmeden inşa edilir. R1-0528’in akıl yürütme gücünü, R1’in yapılandırılmış düşünce kalıplarını ve V3-0324’ün özlü, öğretim odaklı davranışını miras alır-işletme ve araştırma kullanımı için daha verimli, ancak yetenekli bir mannequin sunar.
Uyum montajları (AOE) nasıl uyumsuzluk karışımından (MOE) farklıdır
Ekspertler (MOE) karışımı, farklı bileşenlerin veya “uzmanların” giriş başına koşullu olarak aktive edildiği mimari bir tasarımdır. Deepseek-V3 veya Mixtrral gibi Moe llms’de, herhangi bir jetonun ileri geçişi sırasında modelin uzman katmanlarının (örneğin 256 üzerinden 8’i) sadece bir alt kümesi aktiftir. Bu, çok büyük modellerin çıkarım maliyetlerini yönetilebilir tutarken daha yüksek parametre sayımları ve uzmanlık elde etmesini sağlar – çünkü jeton başına ağın yalnızca bir kısmı değerlendirilir.
Takım montajları (AOE) bir mimari değil, bir mannequin birleştirme tekniğidir. Ağırlık tensörlerini seçici olarak enterpolasyon yaparak önceden eğitilmiş birden fazla MOE modelinden yeni bir mannequin oluşturmak için kullanılır.
AOE’deki “uzmanlar”, birleştirilen mannequin bileşenlerini – tipik olarak MOE katmanlarındaki yönlendirilmiş uzman tensörleri – çalışma zamanında dinamik olarak etkinleştiren uzmanlara atıfta bulunur.
TNG’nin AOE uygulaması öncelikle birleştirmeye odaklanır-özel akıl yürütmeden en çok sorumlu bir modelin bir kısmı-genellikle V3-0324 gibi daha hızlı modellerden daha verimli paylaşılan ve dikkat katmanlarını korur. Bu yaklaşım, ortaya çıkan Chimera modellerinin, en güçlü ana modellerin tekulliliğini veya gecikmesini çoğaltmadan akıl yürütme gücünü miras almasını sağlar.
Performans ve Hız: Karşı Karşı Karşı Neler Gösteren
TNG tarafından sunulan kıyaslama karşılaştırmalarına göre, R1T2 arasında % 90 ve% 92 AIME-24, AIME-25 ve GPQA-Diamond check setleri ile ölçülen en akıllı ebeveyni Deepseek-R1-0528’in muhakeme performansı.
Bununla birlikte, genişletilmiş düşünce zinciri akıl yürütmesi nedeniyle uzun, ayrıntılı cevaplar üretme eğiliminde olan Deepseek-R1-0528’in aksine, R1T2 çok daha özlü olacak şekilde tasarlanmıştır. Önemli ölçüde daha az kelime kullanırken benzer şekilde akıllı yanıtlar verir.
TNG, ham işleme süresine veya saniyede jetonlara odaklanmak yerine, Cevap başına çıktı belirteç sayısı – Hem maliyet hem de gecikme için pratik bir vekil. TNG tarafından paylaşılan kriterlere göre, R1T2 jetonların yaklaşık% 40’ı R1-0528 tarafından gerekli.
Bu bir Çıktı uzunluğunda% 60 azalmabu da doğrudan çıkarım süresini ve hesaplama yükünü azaltır, yanıtları 2x veyapercent200 oranında hızlandırır.
Orijinal Deepseek-R1 ile karşılaştırıldığında, R1T2 de Ortalama% 20 daha fazla özlüyüksek verimli veya maliyete duyarlı dağıtımlar için verimlilikte anlamlı kazanımlar sunar.
Bu verimlilik istihbarat pahasına gelmez. TNG’nin teknik makalesinde sunulan kıyaslama tablosunda gösterildiği gibi, R1T2 istihbarat ve çıktı maliyet eğrisi üzerinde arzu edilen bir bölgede oturuyor. Meyveyi en aza indirirken akıl yürütme kalitesini korur – çıkarım hızı, verim ve tüm maddelere mal olduğu kurumsal uygulamalar için kritik bir sonuç.
Dağıtım hususları ve kullanılabilirliği
R1T2, izin verilen bir MIT lisansı altında yayınlanır ve şimdi Hugging Face’te mevcuttur, yani açık kaynaktır ve ticari uygulamalarda kullanılabilir ve yerleşik olarak kullanılabilir.
TNG, mannequin genel akıl yürütme görevleri için çok uygun olsa da, Deepseek-R1 soyundan miras alınan sınırlamalar nedeniyle şu anda fonksiyon çağrısı veya araç kullanımı gerektiren kullanım durumları için önerilmediğini belirtmektedir. Bunlar gelecekteki güncellemelerde ele alınabilir.
Şirket ayrıca Avrupalı kullanıcılara 2 Ağustos 2025’te yürürlüğe giren AB AI Yasası’na uygunluğu değerlendirmelerini tavsiye ediyor.
AB’de faaliyet gösteren işletmeler, ilgili hükümleri gözden geçirmeli veya gereksinimler karşılanamazsa bu tarihten sonra mannequin kullanımını durdurmayı düşünmelidir.
Bununla birlikte, yurt içinde faaliyet gösteren ve ABD tabanlı kullanıcılara veya diğer ulusların kullanıcılarına hizmet veren şirketler Olumsuz Bu ücretsiz, hızlı açık kaynak muhakeme modelini kullanırken ve dağıtarken onlara önemli bir esneklik vermesi gereken AB AI Yasası’nın şartlarına tabidir. AB’de kullanıcılara hizmet veriyorlarsa, bazıları AB Yasası hükümleri yine de geçerli olacak.
TNG, daha önce Chimera varyantlarını OpenRouter ve Chutes gibi platformlar aracılığıyla kullanılabilir hale getirdi ve burada milyarlarca jeton işledikleri bildirildi. R1T2’nin serbest bırakılması, bu kamu mevcudiyeti çabalarında başka bir evrimi temsil etmektedir.
TNG Teknoloji Danışmanlığı Gmbh Hakkında
Ocak 2001’de kuruldu, TNG Teknoloji Danışmanlığı Gmbh Bavyera, Almanya’da bulunuyor ve 900’den fazla kişiyi istihdam ediyor, yüksek konsantrasyon doktoraları ve teknik uzmanlar.
Şirket, telekomünikasyon, sigorta, otomotiv, e-ticaret ve lojistik gibi sektörlerde büyük işletme müşterilerine hizmet veren yazılım geliştirme, yapay zeka ve DevOps/Bulut hizmetlerine odaklanmaktadır.
TNG, değerlere dayalı danışmanlık ortaklığı olarak çalışır. Operasyonel araştırma ve öz yönetim ilkelerine dayanan benzersiz yapısı, bir teknik yenilik kültürünü desteklemektedir.
R1T2 gibi kamusal sürümler ve uzmanlık Meclisi metodolojisinin yayınlanmasıyla gösterildiği gibi açık kaynaklı topluluklara ve araştırmalara aktif olarak katkıda bulunur.
Kurumsal teknik karar vericiler için ne anlama geliyor?
CTO’lar, AI platform sahipleri, mühendislik potansiyel müşterileri ve BT tedarik ekipleri için R1T2 somut faydalar ve stratejik seçenekler sunar:
- Daha düşük çıkarım maliyetleri: Görev başına daha az çıktı jetonu ile R1T2, GPU zamanını ve enerji tüketimini azaltır, doğrudan altyapı tasarruflarına dönüşür-özellikle yüksek verimli veya gerçek zamanlı ortamlarda önemlidir.
- Tepegöz olmadan yüksek akıl yürütme kalitesi: R1-0528 gibi üst düzey modellerin akıl yürütme gücünün çoğunu korur, ancak uzun soluklukları olmadan. Bu, kısa cevapların tercih edildiği yapılandırılmış görevler (matematik, programlama, mantık) için idealdir.
- Açık ve değiştirilebilir: MIT lisansı, özel barındırma, mannequin hizalama veya düzenlenmiş veya hava kaplı ortamlarda daha fazla eğitim sağlayan tam dağıtım kontrolü ve özelleştirmesine izin verir.
- Ortaya çıkan modülerlik: AOE yaklaşımı, modellerin modüler olarak inşa edildiği bir geleceğe neden olur ve işletmelerin sıfırdan yeniden eğitilmek yerine mevcut modellerin güçlü yönlerini yeniden birleştirerek özel varyantları birleştirmesine izin verir.
- Uyarı: Gelecekteki Chimera güncellemeleri bu boşlukları ele alabilir olsa da, işlev çağrısı, araç kullanımı veya gelişmiş ajan düzenlemesine dayanan işletmeler mevcut sınırlamaları not etmelidir.
TNG, araştırmacıları, geliştiricileri ve kurumsal kullanıcıları modeli keşfetmeye, davranışını check etmeye ve geri bildirim sağlamaya teşvik eder. R1T2 Chimera huggingface.co/tngtech/deepseek-tng-r1t2-chimerave teknik sorular yönlendirilebilir Analysis@tngtech.com.
Teknik arka plan ve kıyaslama metodolojisi için TNG’nin araştırma makalesi Arxiv: 2506.14794.
avots