Gelen kutunuzda daha akıllı bilgiler ister misiniz? Sadece kurumsal AI, veri ve güvenlik liderleri için önemli olanı elde etmek için haftalık bültenlerimize kaydolun. Şimdi abone olun
Araştırmacılar Katanemo Labs tanıttı Kemerkullanıcı sorgularını en uygun büyük dil modeline (LLM) akıllıca eşlemek için tasarlanmış yeni bir yönlendirme modeli ve çerçevesi.
Birden fazla LLM’ye dayanan işletmeler yapım ürünleri için, kemer yönlendirici önemli bir meydan okumayı çözmeyi amaçlamaktadır: bir şey değiştiğinde katı mantığa veya pahalı yeniden eğitilmeye güvenmeden iş için en iyi modele nasıl yönlendirilir.
LLM yönlendirmesinin zorlukları
LLM sayısı büyüdükçe, geliştiriciler tek mannequin kurulumlardan belirli görevler için (örneğin, kod oluşturma, metin özetleme veya görüntü düzenleme) her modelin benzersiz güçlerini kullanan çok mannequin sistemlere geçiyor.
LLM yönlendirmesi, her kullanıcı sorgusunu en uygun modele yönlendiren bir trafik denetleyicisi olarak hareket eden bu sistemleri oluşturmak ve dağıtmak için temel bir teknik olarak ortaya çıkmıştır.
Mevcut yönlendirme yöntemleri genellikle iki kategoriye ayrılır: sorguların önceden tanımlanmış görevlere göre yönlendirildiği “görev tabanlı yönlendirme” ve maliyet ve performans arasında optimum bir denge arayan “performans tabanlı yönlendirme”.
Bununla birlikte, görev tabanlı yönlendirme, özellikle çok dönüş konuşmalarında belirsiz veya değişen kullanıcı niyetleri ile mücadele eder. Performans tabanlı yönlendirme, ölçüt puanlarına katı bir şekilde öncelik verir, genellikle gerçek dünya kullanıcı tercihlerini ihmal eder ve maliyetli ince ayar yapmadıkça yeni modellere kötü uyum sağlar.
Daha temel olarak, Katanemo Labs araştırmacılarının kağıt“Mevcut yönlendirme yaklaşımlarının gerçek dünya kullanımında sınırlamaları vardır. Sübjektif değerlendirme kriterleri tarafından yönlendirilen insan tercihlerini ihmal ederken tipik olarak kıyaslama performansı için optimize ederler.”
Araştırmacılar, “öznel insan tercihlerine hizalanan, daha fazla şeffaflık sunan ve modeller ve kullanım durumları geliştikçe kolayca uyarlanabilir kalan” yönlendirme sistemlerine olan ihtiyacını vurguluyor.
Tercih edilen yönlendirme için yeni bir çerçeve
Bu sınırlamaları ele almak için araştırmacılar, sorguları kullanıcı tanımlı tercihlere dayalı yönlendirme politikaları ile eşleştiren bir “tercih hizalı yönlendirme” çerçevesi önermektedir.
Bu çerçevede, kullanıcılar yönlendirme politikalarını doğal dilde “alan-eylem taksonomisi” kullanarak tanımlar. Bu, insanların genel bir konudan (“yasal” veya “finans” gibi alan adı) başlayıp belirli bir göreve (“özetleme” veya “kod oluşturma” gibi eylem) daralma görevlerini doğal olarak nasıl tanımladığını yansıtan iki seviyeli bir hiyerarşidir.
Bu politikaların her biri daha sonra tercih edilen bir modelle bağlantılıdır ve geliştiricilerin sadece kıyaslama puanları yerine gerçek dünya ihtiyaçlarına dayalı yönlendirme kararları vermelerine olanak tanır. Makalenin belirttiği gibi, “bu taksonomi, kullanıcıların web ve yapılandırılmış yönlendirme politikalarını tanımlamalarına yardımcı olmak için zihinsel bir mannequin görevi görür.”
Yönlendirme işlemi iki aşamada gerçekleşir. İlk olarak, tercih hizalanmış bir yönlendirici modeli, kullanıcı sorgusunu ve tüm politikaları alır ve en uygun politikayı seçer. İkincisi, bir eşleme işlevi seçilen ilkeyi belirlenen LLM’ye bağlar.
Mannequin seçim mantığı politikadan ayrıldığından, yönlendiricinin kendisini yeniden eğitmeye veya değiştirmeye gerek kalmadan, modeller sadece yönlendirme politikalarını düzenleyerek eklenebilir, kaldırılabilir veya değiştirilebilir. Bu ayrıştırma, modellerin ve kullanım durumlarının sürekli geliştiği pratik dağıtımlar için gerekli esnekliği sağlar.
Politika seçimi, tercih hizalanmış yönlendirme için ince ayarlanmış kompakt 1.5b parametre dil modeli olan kemer yönlendirici tarafından desteklenmektedir. Kemer yönlendirici, istemi içinde kullanıcı sorgusunu ve tam politika açıklama kümesini alır. Daha sonra en iyi eşleştirme politikasının tanımlayıcısını oluşturur.
Politikalar girdinin bir parçası olduğundan, sistem, bağlam içi öğrenme ve yeniden eğitilmeden çıkarım zamanında yeni veya değiştirilmiş yollara uyum sağlayabilir. Bu üretken yaklaşım, kemer yönlendiricisinin hem sorgunun hem de politikaların anlambilimini anlamak ve tüm konuşma geçmişini aynı anda işlemek için önceden eğitilmiş bilgilerini kullanmasına izin verir.
Bir istemde kapsamlı politikaların dahil edilmesi ile ilgili yaygın bir endişe, artan gecikme potansiyelidir. Bununla birlikte, araştırmacılar kemer yönlendiricisini çok verimli olacak şekilde tasarladılar. Katanemo Labs’ın kurucusu/CEO’su Salman Paracha, “Yönlendirme politikalarının uzunluğu uzun sürebilirken, kemer yönlendiricinin bağlam penceresini gecikme üzerinde minimal etki ile kolayca artırabiliriz” diye açıklıyor. Gecikmenin öncelikle çıktının uzunluğu tarafından yönlendirildiğini ve kemer yönlendiricisi için çıktı, “Image_editing” veya “Document_creation” gibi bir yönlendirme politikasının kısa adıdır.
Arch yönlendirici eylemde
Kemer yönlendirici oluşturmak için, araştırmacılar QWEN 2.5 modelinin 1.5B parametre sürümünü 43.000 örnekten oluşan bir veri kümesinde ince ayarladılar. Daha sonra performansını, konuşma yapay zeka sistemlerini değerlendirmek için tasarlanmış dört kamu veri kümesinde Openai, Antropic ve Google’ın son teknoloji ürünü mannequin modellerine karşı take a look at ettiler.
Sonuçlar, kemer yönlendiricinin en yüksek genel yönlendirme puanınıpercent93,17 oranında elde ettiğini ve en iyi tescilli modeller de dahil olmak üzere diğer tüm modelleri ortalamapercent7,71 oranında aştığını göstermektedir. Modelin avantajı, daha uzun konuşmalarla büyüdü ve bağlamı birden fazla dönüşte izleme yeteneğini gösterdi.

Uygulamada, Paracha’ya göre bu yaklaşım zaten çeşitli senaryolarda uygulanmaktadır. Örneğin, açık kaynaklı kodlama araçlarında, geliştiriciler her görev için en uygun LLM’lere iş akışlarının farklı aşamalarını “kod tasarımı”, “kod anlayışı” ve “kod oluşturma” gibi yönlendirmek için kemer yönlendiricisini kullanırlar. Benzer şekilde, işletmeler, Gemini 2.5 Professional’ya görüntü düzenleme görevleri gönderirken, belge oluşturma isteklerini Claude 3.7 sonnet gibi bir modele yönlendirebilir.
Sistem aynı zamanda idealdir “kullanıcıların metin özetlemeden factoid sorgularına kadar çeşitli görevlere sahip olduğu çeşitli alanlardaki kişisel asistanlar için” dedi Paracha, “Bu durumlarda, kemer yönlendiricinin geliştiricilerin genel kullanıcı deneyimini birleştirmesine ve geliştirmelerine yardımcı olabileceğini” ekledi.
Bu çerçeve ile entegre edilmiştir KemerGeliştiricilerin sofistike trafik şekillendirme kuralları uygulamalarını sağlayan ajanlar için Katanemo Labs’ın ai-anal proxy sunucusu. Örneğin, yeni bir LLM’yi entegre ederken, bir ekip belirli bir yönlendirme politikası için trafiğin küçük bir kısmını yeni modele gönderebilir, performansını dahili metriklerle doğrulayabilir ve daha sonra trafiği güvenle tamamen geçebilir. Şirket ayrıca, kurumsal geliştiriciler için bu süreci daha da kolaylaştırmak için araçlarını değerlendirme platformlarıyla entegre etmek için çalışıyor.
Nihayetinde amaç, sessiz AI uygulamalarının ötesine geçmektir. Paracha, “Kemer yöneticisi ve daha geniş bir şekilde kemer geliştiricileri ve işletmeleri parçalanmış LLM uygulamalarından birleşik, politika güdümlü bir sisteme geçiyor” diyor. “Kullanıcı görevlerinin çeşitli olduğu senaryolarda, çerçevemiz bu görevi ve LLM parçalanmasını birleşik bir deneyime dönüştürmeye yardımcı olarak son ürünü son kullanıcıya sorunsuz hissettiriyor.”
avots