Ana Sayfa Teknoloji Langchain’in Hizası Evals, Değerlendirici Güven Gapını hızlı düzey kalibrasyonla kapatır

Langchain’in Hizası Evals, Değerlendirici Güven Gapını hızlı düzey kalibrasyonla kapatır

9
0

Gelen kutunuzda daha akıllı bilgiler ister misiniz? Sadece kurumsal AI, veri ve güvenlik liderleri için önemli olanı elde etmek için haftalık bültenlerimize kaydolun. Şimdi abone olun


İşletmeler, uygulamalarının iyi çalışmasını ve güvenilir olduğundan emin olmak için giderek daha fazla AI modellerine yöneldikçe, mannequin tarafından yönetilen değerlendirmeler ve insan değerlendirmeleri arasındaki boşluklar daha web hale gelmiştir.

Bununla mücadele etmek için Langchain Büyük dil modeli tabanlı değerlendiriciler ve insan tercihleri arasındaki boşluğu kapatmanın ve gürültüyü azaltmanın bir yolu olan Langsmith’e Hizalama Evals’ı ekledi. Hizalama Evals, Langsmith kullanıcılarının kendi LLM tabanlı değerlendiricilerini oluşturmalarını ve şirket tercihleriyle daha yakından hizalanmaları için kalibre etmelerini sağlar.

“Ancak, takımlardan tutarlı bir şekilde duyduğumuz büyük bir zorluk: ‘Değerlendirme puanlarımız, ekibimizde bir insanın söylemesini beklediğimiz şeyle eşleşmiyor.’ Bu uyumsuzluk, gürültülü karşılaştırmalara ve yanlış sinyalleri kovalayan zamana yol açar ”dedi. Bir blog yazısında.

Langchain, llm olarak llm-bir entegre veya diğer modeller için mannequin liderliğindeki değerlendirmeleri doğrudan take a look at panosuna entegre eden birkaç platformdan biridir.


AI Etki Serisi San Francisco’ya Dönüyor – 5 Ağustos

Yapay zekanın bir sonraki aşaması burada – hazır mısınız? Otonom ajanların kurumsal iş akışlarını nasıl yeniden şekillendirdiğine özel bir bakış için Block, GSK ve SAP’den liderlere katılın-gerçek zamanlı karar vermeden uçtan uca otomasyona kadar.

Şimdi yerinizi sabitleyin – Alan Sınırlı:


Şirket, Amazon Müdürü Uygulamalı Bilim Adamı Eugene Yan’ın bir kağıda dayanan Evals’a dayandığını söyledi. İçinde kağıtDeğerlendirme sürecinin bölümlerini otomatikleştirecek Aligneval olarak da adlandırılan bir uygulamanın çerçevesini ortaya koydu.

https://www.youtube.com/watch?v=-9o94oJ4x0a

Hizalama Evals, işletmelerin ve diğer inşaatçıların değerlendirme istemlerinde yinelemelerine, insan değerlendiricilerinden ve LLM tarafından üretilen puanlardan gelen hizalama puanlarını ve temel hizalama puanını karşılaştırmasına izin verecektir.

Langchain, Hizalama Evals’ın “daha iyi değerlendiriciler oluşturmanıza yardımcı olmanın ilk adımı” dedi. Şirket, zamanla, performansı izlemek ve hızlı optimizasyonu otomatikleştirmek için analitik entegre etmeyi ve hızlı varyasyonları otomatik olarak üretmeyi amaçlamaktadır.

Nasıl Başlatılır

Kullanıcılar öncelikle uygulamaları için değerlendirme kriterlerini belirleyecektir. Örneğin, sohbet uygulamaları genellikle doğruluk gerektirir.

Ardından, kullanıcılar insan incelemesi için istedikleri verileri seçmelidir. Bu örnekler hem iyi hem de kötü yönleri göstermelidir, böylece insan değerlendiricilerinin uygulamaya bütünsel bir bakış açısı kazanabilir ve bir dizi not atayabilir. Geliştiriciler daha sonra bir ölçüt görevi görecek istemler veya görev hedefleri için puanlar atamalıdır.

Geliştiricilerin daha sonra mannequin değerlendiricisi için bir başlangıç istemi oluşturmaları ve insan sınıflandırıcılarının hizalama sonuçlarını kullanarak yineleme yapmaları gerekir.

Langchain, “Örneğin, LLM’niz sürekli olarak belirli yanıtları aşırı puan alıyorsa, daha web olumsuz kriterler eklemeyi deneyin. Değerlendirici puanınızı iyileştirmek yinelemeli bir süreçtir. Dokümanlarımızdaki isteminizle ilgili en iyi uygulamalar hakkında daha fazla bilgi edinin” dedi.

Artan sayıda LLM değerlendirmesi

Giderek daha fazla işletmeler, değerlendirmek için değerlendirme çerçevelerine yöneliyor. Uygulamalar ve aracılar dahil AI sistemlerinin güvenilirliği, davranış, görev uyum ve denetlenebilirliği. Modellerin veya ajanların nasıl performans gösterdiğine dair web bir puana işaret edebilmek, kuruluşlara sadece AI uygulamalarını dağıtmak için güven değil, aynı zamanda diğer modelleri karşılaştırmayı da kolaylaştırır.

Şirketler sever Salesforce Ve Aws Müşterilerin performansı değerlendirmeleri için yollar sunmaya başladı. Salesforce’un AgentForce 3, aracı performansını gösteren bir komuta merkezine sahiptir. AWS, kullanıcıların uygulamalarını take a look at etmek için modeli seçebilecekleri, ancak bunlar kullanıcı tarafından oluşturulan mannequin değerlendiricileri olmamasına rağmen, hem insan hem de otomatik değerlendirme sağlar. Openai Ayrıca mannequin tabanlı değerlendirme sunar.

Meta‘S kendi kendine öğretilen değerlendirici, Langsmith’in kullandığı aynı llm-yargıç konseptine dayanmaktadır, ancak Meta henüz uygulama geliştirme platformlarından herhangi biri için bir özellik haline getirmemiştir.

Daha fazla geliştirici ve işletme performansı değerlendirmek için daha kolay değerlendirme ve daha özelleştirilmiş yollar talep ettikçe, daha fazla platform, diğer modelleri değerlendirmek için modelleri kullanmak için entegre yöntemler sunmaya başlayacak ve daha fazlası işletmeler için özel seçenekler sunacaktır.


avots

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz