Ana Sayfa Teknoloji Open-Supply McPeval, Protokol Seviyesi Ajan Take a look at Yap ve Oynatma...

Open-Supply McPeval, Protokol Seviyesi Ajan Take a look at Yap ve Oynatma Yapar

9
0

Gelen kutunuzda daha akıllı bilgiler ister misiniz? Sadece kurumsal AI, veri ve güvenlik liderleri için önemli olanı elde etmek için haftalık bültenlerimize kaydolun. Şimdi abone olun


İşletmeler, öncelikle ajan aracı kullanımının tanımlanmasını ve rehberliğini kolaylaştırmak için mannequin bağlam protokolünü (MCP) benimsemeye başlar. Ancak araştırmacılar Salesforce AI ajanlarının kendilerini değerlendirmeye yardımcı olmak için MCP teknolojisini kullanmanın başka bir yolunu keşfetti.

Araştırmacılar, araç kullanırken ajan performansını check eden MCP sisteminin mimarisi üzerine inşa edilmiş yeni bir yöntem ve açık kaynaklı araç seti olan McPeval’ı tanıttı. Ajanlar için mevcut değerlendirme yöntemlerinin, bunların “genellikle statik, önceden tanımlanmış görevlere güvendiği, böylece etkileşimli gerçek dünya ajan iş akışlarını yakalayamaması” nedeniyle sınırlı olduğunu belirttiler.

Araştırmacılar, “McPeval, ayrıntılı görev yörüngelerini ve protokol etkileşim verilerini sistematik olarak toplayarak, ajan davranışına benzeri görülmemiş bir görünürlük yaratarak ve yinelemeli iyileştirme için değerli veri kümeleri üreterek geleneksel başarı/başarısızlık metriklerinin ötesine geçiyor” dedi. gazetede. “Buna ek olarak, hem görev oluşturma hem de doğrulama tamamen otomatik olduğundan, sonuçta elde edilen yüksek kaliteli yörüngeler, ajan modellerinin hızlı ince ayarlanması ve sürekli iyileştirilmesi için hemen kaldırılabilir. McPeval tarafından üretilen kapsamlı değerlendirme raporları, ajan-platform iletişiminin doğruluğuna granül düzeyde harekete geçirilebilir bilgiler de sunar.”

McPeval, araştırmacıların yeni MCP araçlarının ve sunucularının hızlı bir şekilde değerlendirilmesine izin verdiğini iddia ettikleri tam otomatik bir süreç olarak farklılaşıyor. Her ikisi de ajanların bir MCP sunucusu içindeki araçlarla nasıl etkileşime girdikleri, sentetik veriler ürettiği ve temsilcileri karşılaştırma için bir veritabanı oluşturduğu hakkında bilgi toplar. Kullanıcılar, aracın performansını check etmek için bu sunucular içinde hangi MCP sunucularını ve araçlarını seçebilir.


AI Etki Serisi San Francisco’ya Dönüyor – 5 Ağustos

Yapay zekanın bir sonraki aşaması burada – hazır mısınız? Otonom ajanların kurumsal iş akışlarını nasıl yeniden şekillendirdiğine özel bir bakış için Block, GSK ve SAP’den liderlere katılın-gerçek zamanlı karar vermeden uçtan uca otomasyona kadar.

Şimdi yerinizi sabitleyin – Alan Sınırlı:


Salesforce’da kıdemli AI araştırma müdürü Shelby Heinecke ve makalenin yazarlarından biri, VentureBeat’e, özellikle alana özgü rollerdeki ajanlar için ajan performansı hakkında doğru veri almanın zor olduğunu söyledi.

Heinecke, “Teknoloji endüstrisine bakarsanız, birçoğumuzun bunları nasıl dağıtacağımızı anladık. Şimdi bunları nasıl düzgün değerlendireceğimizi bulmamız gerekiyor” dedi. “MCP çok yeni bir fikir, çok yeni bir paradigma. Yani, ajanların araçlara erişebileceği harika, ancak yine bu araçlardaki aracıları değerlendirmemiz gerekiyor. McPeval’ın tam olarak budur.”

Nasıl Çalışır

McPeval’in çerçevesi bir görev üretimi, doğrulama ve mannequin değerlendirme tasarımı alır. Kullanıcıların daha aşina oldukları modellerle çalışmayı seçebilmeleri için birden fazla büyük dil modelinden (LLMS) yararlanmak, ajanlar piyasadaki çeşitli mevcut LLM’lerle değerlendirilebilir.

İşletmeler McPeval’a Salesforce tarafından yayınlanan açık kaynaklı bir araç seti aracılığıyla erişebilir. Bir gösterge tablosu aracılığıyla, kullanıcılar sunucuyu bir mannequin seçerek yapılandırır, bu da aracının seçilen MCP sunucusunda izlemesi için otomatik olarak görevler oluşturur.

Kullanıcı görevleri doğruladığında, McPeval daha sonra görevleri alır ve gerekli araç çağrılarını temel gerçeği olarak belirler. Bu görevler testin temeli olarak kullanılacaktır. Kullanıcılar değerlendirmeyi hangi modeli çalıştırmayı tercih ettiklerini seçerler. McPeval, aracı ve check modelinin bu araçlara erişme ve kullanma konusunda ne kadar iyi işlev gördüğü hakkında bir rapor oluşturabilir.

Heinecke, McPeval’ın sadece ajanları kıyaslamak için verileri değil, aynı zamanda ajan performansındaki boşlukları da tanımlayabileceğini söyledi. McPeval çalışmaları aracılığıyla ajanları değerlendirerek sadece performansı check etmek için değil, aynı zamanda ajanları gelecekte kullanılmak üzere eğitmek için toplanan bilgiler.

Heinecke, “McPeval’in ajanlarınızı değerlendirmek ve düzeltmek için tek elden bir dükkana girdiğini görüyoruz” dedi.

McPeval’i diğer ajan değerlendiricilerinden öne çıkaran şeyin, testi ajanın çalışacağı aynı ortama getirmesi olduğunu da sözlerine ekledi. Temsilciler, muhtemelen konuşlandırılacakları MCP sunucusu içindeki araçlara ne kadar iyi eriştikleri konusunda değerlendirilir.

Makale, deneylerde GPT-4 modellerinin genellikle en iyi değerlendirme sonuçlarını sağladığını belirtti.

Ajan performansını değerlendirme

İşletmelerin ajan performansını check etmeye ve izlemeye başlama ihtiyacı, çerçeveler ve tekniklerin patlamasına yol açmıştır. Bazı platformlar hem kısa vadeli hem de uzun vadeli ajan performansını değerlendirmek için check ve birkaç yöntem sunar.

AI ajanları, genellikle bir insanın onları teşvik etmesine gerek kalmadan kullanıcılar adına görevleri yerine getirecektir. Şimdiye kadar, ajanların yararlı oldukları kanıtlanmıştır, ancak elindeki çok sayıda araçla bunalabilirler.

GalileoBir başlangıç, işletmelerin bir acentenin araç seçiminin kalitesini değerlendirmesini ve hataları tanımlamasını sağlayan bir çerçeve sunar. Salesforce, temsilcileri check etmek için Aracorce panosunda özellikleri başlattı. Singapur Administration Üniversitesi’nden araştırmacılar, ajan güvenilirliğini elde etmek ve izlemek için agentspec yayınladı. MCP değerlendirmesi ile ilgili çeşitli akademik çalışmalar da yayınlanmıştır. MCP-Radar Ve McPworld.

Massachusetts Üniversitesi Amherst ve Xi’an Jiaotong Üniversitesi’nden araştırmacılar tarafından geliştirilen MCP-Radar, yazılım mühendisliği veya matematik gibi daha genel etki alanı becerilerine odaklanmaktadır. Bu çerçeve verimlilik ve parametre doğruluğuna öncelik verir.

Öte yandan, Pekin Yayınlar ve Telekomünikasyon Üniversitesi’nden MCPWorld, grafik kullanıcı arayüzlerine, API’lara ve diğer bilgisayar kullanım aracılarına kıyaslama getiriyor.

Heinecke nihayetinde, ajanların nasıl değerlendirildiğini, şirkete ve kullanım durumuna bağlı olacağını söyledi. Bununla birlikte, önemli olan, işletmelerin özel ihtiyaçları için en uygun değerlendirme çerçevesini seçmesidir. İşletmeler için, ajanların gerçek dünya senaryolarında nasıl çalıştığını iyice check etmek için alana özgü bir çerçeve düşünmeyi önerdi.

Heinecke, “Bu değerlendirme çerçevelerinin her birinde değer var ve bunlar, gencin ne kadar güçlü olduğuna dair erken bir sinyal verdikleri için harika başlangıç noktaları” dedi. “Ama bence en önemli değerlendirme, alana özgü değerlendirmenizdir ve ajanın çalışacağı çevreyi yansıtan değerlendirme verileri ortaya çıkar.”


avots

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz