Ana Sayfa Teknoloji Halüsinasyonlardan donanıma kadar: Gerçek dünyadaki bir bilgisayar görme projesinden dersler yanlara gitti

Halüsinasyonlardan donanıma kadar: Gerçek dünyadaki bir bilgisayar görme projesinden dersler yanlara gitti

13
0

Gelen kutunuzda daha akıllı bilgiler ister misiniz? Sadece kurumsal AI, veri ve güvenlik liderleri için önemli olanı elde etmek için haftalık bültenlerimize kaydolun. Şimdi abone olun


Bilgisayar görme projeleri nadiren tam olarak planlandığı gibi gidiyor ve bu bir istisna değildi. Fikir basitti: bir dizüstü bilgisayarın fotoğrafına bakabilecek ve herhangi bir fiziksel hasarı tanımlayabilecek bir mannequin oluşturun – çatlamış ekranlar, eksik anahtarlar veya kırık menteşeler gibi şeyler. Görüntü modelleri ve büyük dil modelleri (LLMS) için basit bir kullanım durumu gibi görünüyordu, ancak hızla daha karmaşık bir şeye dönüştü.

Yol boyunca, halüsinasyonlar, güvenilmez çıktılar ve dizüstü bilgisayarlar bile olmayan görüntülerle ilgili sorunlarla karşılaştık. Bunları çözmek için, görev otomasyonu için değil, modelin performansını artırmak için bir ajan çerçevesi atipik bir şekilde uyguladık.

Bu yazıda, denediklerimizi, neyin işe yaramadığı ve yaklaşımların bir kombinasyonunun sonunda güvenilir bir şey oluşturmamıza nasıl yardımcı olacağız.

Nerede başladık: monolitik isteme

İlk yaklaşımımız çok modlu bir mannequin için oldukça standarttı. Bir görüntüyü görüntü özellikli bir LLM’ye geçirmek için tek, büyük bir istemi kullandık ve görünür hasarı tanımlamasını istedik. Bu monolitik yol stratejisi, uygulanması basittir ve temiz, iyi tanımlanmış görevler için iyi çalışır. Ancak gerçek dünya verileri nadiren oynar.

Erken üç büyük meseleyle karşılaştık:

  • Halüsinasyonlar: Mannequin bazen var olmayan hasarı icat eder veya gördüklerini yanlış etiketler.
  • Önemsiz görüntü algılama: Masalar, duvarlar veya insanlar gibi zaman zaman kaydı ve saçma hasar raporları gibi dizüstü bilgisayarlar bile olmayan görüntüleri işaretlemenin güvenilir bir yolu yoktu.
  • Tutarsız doğruluk: Bu sorunların birleşimi, modeli operasyonel kullanım için çok güvenilmez hale getirdi.

Yinelemememiz gerektiği anlaşıldığı nokta buydu.

İlk düzeltme: Görüntü çözünürlüklerini karıştırma

Fark ettiğimiz bir şey, görüntü kalitesinin modelin çıktısını ne kadar etkilediğiydi. Kullanıcılar keskin ve yüksek çözünürlükten bulanıklaşmaya kadar her türlü görüntüyü yüklediler. Bu bizi atıfta bulunmaya itti araştırma Görüntü çözünürlüğünün derin öğrenme modellerini nasıl etkilediğini vurgulamak.

Yüksek ve düşük çözünürlüklü görüntülerin bir karışımını kullanarak modeli eğittik ve check ettik. Fikir, modeli pratikte karşılaşacağı çok çeşitli görüntü niteliklerine daha dayanıklı hale getirmekti. Bu, tutarlılığın iyileştirilmesine yardımcı oldu, ancak halüsinasyon ve önemsiz görüntü kullanmanın temel sorunları devam etti.

Multimodal dolambaçlı: Yalnızca Textual content LLM Multimodal Gidiyor

Görüntü altyazısını yalnızca metinle birleştirme ile ilgili son deneylerle teşvik edildi- Partialtyazıların görüntülerden oluşturulduğu ve daha sonra bir dil modeli tarafından yorumlandığı durumlarda, denemeye karar verdik.

İşte böyle çalışıyor:

  • LLM, bir görüntü için birden fazla olası altyazı oluşturarak başlar.
  • Multimodal gömme modeli olarak adlandırılan başka bir mannequin, her altyazının görüntüye ne kadar iyi uyduğunu kontrol eder. Bu durumda, görüntü ve metin arasındaki benzerliği puanlamak için Siglip’i kullandık.
  • Sistem, bu puanlara dayanarak ilk birkaç altyazı tutar.
  • LLM, bu en iyi altyazıları yenilerini yazmak için kullanır ve görüntünün gerçekte gösterdiği şeye yaklaşmaya çalışır.
  • Altyazılar iyileşmeyi bırakana veya belirli bir sınıra çarpana kadar bu işlemi tekrarlar.

Teoride zeki olsa da, bu yaklaşım kullanım durumumuz için yeni sorunlar getirdi:

  • Kalıcı halüsinasyonlar: Altyazıların kendileri bazen LLM’nin daha sonra güvenle bildirdiği hayali hasar içeriyordu.
  • Eksik kapsam: Birden fazla altyazıyla bile, bazı sorunlar tamamen kaçırıldı.
  • Artan karmaşıklık, çok az fayda: Eklenen adımlar, önceki kurulumdan güvenilir bir şekilde daha iyi performans göstermeden sistemi daha karmaşık hale getirdi.

İlginç bir deneydi, ama sonuçta bir çözüm değildi.

Ajan çerçevelerinin yaratıcı kullanımı

Bu dönüm noktasıydı. Ajan çerçeveleri genellikle görev akışlarını düzenlemek için kullanılırken (takvim davetlerini veya müşteri hizmetleri eylemlerini koordine eden ajanları düşünün), görüntü yorumlama görevini daha küçük, uzmanlaşmış ajanların yardımcı olup olamayacağını merak ettik.

Böyle yapılandırılmış bir aracı çerçeve oluşturduk:

  • Orkestratör ajanı: Görüntüyü kontrol etti ve hangi dizüstü bilgisayar bileşenlerinin görünür olduğunu (ekran, klavye, şasi, bağlantı noktaları) belirledi.
  • Bileşen Aracıları: Özel ajanlar her bileşeni belirli hasar türleri için denetledi; Örneğin, biri çatlak ekranlar için, diğeri eksik anahtarlar için.
  • Önemsiz tespit ajanı: Ayrı bir ajan, görüntünün ilk etapta bir dizüstü bilgisayar olup olmadığını işaretledi.

Bu modüler, görev odaklı yaklaşım çok daha kesin ve açıklanabilir sonuçlar üretti. Halüsinasyonlar önemli ölçüde düştü, önemsiz görüntüler güvenilir bir şekilde işaretlendi ve her ajanın görevi kaliteyi iyi kontrol edecek kadar basit ve odaklanmıştı.

Kör Noktalar: Bir Ajan Yaklaşımının Değişimi

Bu kadar etkili, mükemmel değildi. İki ana sınırlama ortaya çıktı:

  • Artan gecikme: Toplam çıkarım süresine birden fazla sıralı ajanın çalıştırılması.
  • Kapsama boşlukları: Temsilciler yalnızca açıkça arayacakları sorunları tespit edebilirler. Bir görüntü, hiçbir ajanın tanımlanmasıyla görevlendirilmediği beklenmedik bir şey gösterdiyse, fark edilmeyecektir.

Hassasiyeti kapsama ile dengelemenin bir yoluna ihtiyacımız vardı.

Hibrit Çözüm: Ajan ve Monolitik Yaklaşımları Birleştirme

Boşlukları kapatmak için hibrit bir sistem oluşturduk:

  1. . ajan çerçevesi Önce bilinen hasar türlerinin ve önemsiz görüntülerin kesin tespiti ile koştu. Gecikmeyi artırmak için ajan sayısını en önemli olanlarla sınırladık.
  2. O zaman, Monolitik Picture LLM istemi Ajanların kaçırmış olabileceği her şey için görüntüyü taradı.
  3. Sonunda biz Modeli ince ayarlı Doğruluğu ve güvenilirliği daha da artırmak için, sıkça bildirilen hasar senaryoları gibi yüksek öncelikli kullanım durumları için küratörlü bir dizi görüntü kullanmak.

Bu kombinasyon bize ajan kurulumunun hassasiyetini ve açıklanabilirliğini, monolitik istasyonun geniş kapsamını ve hedeflenen ince ayarın güvenini artırdı.

Ne öğrendik

Bu projeyi tamamladığımızda birkaç şey netleşti:

  • Ajan çerçeveleri kredi aldıklarından daha çok yönlüdür: Genellikle iş akışı yönetimi ile ilişkili olsa da, yapılandırılmış, modüler bir şekilde uygulandığında mannequin performansını anlamlı bir şekilde artırabileceklerini bulduk.
  • Farklı yaklaşımları harmanlamak, sadece birine dayanarak atıyor: LLM’lerin geniş kapsamı ile birlikte hassas, ajan tabanlı tespitin kombinasyonu ve en çok önemli olduğu yerde biraz ince ayar, bize tek başına tek bir yöntemden çok daha güvenilir sonuçlar verdi.
  • Görsel modeller halüsinasyonlara eğilimlidir: Daha gelişmiş kurulumlar bile sonuçlara atlayabilir veya orada olmayan şeyleri görebilir. Bu hataları kontrol altında tutmak için düşünceli bir sistem tasarımı gerektirir.
  • Görüntü kalitesi çeşitliliği bir fark yaratır: Hem web, yüksek çözünürlüklü görüntüler hem de günlük, daha düşük kaliteli olanlarla eğitim ve check, öngörülemeyen, gerçek dünya fotoğraflarıyla karşılaştığında modelin esnek kalmasına yardımcı oldu.
  • Önemsiz görüntüleri yakalamak için bir yola ihtiyacınız var: Önemsiz veya ilgisiz resimler için özel bir kontrol, yaptığımız en basit değişikliklerden biriydi ve genel sistem güvenilirliği üzerinde büyük bir etkisi vardı.

Son Düşünceler

Dizüstü bilgisayar görüntülerinde fiziksel hasarı tespit etmek için bir LLM istemini kullanarak basit bir fikir olarak başlayan şey, öngörülemeyen, gerçek dünya sorunlarıyla başa çıkmak için farklı AI tekniklerini birleştirmede çok daha derin bir deney haline geldi. Yol boyunca, en kullanışlı araçlardan bazılarının bu tür işler için başlangıçta tasarlanmayan araçlar olduğunu fark ettik.

Genellikle iş akışı yardımcı programları olarak görülen ajan çerçeveleri, yapılandırılmış hasar algılama ve görüntü filtreleme gibi görevler için yeniden tasarlandığında şaşırtıcı derecede etkili oldu. Biraz yaratıcılıkla, sadece daha doğru olmayan, aynı zamanda pratikte anlaşılması ve yönetilmesi daha kolay bir sistem oluşturmamıza yardımcı oldular.

Shruti Tiwari, Dell Applied sciences’de AI ürün yöneticisidir.

Vadiraj Kulkarni, Dell Applied sciences’de veri bilimcisidir.


avots