Kendinizin bir AI versiyonuyla sohbet etme dürtüsünüz varsa, şimdi yapabilirsiniz.
Perşembe günü, AI Begin-up Hume yeni bir “hiperrealist ses klonlama” nın lansmanını duyurdu özellik Geçen ay açıklanan Empatik Ses Arayüzü (EVI) modeli Evi 3’ün en son yinelemesi için. Fikir, kendinizin kısa bir ses kaydını yükleyerek-ideal olarak 30 ila 90 saniye arasında-modelin, sesinizin AI tarafından oluşturulan bir kopyasını hızla çalkalayabilmelidir, bu da daha sonra önünüzde duran başka bir kişiyle olduğu gibi sözlü olarak etkileşime girebilirsiniz.
Ayrıca: Duygu ile Metin-Konuşma-Bu yeni AI modeli her şeyi yapıyor ama bir gözyaşı döküyor
Sesimin bir kaydını Evi 3’e yükledim ve modelin sesimi taklidi ile boş zaman geçirdim. Tekinsiz bir vadi deneyimine sahip olmayı umuyordum – bu son derece nadir görülen bir şeyle etkileşim duygusu neredeyse Tamamen gerçek, henüz bir kişiyi biraz tedirgin hissettirecek kadar kilter-ve Evi 3 Me daha çok kendimin sesli bir çizgi movie versiyonuna benzediğinde hayal kırıklığına uğradı.
Bunu biraz açmama izin ver.
Evi 3’ün ses klonlama özelliğini kullanma
Sesimin taklidi, bazı açılardan inkar edilemez gerçekçi idi. Tanıdık bir vokal kızartma dokunuşu ile az çok konuşurken konuşurken aralıklı olarak duraklamış gibi görünüyordu. Ama yansıtma orada durdu.
Hume, weblog yazısında Evi 3’ün yeni ses klonlama özelliğinin “konuşmacının kişiliğinin yönlerini” yakalayabileceğini iddia ediyor. Bu belirsiz bir vaattir (muhtemelen kasıtlı olarak öyle), ancak kendi denemelerimde mannequin bu konuda yetersiz kalmış gibi görünüyordu. Kendi davranışlarımın ve mizah anlayışımın ikna edici bir simülasyonu gibi hissetmekten çok, mannequin, antidepresanlar için bir radyo reklamına uygun olacak bir parçalayıcı, memnuniyetsiz bir tonla konuştu. Kendimi arkadaş canlısı ve genellikle iyimser olarak düşünmeyi seviyorum, ancak AI açıkça bu karakter özelliklerini abartıyordu.
Ayrıca: AI ile AI ile savaşmak, finans firmaları 5 milyon dolarlık sahtekarlığı önledi – ama ne pahasına?
Genellikle köpek yavrusu benzeri tavrına rağmen, mannequin bir aksanla konuşmayı denemeyi reddetmesinde garip bir şekilde sadıktı, bu bana mükemmel olacağı gibi eğlenceli bir ses egzersizi gibi görünüyordu. Avustralya aksanı bir koşuşturma vermesini istediğimde, regular sesimde bir veya iki kez “g’day” ve “eş” dedi, sonra hemen daha cesur bir şeyden uzaklaştı. Ve ne hakkında konuşmasını istersem ne olursa olsun, Sesimi kullanması için bir örnek olarak kaydettiğimde tartıştığım konuya geri dönmenin yaratıcı ve dolambaçlı bir yol bulma eğilimindeydi, geçen yıl Claude’un geçtiği antropikten bir deneyi anımsatan Golden Gate Köprüsü’ne takıntılı.
Örneğin, ikinci denememde, kendimi o sabah daha erken dinlediğim Led Zeppelin hakkında konuştum. Daha sonra Evi 3’ün ses klonunu, karanlık maddenin doğası hakkındaki düşüncelerini açıklamasını istediğimde, yanıtını müzik konusuna geri getirmenin bir yolunu buldu ve kozmosu saran gizemli görünmez gücü, bir şarkıyı anlam ve güçle donatan somut olmayan melodiyle karşılaştırdı.
Evi 3’ün yeni ses klonlama özelliğini kendiniz deneyebilirsiniz Burada.
Hume’s’a göre web sitesiEVI API ile etkileşimlerden üretilen kullanıcı verileri, şirketin modellerini eğitmek için varsayılan olarak toplanır ve anonimleştirilir. Bununla birlikte, profilinizdeki “Sıfır Veri Tutma” özelliği ile bunu kapatabilirsiniz. Yukarıda bağlantılı demo da dahil olmak üzere API olmayan ürünler için, şirket modellerini geliştirmek için “veri toplayabilir ve kullanabilir” diyor-ancak tekrar, kişisel bir profil oluşturursanız bunu değiştirebilirsiniz.
Fısıldayan Robotlar
AI sesleri bir süredir var, ancak tarihsel olarak gerçekçiliklerinde oldukça sınırlıydılar; Örneğin, klasik Siri veya Alexa’dan yanıt aldığınızda bir robotla konuştuğunuz çok açık. Buna karşılık, aralarında yeni bir AI ses modelleri olan Evi 3, sadece doğal dilde değil, aynı zamanda ve daha da önemlisi, gerçek, günlük insan konuşmasını şişiren ince bükülmeleri, tonlamaları, kendine özgü özleri ve kadansları taklit etmek için tasarlanmıştır.
Hume CEO’su ve baş bilim adamı Alan Cowen, “İnsan iletişiminin büyük bir kısmı doğru kelimeleri vurgulamak, doğru zamanlarda duraklamak, doğru ses tonunu kullanarak,” dedi.
Hume’un yazdığı gibi Blog yazısı Perşembe günü, Evi 3 “hangi kelimeleri vurgulayacağını, insanları neyin güldürdüğünü ve aksanların ve diğer ses özelliklerinin kelime dağarcığı ile nasıl etkileşime girdiğini biliyor.” Şirkete göre, bu, “anlamlı bir dil anlayışına sahip olmayan” daha önceki konuşma üreten modellerden ileriye doğru ileriye doğru ileriye dönük.
Birçok AI uzmanı, bu bağlamda “anlama” gibi kelimelerin kullanımı ile umbrage alacaktır, çünkü Evi 3 gibi modeller sadece hacimli eğitim verilerinden toplanan kalıpları tespit etmek ve yeniden yaratmak için eğitilmiştir;
Ayrıca: chatgpt artık sadece sohbet etmek için değil – şimdi sizin için işinizi yapacak
Hume’un weblog yazısına göre Evi 3, “trilyonlarca metin metin ve daha sonra milyonlarca saatlik konuşma konusunda” eğitildi. Cowen’e göre, bu yaklaşım tek başına modelin sezgisel olarak beklenenden çok daha gerçekçi seslerle konuşmasını sağladı. “Sesle [models]en şaşırtıcı olan şey nasıl insan [they] Sadece birçok veri eğitimi alarak olabilir “dedi.
Ancak felsefi argümanlar bir yana, AI ses modellerinin yeni dalgası tartışmasız etkileyici. İstendiğinde, öncekilerden çok daha geniş bir vokal ifade yelpazesini keşfedebilirler. Hume ve ElevenLabs gibi şirketler, bu yeni modellerin eğlence ve pazarlama gibi endüstriler için pratik faydaları olacağını iddia ediyorlar, ancak bazı uzmanlar aldatma için yeni kapılar açacaklarından korkuyorlar – sadece bilinmeyen bir kişinin ABD Dışişleri Sekreteri Marco Rubio’nun sesini taklit etmek için AI kullandıkları ve daha sonra sesli klonun hükümet yetkilileri için ses klonunu kullandığında, sesli klon kullandığında.
“Bir robotic fısıldamasına ihtiyacımız olmasının hiçbir nedenini görmüyorum,” Ai conson zamanlarda bana söyledim. “Mesela ne için? Belki dinlediğiniz şeyin sentetik olduğu gerçeğini gizlemek dışında?”
Devrimci rutin olur
Evet, Evi 3’ün tüm AI araçları gibi ses klonlama özelliğinin eksiklikleri var. Ancak bunlar dikkate değer nitelikleriyle önemli ölçüde gölgede bırakılıyor.
Bir kere, bugün pazara çarpan üretken AI modellerinin teknolojinin bebeklik döneminin bir parçası olduğunu ve sadece gelişmeye devam edeceklerini hatırlamalıyız. Üç yıldan daha kısa bir sürede, ChatGPT’nin halka açık yayınlanmasından, gerçekçi video ve senkronize ses üretebilen Google’ın Veo 3 gibi gerçek insan seslerini ve araçlarını az çok ikna edici bir şekilde simüle edebilen AI modellerine gittik. Üretken AI gelişmelerinin nefes kesen temposu, en azından söylemek gerekirse bize duraklamalıdır.
Ayrıca: AI ajanları iş ve toplumu web boyutunda değiştirecek, diyor AWS VP
Bugün, Evi 3 sesinizin kaba bir yaklaşımını simüle edebilir. Bununla birlikte, halefinin-veya belki de büyük bilginin-sesinizi gerçekten ikna edici bir şekilde yakalayabilmesini beklemek mantıksız değildir. Böyle bir dünyada, Evi’nin veya benzer bir ses üreten modelinin, bir AI ajanı ile eşleştirildiğini hayal edebileceğiniz, örneğin sizin adınıza Zoom toplantılarına katılmak için. Ayrıca, daha az iyimser bir şekilde, bir aldatmaca sanatçının hayali olabilir.
Bununla birlikte, Evi 3’ün ses klonlama özelliği ile etkileşime giren deneyimim hakkındaki en çarpıcı gerçek, bu teknolojinin zaten nasıl sıradan hissettiği.
Teknolojik inovasyonun hızı hızlandıkça, önceki nesil insanları şaşkınlık sessizliğine sersemletecek olanı anında normalleştirme kapasitemiz de artıyor. Openai’den Sam Altman bu noktayı son zamanlarda yapılan bir weblog yazısında gösterdi: Altman’a göre, tekilliğe yaklaşıyoruz, ancak çoğunlukla her zamanki gibi iş gibi geliyor.
AI hakkında daha fazla hikaye ister misiniz? İnovasyon için kaydolunhaftalık bültenimiz.