Hume, komutlarınıza göre isteğe bağlı olarak duygusal, ayarlanabilir yapay zeka sesleri üreten Octave metinden sese modelini piyasaya sürdü

Sektör lideri AI kapsamı hakkında en son güncellemeler ve özel içerikler için günlük ve haftalık bültenlerimize katılın. Daha Fazla Bilgi Edinin
New York City merkezli girişim Hume AI, iki yıl önce gizlilikten çıktı ve o zamandan beri kurumsal uygulamalarda kullanılmak üzere duygusal yapay zeka sesleri oluşturan teknolojisi temelinde milyonlarca dolarlık fon topladı .
Bugün, farklı içerik biçimleri için (sesli kitaplardan önceden kaydedilmiş video oyunu karakterlerinin diyaloglarına ve film/TV/videoya kadar) gerçekçi, duygusal açıdan nüanslı konuşmalar üretmek üzere tasarlanan, kısaca Octave olarak adlandırılan "Her Şeyi Yapabilen Metin ve Ses Motoru" adlı yeni bir büyük dil ve konuşma modeliyle tekliflerini bir adım öteye taşıyor.
Hume, Octave'in yalnızca metinle değil aynı zamanda konuşma ve duygu belirteçleriyle eğitilmiş büyük bir dil modeli (LLM) tarafından desteklenen ilk metinden sese dönüştürme sistemi olduğunu, böylece sözcükleri bağlamda anlayabildiğini ve buna göre ton, ritim ve ritmi ayarlayabildiğini iddia ediyor. Kullanıcı da bunu metin istemleriyle cümle düzeyinde ayarlayabiliyor.
Hume AI'nın kurucu ortağı ve CEO'su Alan Cowen, VentureBeat ile yaptığı görüntülü görüşmede, "Metinden sese dönüştürme alanında ilk LLM'yi başlatıyoruz. Bu, kelimeleri bağlamda anlayan, doğru duyguları, ritmi, vurguyu ve vurguyu tahmin eden ve konuşmayı her zamankinden daha insani hale getiren bir model" dedi.
Octave'in yetenekleri temel ses üretiminin ötesine geçer. Karakter özelliklerini ve stilini yalnızca bir senaryodan yorumlayabilir, ima edilen duygulara uyması için ses tonlamalarını ayarlayabilir. Alaycı bir yorum alaycı bir şekilde söylenecek, panik dolu bir cümle acil duyulacak ve fısıldanan bir sır susturulacak—hepsi açık bir yönlendirmeye ihtiyaç duymadan.
Ayrıca, kullanıcı üretilen sesi beğenmezse veya ayarlamak isterse, Octave'a "daha mutlu, daha üzgün, daha sinirli, daha öfkeli, daha alaycı, daha samimi" gibi metin talimatlarını yazarak bunu doğal dil aracılığıyla ayrıntılı bir şekilde yapabilir.
Cowen, "Bir karakteri, örneğin alaycı bir ortaçağ köylüsünü tarif edebilirsiniz ve model, talimatlarınıza göre öfke, üzüntü veya mutluluk gibi duyguları ayarlayarak anında o sesi yaratacaktır" diye ekledi.
Mevcut sürüm İngilizce konuşmaya odaklanırken, Octave İspanyolcayı da destekliyor ve yakın gelecekte dil yeteneklerinin genişletilmesi bekleniyor.
İçerik oluşturmaya yönelikOctave, içerik üreticileri ve medya prodüksiyonu için özel olarak tasarlanmış olup sesli kitaplar, podcast'ler, video oyunu karakterleri ve video seslendirmeleri gibi alanlarda uygulamalar sunuyor.
Cowen, "Bu yeni model çevrimdışı metinden sese dönüştürme için tasarlandı. Bu model, yaratıcıların gerçekçi, karaktere özgü seslere ihtiyaç duyduğu sesli kitaplar, podcast'ler, video seslendirmeleri ve video oyunu karakterleri için mükemmel." şeklinde açıklama yaptı.
Ancak, kullanıcı buna Hume'un web sitesi üzerinden Projeler sayfasından veya bir uygulama programlama arayüzü (API) aracılığıyla erişmelidir. "Çevrimdışı" bileşen, bu modelin video veya sesli kitap gibi projelere eklenebilen ayrı ses dosyaları üretmek üzere tasarlanmış olduğu gerçeğine atıfta bulunur. Gerçek zamanlı sohbeti sürdürmek için tasarlanmamıştır, ancak teorik olarak web sitesine metin sorguları gönderilerek buna izin verilebilir.
Hume'un API'si geliştiricilerin dakikada 50'ye kadar yeni Octave modeli isteğinde bulunmasına olanak tanır, maksimum metin uzunluğu 5.000 karakter ve açıklamalar 1.000 karakterle sınırlıdır. Her istek beş adede kadar çıktı üretebilir ve desteklenen ses biçimleri arasında MP3, WAV ve PCM bulunur.
Hume'un daha önceki EVI model serileri , akış, gerçek zamanlı, ileri geri etkileşimlere izin veriyor ve kullanılabilirliğini sürdürüyor ve geliştirilmeye devam edecek.
Hume AI, ücretsiz seçenekten Creator, Creator Pro ve Enterprise planlarına kadar uzanan abonelik tabanlı bir fiyatlandırma modeli sunuyor.
İşte sunulanların kısa bir özeti:
- Ücretsiz (ayda 0 ABD Doları) – Ayda 10.000 karakterlik metinden sese dönüştürme (~10 dakika) ve sınırsız özel sesler.
- Başlangıç (ayda 3 ABD doları) – 30.000 karakter (~30 dakika) artı 20 projeye kadar destek.
- Oluşturucu (ayda 10 ABD doları) – 100.000 karakter (~100 dakika), ekstra karakterler için kullanım tabanlı fiyatlandırma (1.000 karakter için 0,20 ABD doları) ve 1.000 projeye kadar destek.
- Pro (ayda 50 ABD doları) – 500.000 karakter (~500 dakika), daha düşük kullanım tabanlı fiyatlandırma (1.000 karakter için 0,15 ABD doları) ve 3.000 projeye kadar destek.
- Ölçek (ayda 150 ABD doları) – 2.000.000 karakter (~2.000 dakika), daha da düşürülmüş kullanım tabanlı fiyatlandırma (1.000 karakter için 0,13 ABD doları) ve 10.000'e kadar projeye destek.
- İşletme (ayda 900 ABD doları) – 10.000.000 karakter (~10.000 dakika), daha da düşük kullanım tabanlı fiyatlandırma (1.000 başına 0,10 ABD doları) ve 20.000'e kadar proje desteği.
- Kurumsal (Özel fiyat) – Sınırsız kullanım, özel yasal şartlar, güvenlik güvenceleri, toplu alımlarda önemli oranda indirimli fiyatlandırma ve öncelikli destek.
Hume, Octave TTS fiyatlandırmasının rakip yapay zeka ses oluşturma girişimi ElevenLabs'ın maliyetinin yaklaşık yarısı kadar olduğunu vurgulayarak, metinden sese dönüştürme alanındaki rekabetin yoğunlaştığını belirtti.
Ek olarak, Hume AI, Octave'i ElevenLabs ile kıyaslamak için 180 insan değerlendiriciyle kör bir karşılaştırma çalışması yürüttü. Sonuçlar, Octave'in ses kalitesi (denemelerin %71,6'sı), doğallık (denemelerin %51,7'si) ve konuşmanın istenen sesin açıklamalarıyla ne kadar iyi eşleştiği (denemelerin %57,7'si) açısından 120 farklı istemde tercih edildiğini gösterdi.

Hume AI, performansını daha detaylı değerlendirmek için, AI modellerinin daha uzun ve etkileyici konuşmaları ne kadar iyi ele aldığını test etmek üzere tasarlanmış, halka açık bir kıyaslama olan Expressive TTS Arena'yı da piyasaya sürdü. Bu, önceki TTS kıyaslamalarında büyük ölçüde göz ardı edilen bir alan.
Sınırlı konuşma veri kümelerine dayanan geleneksel metinden sese sistemlerinin aksine, Octave TTS, onlarca trilyon dil belirteci üzerinde eğitilmiş bir LLM üzerine kurulmuştur.
Cowen, "Geleneksel metinden sese dönüştürme modelleri sınırlı konuşma verileriyle eğitilir, ancak bizimki, onlarca trilyon jetonla eğitilmiş bir LLM üzerine kuruludur ve bu da metinden akıl yürütmeyi, düşünmeyi ve duyguları çıkarsamayı mümkün kılar" dedi.
Model, milyonlarca saatlik kamuya açık, uzun biçimli konuşma verisi ve anket katılımcıları tarafından kaydedilen yeni seslere ait Hume AI'nın tescilli veri kümeleri kullanılarak eğitildi.
Cowen, "İnsanların kendilerini web kameraları aracılığıyla kaydetmelerinden, videolara doğal tepki vermelerinden, hikayeler anlatmalarından ve arkadaşları ve aileleri de dahil olmak üzere başkalarıyla konuşmalarından veri topladık ve geniş bir yelpazedeki duygusal ifadeleri yakaladık" dedi.
Bu kapsamlı eğitim, modelin duygusal bağlamı çıkarmasına ve ayrıntılı talimatları izlemesine, belirli karakter tanımları ve nitelikleriyle eşleşen sesler oluşturmasına olanak tanır.
Bugün Hume AI'nın platformu ve API'si aracılığıyla kullanıma sunulan model, cümle düzeyinde duygu kontrolü sağlıyor ve cümle içinde bir miktar esneklik sağlıyor.
Cowen, "Ses modülasyonu cümle düzeyinde çalışır, ancak bir cümlenin bölümlerini ayarlayarak modele hafif hayal kırıklığı, mizah veya öfke gibi nüanslı duyguları aktarmasını söyleyebilirsiniz," diye belirtti. Model ayrıca tek tek cümlelerin ötesinde bağlamı da dikkate alır. "Metni kelime kelime işleyen geleneksel modellerin aksine, modelimiz tüm paragrafları dikkate alarak daha doğal ve duygusal olarak doğru bir konuşma sunmak için bağlamı yakalar," diye açıkladı.
Octave TTS uzun biçimli içeriklerde tutarlı karakter seslerini korur.
Cowen, "Platformumuzla sesli kitaptaki her karakter için (örneğin orta yaşlı bir ork) benzersiz sesler üretebilir ve hikaye boyunca bu karakterin sesini koruyabilirsiniz" dedi.
Bu yetenek, karakterlerin tutarlılığını ve bölümler arası bağlamı korurken metni otomatik olarak parçalara ayırarak sesli kitaplar gibi uzun biçimli içerikleri işleyen Hume AI'nın "Projeler" sayfası tarafından destekleniyor.
Hume, web sitesinde ve API'sinde gerçekçi çocuk sesleri ve belirli kişilerin taklitlerinin yaratılmasını yasaklayan teknik engeller bulunduruyor; ancak bunun dışında, popüler aşk romanlarındaki gibi potansiyel olarak işyerinde kullanılması güvenli olmayan sahneler de dahil olmak üzere çok çeşitli içerik ve konu için kullanıma açık.
Cowen, "Geliştiricilere özgürlük tanıyoruz, insan deneyimlerinin geniş bir yelpazesinde içeriklere izin veriyoruz, ancak gerçekçi çocuk seslerinin ve belirli kişilerin taklitlerinin yaratılmasını kısıtlıyoruz" şeklinde açıklama yaptı.
Cowen ayrıca şirketin, örneğin çocuk sesli kitapları için sesler oluşturmak isteyen bir çocuk kitabı yayıncısı gibi belirli müşterilerin talebi üzerine bu bariyerleri ayarlayabileceğini söyledi.
Ek olarak, Hume AI kullanıcıların beş saniyelik bir sesten bir sesi kopyalamasına olanak tanıyan yakında çıkacak olan Ses Kopyalama özelliği üzerinde çalışıyor. Şirket, özelliği herkese açık olarak sunmadan önce etik kullanımı garantilemek için güvenlik önlemleri geliştiriyor.
Bağlamsal farkındalık, duygusal ifade ve karakter özelleştirmesini bir araya getiren Octave TTS, içerik üreticilerine daha fazla kontrol ve esneklik sağlayarak hem gerçekçi hem de duygusal açıdan ilgi çekici sesler sunmayı amaçlıyor.
Patronunuzu etkilemek istiyorsanız, VB Daily sizin için burada. Şirketlerin üretken yapay zeka ile ilgili olarak düzenleyici değişikliklerden pratik dağıtımlara kadar neler yaptıklarına dair içeriden bilgiler veriyoruz, böylece maksimum yatırım getirisi için içgörüler paylaşabilirsiniz.
Gizlilik Politikamızı okuyun
Abone olduğunuz için teşekkürler. Daha fazla VB bültenine buradan göz atın.
Bir hata oluştu.

venturebeat