Yapay Zeka ile Gerçekçi İnsan Sesleri Oluşturun: ElevenLabs

Yapay zeka her ne kadar bizlere büyük faydalar sağlasa da birtakım zamanlar insanoğlu tarafınca fena amaçla kullanılabiliyor. AI uygulamalarıyla ucu bucağı olmayan görseller, realist fotoğraflar üretebiliyoruz. Ayrıca bir sesi taklit etmemizi elde eden suni zeka çözümleri de mevcut. Kimi vakit bu tür imkanlar fena niyetli kullanılsa da suni zeka olağanüstü işler ortaya çıkıyor.
Metinden resim üreten platformlarda çok sık kullanılmaya başladı, olabildiğince tanınmış hale gelmeye başladı. Öte taraftan seslendirme programları da yaygın şekilde kullanılmaya başlıyor. Fikir basit; bir sesi alıyoruz ve verdiğimiz kelimeleri tıpkı seslendiren şahıs söylüyormuş gibi taklit edebiliyoruz. Bu hususta kullanması bedava etkin bir tatbik var: ElevenLabs.
Eski Google makine öğrenimi mühendisi ve eski bir Palintir dağıtım stratejisti tarafınca kurulan ElevenLabs, bir ses teknolojisi inceleme şirketi. Yapay zeka konferans yazılımı stratejisinin mühim bir unsuru, fakat nihai gaye “konuşulan sesi diller arasında anında dönüştüren” bir vasıta yaratmak.
Seslendirmeye yoğunlaşan şirket, kulağa realist gelen bir insan sesi yaratabilen metinden sese suni zeka modelleri geliştirdi. ElevenLabs internet sitesinde gaye şu şekilde açıklanıyor:
“Misyonumuz eğitim, yayın, sesli kitap, oyun, film ve hatta anlık konuşmalarda isteğe bağlı çok dilli ses desteğini gerçeğe dönüştürmek.”

Google Translate ve alternatifleri bir yana, duyduklarınızı anında çeviri eden bir vasıta hayal edebiliyor musunuz? Konuşmacının sesini klonlayarak değişik konuşmalar tıpkı o şahıs söylüyormuş gibi seslendirilebiliyor. Bu harbiden büyük bir gelişme.
Basitçe tarif etmek gerekirse, AI ses üretim teknikleriyle mevcud bir sesi alıyoruz ve duymak istediğimiz her şeyi söyletebiliyoruz. Herhangi bir ses seçmeniz ve kelimeleri vermeniz yeterli, suni zeka gerisini halledebiliyor.
“Microsoft Sam bunu esasen seneler öncesinde yapabiliyordu” diye düşünebilirsiniz. Ancak Microsoft Sam gibi araçlar robot gibi ses çıkarıyor, yani hiç bir şey realist değil. ElevenLabs’in aracı ise insana çok daha yakın sesler çıkarıyor.
ElevenLabs üç konferans suni zekası opsiyonu sunuyor: tamamiyle bedava “önceden hazırlanmış” sesler, ses oluşturucu (cinsiyet, yaş ve aksan seçmenize imkan tanıyor) ve ancak abonelik yoluyla yükleyebileceğiniz “klonlanmış” sesler.
İşte bir örnek:
Yapay zekanın yaratıcı amaçlarla kullanılması birtakım ahlaki ve ahlaki sorumlulukları da bununla beraber getiriyor. ElevenLabs’in suni zekası bu hususta olabildiğince maharetli ve kullanması bedava olmasından kaynaklı çoğu amaçla kullanılabilir. Kısacası, birinin sesini izni olmadan kullanmayın. Bazı durumlarda yasa dışı mevzularla yüz yüze kalabilirsiniz. Ayrıca yasa dışı olmasa da bu ahlaki değil; insanlar rahatsız olabilir.
Ek olarak, ElevenLabs’ın konferans suni zekası aracı şu anda beta aşamasında. Yani her şey tamamiyle yerine oturmuş değil ve birtakım durumlarda problemler yaşanabilir.
ElevenLabs’ı kullanmanın en kolay yolu bedava konferans suni zekası aracı. Bunu kullanmak için beta.elevenlabs.io adresine gidin ve bir hesap oluşturun. Kendi e-postanızı ve Google hesabınızı kullanabilirsiniz.
- Sonrasında Speech Synthesis’e (Konuşma Sentezi) tıklayın.
- Ayarlar’da daha önceden hazırlanmış kadın ya da adam seslerinden birini seçin.
- Kararlılık ve Netlik + Benzerlik Geliştirme (yüksek kararlılık monotonal, yüksek netlik amaçlanan sese daha yakın) kaydırıcılarını ayarlamak için Ses Ayarlarını (Voice Settings) genişletin.
- Eleven English v1 ya da Eleven Multilingual v1 modellerinden birini seçin.
- Eleven English v1 ile standart İngilizce dil modeliyle muhtelif sesler, stiller ve ruh hallerinde konuşmalar oluşturabilirsiniz.
- Eleven Multilingual v1 ile İngilizce, Almanca, Lehçe, İspanyolca, İtalyanca, Fransızca, Portekizce ve Hintçe dillerde sesler üretebilirsiniz.
- Test bölümüne dönüştürmek istediğiniz metni girin.
- Devamında “Generate (Oluştur) düğmesine tıklayın.
İşlem bitirildiğinde üretilen ses kendiliğinden oynatılacak. Eğer oynatılmazsa Play tuşuna basarak dinleyebilirsiniz, ilaveten indirme yapabilirsiniz.
Yeni bir ses kurmayı tercih ederseniz VoiceLab sayfasını ziyaret edin ve “Add Generative or Cloned Voice” seçeneğine tıklayın.
- Add Voice > Voice Design’e tıklayın.
- Şimdi Generate voice kısmından lüzumlu ayarlamaları yapabilirsiniz.
Cinsiyet (Gender), Yaş (Age) ve Aksan (Accent) alanlarını ayarlayın.
Vurgu Gücü (Accent Strength) kaydırıcısını gerektiği gibi ayarlayın. - Dönüştürmek istediğiniz metni boş alana yazın.
- Son olarak Generate’e tıklayın.
Bittiğinde elde edilmiş sesi dinleyebilirsiniz. Söylediğimiz gibi, ElevenLabs hemen hemen beta aşamasında ve birtakım eksiklikleri olabilir. Teknoloji geliştikçe problemler giderilecek, daha iyi sonuçlar üretilecektir.
Önceden hazırlanmış ve yapılandırılabilir seçenekler enteresan olsa da ElevenLabs’ın en coşku verici teknolojisi Anında Ses Klonlama (Instant Voice Cloning) aracı. Diğer seçeneklerden değişik olarak Anında Ses Klonlama bir abonelik gerektiriyor. En ucuzu ayda 5 dolar olmak suretiyle muhtelif seçenekler mevcut. Ayrıca firma ilk ay için %80’lik tenzilat yapmış ve 1 dolara abone olabilirsiniz. Diğer seçenekler ayda 22, 99 ve 330 dolara mal oluyor ve ayda 40 saate kadar ses üretme imkanı sunuyor.
Anında Ses Klonlamayı kullanmak için ancak bir diyaloğa değil, bunun yanı sıra sesinizin bir örneğine de ihtiyacınız var. Ses dosyası net, anlaşılırsa ve MP3 formatında olduğu sürece her şey çok kolay. Ayrıca misal ne kadar uzun olursa o denli iyi (5 dakikaya kadar).
- Add Voice (Ses Ekle) ve Anında Ses Klonlama’ya (Instant Voice Cloning) tıklayın.
- “Click to upload a file or drag and drop” seçeneğiyle ses dosyasını yükleyin. Gelişmiş doğruluk için en çok 25 misal eklenebilir.
- Labels’e tıklayın, sonra bir seçenek ve kıymet belirleyin. Örneğin aksan ve İngiliz gibi. Bunu en çok 5 kez yapın.
- Sesin kısa bir açıklamasını girin.
- Onay kutusunu işaretleyin ve sonra Ses Ekle (Add Voice) seçeneğine tıklayın.
Önceden hazırlanmış ve klonlanmış seslerle suni zeka hitabı birden fazla olasılığa sahip. Daha ilkin de belirtildiği gibi ElevenLabs’ın nihai amacı canlı çeviri, fakat değişik kullanım alanlarına da dikkat çekilmiş.
Yapay zeka ile hayatta olmayan bir şahıs tarafınca tarafından seslendirilen sesli kitaplar oluşturabilir, oyunlarda muhtelif seslendirmeler yapabilirsiniz. Ayrıca suni zeka ses modellerini size yarar sağlayacak çoğu gaye için kullanabilirsiniz. Yapay zeka konuşmasını kullanarak bir podcast bile oluşturabilirsiniz, fakat sonuçlar düz ve sıkıcı gelebilir.
Belki suni zeka seslendirme çözümleri tam anlamıyla beklentilerinizi karşılamayabilir, fakat şu andaki vaziyet bile ümit verici. Ayrıca teknoloji kısa süre içerisinde gelişebilir. Bu arada ElevenLabs, gelecekte tanıtmak suretiyle oluşturulmuş bir “sesli konuşma” özelliği planlıyor.
Yapay zeka, son birkaç yılda bizlere birtakım muazzam yeni araçlar getirdi. Chat-GPT metin oluşturmak, soruları yanıtlamak, raporları özetlemek ve daha fazlası için kullanılabilir. Midjourney ise sanatsal çalışmalar üreten, ekstrem görseller oluşturabilen enteresan bir suni zeka aracı.
ElevenLabs’in suni zekası bir sesi taklit etmemize imkân tanıyor, fakat özgün sesin bir klonuyla. Seslerin izin alınmadan kullanılmasına karşı ahlaki argümanlar olsa da, bu birtakım enteresan sonuçlar üretebilecek kuvvetli bir araç. Hepsinden iyisi, kullanması muazzam derecede kolay ve çarpıcı sonuçlar veriyor.
Bir yanıt yazın
Yorum yapabilmek için oturum açmalısınız.