Voicebox adalah keserbagunaan dan jangkauan kemampuannya. Ia memiliki kemampuan untuk melakukan tugas-tugas kompleks seperti pengeditan audio, pengambilan sampel, dan penataan gaya, yang menurut saya sangat mengesankan. Dengan Voicebox, saya dapat dengan mudah mengedit trek audio, menghilangkan kebisingan latar belakang, dan bahkan mengganti kata-kata yang salah diucapkan dalam segmen ucapan. Ini seperti memiliki alat pengeditan audio lengkap yang dapat saya gunakan.

Aspek lain dari Voicebox yang sangat saya hargai adalah sintesis text-to-speech dalam konteksnya. Dibutuhkan sampel audio singkat dan mencocokkan gayanya untuk menghasilkan text-to-speech yang terdengar alami dan mulus. Fitur ini membuka kemungkinan menarik untuk asisten suara yang dipersonalisasi dan pembuatan konten audio yang disesuaikan.


Masa Depan Kotak Suara

Menurut saya, potensi Voicebox melampaui kemampuannya saat ini. Saya yakin hal ini memiliki kekuatan untuk membentuk masa depan sintesis ucapan dan merevolusi beberapa bidang. Berikut beberapa aplikasi yang menurut saya sangat menarik: Pertama, Voicebox dapat meningkatkan aksesibilitas secara signifikan bagi tunanetra. Dengan mengubah pesan tertulis menjadi kata-kata lisan menggunakan suara mereka sendiri.


Terobosan dalam AI generatif untuk ucapan. Kami telah mengembangkan Voicebox, model AI canggih yang dapat melakukan tugas pembuatan ucapan — seperti pengeditan, pengambilan sampel, dan penataan gaya — yang tidak dilatih secara khusus untuk dilakukan melalui pembelajaran dalam konteks.

Voicebox dapat menghasilkan klip audio berkualitas tinggi dan mengedit audio yang telah direkam sebelumnya — seperti menghilangkan klakson mobil atau gonggongan anjing — sambil mempertahankan konten dan gaya audio. Modelnya juga multibahasa dan dapat menghasilkan ucapan dalam enam bahasa.

Di masa depan, model AI generatif multiguna seperti Voicebox dapat memberikan suara yang terdengar alami kepada asisten virtual dan karakter non-pemain di metaverse. Mereka dapat memungkinkan orang-orang tunanetra untuk mendengar pesan tertulis dari teman yang dibacakan oleh AI dalam suara mereka, memberikan alat baru kepada pembuat konten untuk dengan mudah membuat dan mengedit trek audio untuk video, dan banyak lagi.

Fleksibilitas Voicebox memungkinkan berbagai tugas, termasuk:

Sintesis text-to-speech dalam konteks: Menggunakan sampel audio berdurasi dua detik, Voicebox dapat mencocokkan gaya audio dan menggunakannya untuk pembuatan text-to-speech.

Pengeditan ucapan dan pengurangan kebisingan: Kotak Suara dapat membuat ulang sebagian ucapan yang terganggu oleh kebisingan atau mengganti kata-kata yang salah diucapkan tanpa harus merekam ulang keseluruhan ucapan. Misalnya, Anda dapat mengidentifikasi segmen ucapan yang terganggu oleh gonggongan anjing, memotongnya, dan memerintahkan Voicebox untuk membuat ulang segmen tersebut – seperti penghapus untuk pengeditan audio.

Transfer gaya lintas bahasa: Saat diberi contoh ucapan seseorang dan bagian teks dalam bahasa Inggris, Prancis, Jerman, Spanyol, Polandia, atau Portugis, Voicebox dapat menghasilkan pembacaan teks dalam salah satu bahasa tersebut, bahkan saat contoh ucapannya dan teksnya dalam berbagai bahasa. Kemampuan ini dapat digunakan di masa depan untuk membantu orang berkomunikasi dengan cara yang alami dan otentik meskipun mereka tidak berbicara dalam bahasa yang sama.

Pengambilan sampel ucapan yang beragam : Berdasarkan pembelajaran dari beragam data, Voicebox dapat menghasilkan ucapan yang lebih mewakili cara orang berbicara di dunia nyata dan dalam enam bahasa yang tercantum di atas.

Voicebox adalah langkah maju yang penting dalam penelitian AI generatif kami, dan kami berharap dapat melanjutkan eksplorasi kami di bidang audio dan melihat bagaimana peneliti lain

 

Kesimpulan

Voicebox adalah model AI generatif yang dapat membantu pengeditan audio, pengambilan sampel, dan penataan gaya.

Jenis teknologi ini dapat digunakan di masa depan untuk membantu pembuat konten mengedit trek audio dengan mudah, memungkinkan orang-orang tunanetra mendengar pesan tertulis dari teman melalui suara mereka, dan memungkinkan orang berbicara bahasa asing apa pun dengan suara mereka sendiri.


sumber : https://about.fb.com/news/2023/06/introducing-voicebox-ai-for-speech-generation/

 

 Copyright stekom.ac.id 2018 All Right Reserved