Root NationBeritaberita TIPidato AI Meta mengenali lebih dari 4 bahasa lisan

Pidato AI Meta mengenali lebih dari 4 bahasa lisan

-

meta membuat model bahasa AI yang bukan tiruan ChatGPT. Proyek Massively Multilingual Speech (MMS) perusahaan dapat mengenali lebih dari 4 bahasa lisan dan mereproduksi ucapan (text-to-speech) dalam lebih dari 000 bahasa. Seperti kebanyakan proyek AI yang diumumkan secara publik, Meta saat ini membuat akses terbuka MMS untuk membantu melestarikan keragaman bahasa dan mendorong para peneliti untuk mengembangkannya. "Hari ini kami membagikan model dan kode kami kepada publik sehingga anggota lain dari komunitas riset dapat mengembangkan pekerjaan kami," tulis perusahaan itu. "Berkat karya ini, kami berharap dapat memberikan kontribusi kecil untuk pelestarian keanekaragaman bahasa yang luar biasa di dunia."

meta

Pengenalan ucapan dan model teks-ke-ucapan biasanya memerlukan pelatihan ribuan jam rekaman audio dengan label transkripsi yang menyertainya. Tetapi untuk bahasa yang tidak digunakan secara luas di negara-negara industri – banyak di antaranya berisiko punah dalam beberapa dekade mendatang – “data ini tidak ada,” kata Meta.

Meta mengambil pendekatan yang tidak konvensional untuk pengumpulan data audio: mendengarkan rekaman audio dari teks-teks agama yang diterjemahkan. "Kami beralih ke teks-teks agama, seperti Alkitab, yang telah diterjemahkan ke dalam berbagai bahasa dan terjemahannya telah dipelajari secara luas untuk penelitian terjemahan berbasis teks," kata perusahaan itu. "Terjemahan ini memiliki rekaman audio yang tersedia untuk umum dari orang yang membaca teks ini dalam berbagai bahasa." Dengan memasukkan entri tak bertanda dari Alkitab dan teks serupa, para peneliti Meta meningkatkan jumlah bahasa yang tersedia untuk model menjadi lebih dari 4.

"Meskipun isi rekaman audio bersifat religius, analisis kami menunjukkan bahwa hal ini tidak memengaruhi produksi model pidato yang lebih religius," tulis Meta. "Kami yakin ini karena kami menggunakan pendekatan klasifikasi temporal koneksionis (CTC), yang jauh lebih terbatas dibandingkan dengan model bahasa besar (LLM) atau model urutan untuk pengenalan ucapan." Juga, terlepas dari kenyataan bahwa sebagian besar teks agama dibaca oleh laki-laki, hal ini tidak mengarah pada bias laki-laki – sistem mengenali suara perempuan dan laki-laki dengan sama baiknya.

Setelah melatih model penyelarasan untuk membuat data lebih bermanfaat, Meta menggunakan wav2vec 2.0, model "pembelajaran representasi bahasa yang diawasi sendiri" perusahaan yang dapat belajar pada data yang tidak berlabel. Kombinasi sumber data non-tradisional dan model ucapan mandiri memberikan hasil yang mengesankan. "Hasil kami menunjukkan bahwa model penyiaran multibahasa massal berkinerja baik dibandingkan dengan model yang ada dan mencakup 10 kali lebih banyak bahasa." Secara khusus, Meta membandingkan MMS dengan Whisper OpenAI, dan hasilnya melebihi harapan. "Kami menemukan bahwa model yang dilatih pada data Pidato Multibahasa Masif memiliki setengah persentase kesalahan kata, tetapi Pidato Multibahasa Masif mencakup 11 kali lebih banyak bahasa."

Meta memperingatkan bahwa model barunya tidak sempurna. "Misalnya, ada beberapa risiko bahwa model ucapan-ke-teks mungkin salah menerjemahkan kata atau frasa individual," tulis perusahaan itu. “Tergantung pada hasilnya, ini dapat menyebabkan bahasa yang menyinggung dan/atau tidak akurat. Kami terus percaya bahwa kolaborasi dalam komunitas AI sangat penting untuk pengembangan teknologi AI yang bertanggung jawab.”

meta

Sekarang Meta telah merilis MMS untuk penelitian sumber terbuka, ia berharap dapat membalikkan tren pengurangan jumlah bahasa di dunia menjadi 100 atau kurang, yang sebagian besar didukung oleh teknologi utama. Dia melihat dunia di mana teknologi asistif, TTS, dan bahkan teknologi VR / AR memungkinkan semua orang berbicara dan belajar dalam bahasa ibu mereka. Dikatakan: "Kami membayangkan dunia di mana teknologi memiliki efek sebaliknya, mendorong orang untuk menjaga bahasa mereka tetap hidup karena mereka dapat mengakses informasi dan menggunakan teknologi sambil berbicara bahasa asli mereka."

Baca juga:

JereloEngadget
Daftar
Beritahu tentang
tamu

0 komentar
Ulasan Tertanam
Lihat semua komentar