Wow! AI Amazon Bisa Berbicara Seperti Manusia!

Apa kata tim peneliti dari Amazon AGI?

Sebuah tim peneliti dari Amazon AGI (Artificial General Intelligence) mengklaim model AI Amazon telah menunjukkan kemampuan bahasa yang tidak diajarkan sebelumnya. Dalam makalah akademis yang belum diulas sejawat, mereka menyatakan bahwa model bahasa besar mereka menunjukkan “kelestarian alami tingkat tinggi” dalam teks percakapan.

Menurut contoh-contoh yang dibagikan, model ini terlihat canggih. Ia mampu menghasilkan berbagai kalimat yang menunjukkan lompatan bahasa seperti yang terjadi pada pembelajar bahasa manusia. Hal ini, berdasarkan kriteria yang dibuat dengan bantuan ahli linguistik, merupakan pencapaian yang sulit dicapai dalam AI.

Model “Big Adaptive Streamable TTS with Emergent abilities” (BASE TTS) dilatih dengan 100.000 jam data bicara domain publik, 90 persen dalam bahasa Inggris. Tujuannya adalah mempelajari cara orang Amerika berbicara dengan lebih baik. BASE TTS diharapkan dapat menghasilkan suara yang lebih alami dan mudah dipahami oleh para penutur bahasa Inggris. Tim Amazon AGI ingin menguji “kemampuan muncul” pada model bahasa mereka. Untuk itu, mereka melatih dua model yang lebih kecil yaitu model latih dengan 1.000 jam dan 10.000 jam. Tujuannya adalah untuk melihat mana dari kedua model ini yang menunjukkan kelestarian bahasa yang mereka cari. Dengan membandingkan kinerja kedua model ini, tim Amazon AGI berharap dapat menentukan ukuran model yang optimal untuk menunjukkan “kemampuan muncul”.

Model 10.000 jam menunjukkan performa terbaik dalam kriteria kemampuan muncul yang ditetapkan para peneliti Amazon. Kemampuannya memahami tanda baca, kata non-Inggris, dan emosi menjadikannya unggul dibandingkan model lain.

Bagaimana model ini bekerja?

Model ini mampu menghasilkan kalimat yang tampak alami bagi pembaca manusia. Kemampuannya terlihat saat ia menyalin kata yang bukan kata seperti bisikan Tom, “Ssst, Lucy, ssst, jangan membangunkan adikmu,” saat mereka berjingkat melewati kamar bayi. Kemampuannya semakin terlihat saat ia meniru bahasa internet yang sering digunakan dalam pesan teks dan bahasa lisan, seperti dalam contoh SMS, “Darurat @ rumah; panggil ASAP! Ibu & Ayah khawatir…#masalahkeluarga.” 18 pakar AI dari berbagai negara menulis makalah yang menekankan bahwa BASE TTS tidak pernah diperintahkan untuk menghasilkan output yang mengejutkan. Makalah ini menjelaskan bahwa BASE TTS hanya mengikuti instruksi yang diberikan tanpa ada maksud untuk membuat output yang provokatif. Para pakar AI menekankan pentingnya memahami cara kerja AI untuk menghindari kesalahpahaman dan misinterpretasi. Makalah tersebut menjelaskan bahwa kalimat-kalimat ini dirancang untuk menantang model text-to-speech (TTS) dengan berbagai tugas.

Model ini mampu mengurai kalimat jebakan, menekankan kata majemuk panjang, menghasilkan suara emosional atau berbisik, dan menghasilkan fonem yang benar untuk kata-kata asing dan tanda baca. Dengan demikian, model ini dapat menghasilkan teks yang lebih akurat dan natural. Singkatnya, model ini mampu memahami dan menghasilkan bahasa dengan lebih baik, sehingga menghasilkan teks yang lebih natural dan mudah dipahami. Model TTS tradisional tidak secara eksplisit dilatih untuk melakukan tugas-tugas ini, sehingga kalimat-kalimat ini dapat membantu meningkatkan kemampuan model TTS.

Temuan ini, meskipun bukan AGI (Artificial General Intelligence), dapat memberikan gambaran tentang jalan menuju pencapaiannya. Hal ini terutama terlihat dari kebutuhan data pelatihan yang relatif sedikit untuk mencapai hasil yang signifikan.

Baca juga: Peringatan Google: Rahasiakan Data Pribadi dari Gemini!