Akses cepat:

Langsung ke konten (Alt 1) Langsung ke menu utama (Alt 2)

Musisi dan Mesin
Bagaimana Pembelajaran Mesin Membuka Kemungkinan Baru untuk Desain Bunyi

Mencari kecerdasan buatan (AI) yang bisa berkolaborasi dengan pemusik
Mencari kecerdasan buatan (AI) yang bisa berkolaborasi dengan pemusik | © Gann | McPHOTO/M. Gann/picture alliance (Detail)

Bagaimana para seniman dapat menggunakan AI dan pembelajaran mesin untuk keuntungan mereka? Sebuah wawancara dengan Jesse Engel, ilmuwan di Google Brains Magenta Project.

Tahun 2022 ditandai oleh kemajuan besar di bidang kecerdasan buatan yang bahkan melampaui ekspektasi banyak pakar terkait pertanyaan seberapa cepat kita bisa mengharapkan sesuatu seperti kecerdasan buatan yang bersifat umum. Sejak 2020, model bahasa besar (LLM) GPT-3 telah memperlihatkan betapa transformator mampu memproduksi teks yang sangat mirip teks buatan manusia. Program DALL-E 2 yang diluncurkan April lalu oleh OpenAI, sanggup menghasilkan gambar dengan sangat akurat mencerminkan teks instruksi yang dirumuskan oleh manusia. Model bahasa besar Imagen dari Google, Parti dan Flamingo dari DeepMind juga mampu menangani berbagai jenis data (multi-modalitas) atau beragam masukan dan keluaran.

Model-model AI yang baru ini – beserta antarmuka masing-masing untuk para pengguna – menyimpan potensi besar untuk kerja kreatif. DALL-E menghasilkan gambar yang mengesankan - namun desainer dan seniman takkan kehilangan pekerjaan dalam waktu dekat ini. Perubahan mendasar justru akan terjadi pada proses kreatif itu sendiri. Tugas seru yang menanti para ahli teknologi dan pekerja seni adalah mencari tahu bagaimana manusia dan AI dapat bekerja sama untuk menghasilkan bentuk-bentuk estetika baru, yang sepenuhnya unik untuk bidang baru kerja kreatif ini.

Proyek Magenta dari Google, yang bernaung di bawah tim Google Brain, menambahkan dimensi lain pada bidang kreativitas berbasis AI yang sedang tumbuh pesat. Magenta melakukan penelitian seputar musik dan pembelajaran mesin dan juga mengembangkan berbagai alat dan plug-in yang memungkinkan para seniman bereksperimen dengan integrasi bunyi hasil AI ke dalam lagu-lagu mereka.

Jesse Engel, pimpinan kelompok riset di Magenta, berkomitmen untuk meningkatkan pengalaman manusia di bidang pengembangan alat-alat untuk produksi musik. Kami berbicara dengan Jesse bagaimana Magenta dapat tetap berfokus pada kolaborasi dengan artis dan musisi dalam pengembangan produk dan bagaimana kemajuan-kemajuan terkini di bidang kecerdasan buatan tetap dapat mempengaruhi sikap kita terhadap kreativitas di masa mendatang.

Tuan Engel, apa yang membawa Anda ke bidang riset pembelajaran mesin dan Proyek Magenta di Google?

Latar belakang saya sebenarnya ilmu fisika. Mula-mula saya kuliah fisika di Berkeley dan kemudian bermaksud menekuni bidang energi terbarukan. Lalu saya diberi tahu bahwa untuk itu saya harus mempelajari ilmu material – segala sesuatu yang berkaitan dengan kolektor surya dan hal-hal seperti itu. Karena itu, saya kuliah S 3 ilmu material dan mendalami tema kolektor surya di departemen nanoteknologi di Berkeley. Masa itu sangat menyenangkan, tapi saya juga banyak bekerja dengan bahan kimia dan membuat bahan campuran. Di waktu luang, saya banyak bergaul dengan para neurosaintis, yang selalu asyik dengan kegiatan yang seru. Saya semakin tertarik pada komputasi sistem kompleks, dan saya menempuh separuh kuliah pascadoktoral saya di departemen neurosains di Berkeley dan separuh lagi di departemen teknik elektro di Stanford. Pada saat yang sama, salah satu teman serumah saya mulai bekerja di sebuah lab startup baru untuk Baidu, mesin pencari dari Cina. Selain itu, Doug Eck meluncurkan lab risetnya di Google yang mengkaji penggunaan pembelajaran mesin dalam proses-proses kreatif dan produksi musik. Saya sudah dari dulu main musik – saya main gitar jazz dan berimprovisasi. Di waktu luang, saya suka menggabungkan teknologi dan musik. Di Stanford saya membuat synthesizer yang bekerja lewat getaran molekul. Kesempatan untuk melakukan kedua hal itu di tempat kerja dan dengan demikian menggabungkan kedua minat saya itu sungguh suatu kebetulan bagi saya. Jadi, pada tahun 2016 saya pun bergabung dengan tim. Di sini saya dapat melakukan hal-hal yang saya sukai dan menekuni tema-tema seru dengan memperoleh dukungan.

Bagaimana kita bisa memanfaatkan pembelajaran mesin agar kita tidak sekadar menghasilkan musik atau seni baru, tetapi juga bekerja sama sedemikian rupa sehingga kita bukan saja mewujudkan tujuan utama kita sendiri, tetapi juga mendapatkan yang terbaik dari pihak lainnya?

Bagaimana Anda memasukkan fitur kolaboratif ke dalam alat-alat musik Anda? Dan bagaimana teknologi seperti itu dapat memicu kerja sama yang baru, berbeda, dan lebih mengejutkan dibandingkan yang ada sebelum ini?

Kolaborasi antara manusia dan teknologi sudah ada sejak awal zaman teknologi. Cara kita mengekspresikan diri selalu berhubungan dengan erat dengan peralatan yang kita gunakan untuk itu. Contoh favorit saya: Seruling tulang pertama ternyata lebih tua daripada barang tembikar pertama. Sejauh yang bisa kita nilai, umat manusia sudah lebih lama menggunakan alat untuk bermain musik daripada alat untuk memasak sup. Dengan kata lain, seruling memiliki tradisi yang lebih lama daripada sup. Dari sana, kita bisa menelusuri perkembangan selanjutnya lewat gitar listrik, komputer drum, dan workstation audio digital, kemudian menyadari bahwa alat-alat yang baru itu juga memungkinkan bentuk-bentuk ekspresi yang baru. Pembelajaran mesin pada dasarnya hanya satu aspek lagi dalam dunia teknologi yang kompleks. Pertanyaan sebenarnya adalah, bagaimana kita akan menyikapi interaksi kita dengan sistem-sistem itu agar kita tetap terinspirasi dan merasa memegang kendali? Seperti apa metafora yang tepat? Apakah alat itu sebuah synthesizer? Atau sebuah komposisi? Apakah berupa generator angka acak? Atau kompas? Atau asisten? Pada dasarnya, ini semua hanya multiplikasi matriks. Namun, desain antarmuka dan bagaimana teknologinya disajikan mempunyai dampak besar terhadap cara manusia berinteraksi dengannya.

Belakangan ini kami berfokus pada pertanyaan apa yang terjadi ketika kita membawa orang lain ke dalam situasi tersebut; jika kolaborasi antarmanusia dimediasi oleh alat pembelajaran mesin (machine-learning tool). Anna Huang berkinerja luar biasa di dalam tim riset kami dan telah mengembangkan CocoNet, yang mengharmonikan melodi lagu dengan gaya Bach. Selanjutnya kami mengembangkan ekstensi bernama​​​​​​​ CoCoCo , yang dapat dikendalikan dengan lebih baik lagi oleh para pengguna dan terutama berfungsi sebagai alat kolaborasi. Dalam rangka sebuah studi kami mencoba menentukan apakah alat itu memang benar meningkatkan kerja sama – dan hasilnya sangat mengejutkan. Alat itu bukan saja sangat membantu dalam mengembangkan ide, tetapi juga menjadi perangkat mediasi sosial yang penting. Banyak orang menjadi lebih berani menggunakannya, sebab jika terjadi kesalahan atau sesuatu terdengar kurang bagus, mereka dapat menyalahkan modelnya. Para pengguna tidak perlu terlalu banyak memikirkan keputusan mereka sehingga bisa lebih berfokus pada aspek kreativitas. Tetapi di pihak lain, mereka menjadi kurang merasa sebagai pencipta produk-produk yang dihasilkan.

Musik menyediakan mikrokosmos yang luar biasa untuk gelombang teknologi baru ini. Misalnya saja, di bidang robotika - pada akhirnya, ada sebuah tujuan yang hendak dicapai bersama-sama oleh Anda dan algoritma yang dituliskan ke dalam program. Dengan bantuan alat musik kami, Anda dapat bermusik bersama algoritma tersebut, dan masing-masing ingin mendapatkan yang terbaik dari yang lainnya. Bagaimana kita bisa memanfaatkan pembelajaran mesin agar kita tidak sekadar menghasilkan musik atau seni baru, tetapi juga bekerja sama sedemikian rupa sehingga kita bukan saja mewujudkan tujuan utama kita sendiri, tetapi juga mendapatkan yang terbaik dari pihak lainnya? Bagaimana kita bisa memadukan gagasan ini ke dalam proses belajar sebuah algoritma?

Seperti apa kira-kira implementasi teknisnya? Apa yang perlu diubah pada rancangan model pembelajaran mesin untuk meningkatkan kemampuan kerja sama pada kecerdasan buatan?

Pada dasarnya, kita harus bisa beralih dari model generatif ke integrasi apa yang disebut pembelajaran pengukuhan (reinforcement learning/RL). Kami berusaha untuk memodelkan proses generatif, bukan hanya hasil generatif. Intinya adalah, bahwa seni harus dipahami sebagai sesuatu yang aktif, bukan sebagai sesuatu yang statis. Menurut saya, yang paling cocok untuk itu adalah teknologi-teknologi yang mendukung manusia dalam upaya peningkatan diri – bagaimana interaksi dengan model dapat membantu seseorang memainkan sebuah instrumen dengan lebih baik? Atau sekadar membantu meningkatkan kesadaran orang bagaimana mereka berinteraksi dengan model, agar dengan cara ini mereka menjadi lebih wawas mengenai interaksi mereka dengan orang lain. Jadi, ini secara eksplisit menyangkut banyak orang dan agen berbeda. Pemodelan memang merupakan bidang penelitian yang pening. Para peneliti menggunakan gim multi-pemain seperti Overcooked – sebuah gim video yang mengajak beberapa pemain memasak bersama – sebagai tolok ukur untuk pembelajaran mesin. Dengan cara ini, mereka hendak mendukung para pengembang dalam melatih sebuah model agar bisa berkolaborasi dengan manusia untuk merealisasikan tujuan. Masing-masing model juga bisa dilatih untuk berkolaborasi satu sama lain. Tapi kemudian salah satu agen ternyata manusia. Kolaborasinya kadang-kadang tidak berhasil. Jadi, para peneliti harus secara aktif menangani isu bagaimana sistem pelatihan dapat diubah agar lebih mudah beradaptasi.

Bagaimana Anda akan menggambarkan hubungan antara musisi dan alat-alat pembelajaran mesin pada saat bekerja?

Menurut saya, hubungan itu sangat beragam, mulai dari penggunaan model pembelajaran mesin sebagai pemacu kreativitas sampai ke proses yang lebih kooperatif. Justru karena itu kita harus membidik tema ini dan tidak boleh menganggap musik sebagai sebuah masalah yang memerlukan solusi. Kita malah harus menekankan bahwa orang yang berbeda juga mempunyai kebutuhan atau keinginan berbeda terkait interaksi mereka dengan algoritma. Pada akhirnya, yang terpenting adalah bagaimana berbagai teknologi itu membantu manusia untuk memperoleh pengalaman yang lebih bernilai – apakah seorang diri bersama sebuah teknologi atau dalam pertukaran dengan orang lain.

Seperti apa dampak penyebaran kecerdasan buatan terhadap komunitas kreatif atau upaya kreatif bersama kita selama beberapa dekade mendatang menurut Anda? Seperti apa bayangan Anda mengenai masa depan kecerdasan buatan di dalam masyarakat?

Perkembangannya begitu pesat sehingga prediksi jangka panjang menjadi sulit. Sepuluh tahun lalu baru ada AlexNet. Sekarang ada model seperti Imagen, Parti, dan DALL-E. Dunia akan berubah secara radikal, karena penciptaan dunia-dunia virtual membuka kemungkinan yang tidak terbayangkan sebelumnya. Sama seperti komputer dahulu turut mengatasi kelangkaan digital. Lihat saja orang-orang yang menulis buku dan kemudian ingin menggandakan buku tersebut. Komputer membawa nilai tambah yang begitu besar, karena mampu mengatasi kurangnya sumber daya fisik. Sama seperti kurangnya kemungkinan penggandaan diatasi lewat kemungkinan penyimpanan digital, kurangnya penciptaan nilai kreatif akan dapat diatasi lewat pembelajaran mesin di bidang kreatif. Coba bayangkan sebuah film yang ingin Anda tonton, tetapi belum ada. Anda bisa menciptakannya sendiri. Fakta bahwa segala sesuatu bisa diciptakan bukanlah berarti bahwa kerja kreatif itu sendiri tidak bernilai lagi. Nilainya tidak terletak pada produk semata, sebab pengalaman manusia itu menciptakan nilai tersendiri. Jadi, yang terpenting adalah apa saja pengalaman manusia yang bisa diciptakan dengan berbagai teknologi itu. Yang sangat menarik juga adalah bahwa hambatan biaya terkait proses kreatif diturunkan. Banyak orang tidak memandang diri mereka sebagai musisi, karena mereka tidak mencari nafkah melalui musik. Saya berbicara, tapi saya tidak memandang diri sebagai pembicara, karena berbicara termasuk bagian alami dari keberadaan saya sebagai manusia. Dengan pengikisan hambatan untuk bermusik, segala sesuatu menjadi berubah dari sebelumnya. Sama seperti semua orang mendadak bisa membuat foto dengan ponsel mereka. Kerja para fotografer adalah hal yang sama sekali berbeda. Dampak ekonomi dan profesional dari perubahan seperti itu hanya satu sisi dari sebuah koin. Pada dasarnya, perubahan itu berarti bahwa manusia mengalami fotografi melalui teknologi dan mampu berbagi kenangan dan menyusun kisah pribadi tanpa perlu menekuni fotografi secara profesional. Menurut saya, pertanyaan yang sebenarnya adalah bagaimana berbagai teknologi itu berkontribusi dalam mengubah pengalaman masing-masing sebagai manusia serta sebagai bagian dari masyarakat.

Pada akhirnya, yang terpenting adalah bagaimana berbagai teknologi itu membantu manusia untuk memperoleh pengalaman yang lebih bernilai – apakah seorang diri bersama sebuah teknologi atau dalam pertukaran dengan orang lain.

Jenis bunyi seperti apakah yang akan digolongkan sebagai “indah” oleh model-model Magenta? Bagaimana manusia dan mesin bisa saling mendekat dalam proses kreatif?

Dari segi kandungan informasi, derau putih (white noise) adalah musik paling indah. Kita tidak bisa menduga apa yang akan terjadi selanjutnya. Yang dijadikan orang sebagai titik acuan itu bukan saja ketidakpastian, tetapi juga keterdugaan dan hubungan timbal balik di antara keduanya. Saya telah mencoba membentuk kemitraan multi-agen, di mana asumsi-asumsi mengenai perilaku manusia menghasilkan sesuatu yang dalam beberapa hal terkait dengan kerangka referensi kita, dan dalam beberapa hal lain tidak terkait. Inilah yang menurut saya akan menjadi sangat menarik. Kalau kita hanya belajar dari data, kita belajar dalam konteks yang terbatas saja, menyimpulkan sesuatu, dan mungkin mengombinasikan beberapa hal di sana-sini. Tetapi tolok ukur finalnya tetap manusia, sebab kalau tidak begitu, hasilnya akan terdengar janggal.

Bagaimana kalau kita menetapkan berbagai asumsi yang kita butuhkan untuk memahami dunia sebagaimana yang dimungkinkan sekarang, tapi sekaligus mampu “membebaskan” salah satu asumsi tersebut? Menurut saya, ada tidak terhitung banyaknya contoh untuk itu. Sebagian besar komposisi berdasarkan algoritma saat ini berfungsi sebagai berikut: Sebuah synthesizer memainkan beberapa nada berdasarkan struktur yang sudah dikenal. Tapi kemudian kami melonggarkan beberapa ketentuan untuk nada-nada itu. Di Magenta, perhatian utama kami tertuju pada upaya untuk mengeksplorasi generasi berikut pembelajaran dengan melibatkan manusia dan mendorong kolaborasi antara manusia dan mesin.
 
Wawancara ini pertama diterbitkan di ​​​​​​​cchange.xyz. Kami ucapkan terima kasih kepada Proyek​​​​​​​ C/Change dan Jesse Engel atas pemberian izin untuk penerbitan ulang.

Top