Meta ImageBind AI dapat meniru persepsi manusia

Meta menerbitkan kode di kecerdasan buatan akses terbuka dengan nama imagebind, yang memprediksi hubungan antara data yang serupa dengan cara orang memandang atau membayangkan lingkungannya. Sementara generator gambar seperti Midjourney, Stable Diffusion, dan DALL-E 2 mengikat kata ke gambar, memungkinkan Anda membuat adegan visual hanya berdasarkan deskripsi tekstual, ImageBind lebih dari itu. Itu dapat menautkan teks, gambar atau video, audio, pengukuran 3D, data suhu dan data gerak – dan melakukannya tanpa perlu pra-pelatihan di setiap kesempatan. Ini adalah tahap awal dari kerangka kerja yang pada akhirnya akan dapat menghasilkan lingkungan yang kompleks dari input sederhana seperti prompt teks, gambar, atau audio (atau kombinasinya).

Proyek Metaverse

Anda dapat menganggap ImageBind sebagai perkiraan pembelajaran mesin untuk pembelajaran manusia. Misalnya, jika Anda sedang berdiri di lingkungan yang dinamis, seperti jalan kota yang sibuk, otak Anda (kebanyakan secara tidak sadar) menyerap pemandangan, suara, dan sensasi sensorik lainnya untuk mendapatkan informasi tentang mobil yang lewat, gedung tinggi, cuaca, dan lainnya. . Manusia dan hewan lain telah berevolusi untuk memproses data ini demi keuntungan genetik kita: bertahan hidup dan mewariskan DNA kita. (Semakin banyak yang Anda ketahui tentang lingkungan Anda, semakin Anda dapat menghindari bahaya dan beradaptasi dengan lingkungan Anda untuk bertahan dan berkembang dengan lebih baik). Saat komputer semakin dekat untuk meniru koneksi multisensori hewan, mereka dapat menggunakan koneksi tersebut untuk menghasilkan adegan yang terwujud sepenuhnya hanya berdasarkan potongan data yang terbatas.

Jadi, meskipun Anda mungkin menggunakan Midjourney untuk membuat "anjing basset dalam kostum Gandalf yang menyeimbangkan bola pantai" dan mendapatkan foto yang relatif realistis dari pemandangan aneh itu, alat AI multimodal seperti ImageBind mungkin akan membuat video dengan anjing dengan relevan suara, termasuk detail ruang tamu, suhu ruangan, dan lokasi yang tepat dari anjing dan semua orang di tempat kejadian. "Ini menciptakan peluang bagus untuk membuat animasi dari gambar statis dengan menggabungkannya dengan perintah audio," catat para peneliti Meta di blog berorientasi pengembang mereka. "Misalnya, pencipta dapat menggabungkan gambar dengan jam alarm dan ayam berkokok dan menggunakan isyarat audio untuk menyegmentasikan ayam atau suara jam alarm untuk menyegmentasikan jam dan menganimasikan keduanya dalam urutan video."

meta

Adapun apa lagi yang bisa dilakukan dengan mainan baru ini, jelas menunjuk ke salah satu ambisi inti Meta: VR, realitas campuran, dan metaspace. Misalnya, bayangkan headset masa depan yang dapat membuat adegan 3D yang terwujud sepenuhnya (dengan suara, gerakan, dll.) dengan cepat. Atau pengembang game virtual pada akhirnya dapat menggunakannya untuk menyelamatkan diri mereka sendiri sebagai bagian penting dari kerja keras dalam proses desain. Demikian pula, pembuat konten dapat membuat video imersif dengan soundtrack dan gerakan realistis hanya berdasarkan teks, gambar, atau audio. Juga mudah untuk membayangkan bagaimana alat seperti ImageBind membuka pintu baru dalam aksesibilitas dengan menghasilkan deskripsi multimedia waktu nyata untuk membantu orang dengan gangguan penglihatan atau pendengaran lebih memahami lingkungan mereka.

Juga menarik: Alat terbaik berdasarkan kecerdasan buatan

“Dalam sistem AI tipikal, ada penyematan khusus (yaitu, vektor angka yang dapat mewakili data dan hubungannya dalam pembelajaran mesin) untuk setiap modalitas yang relevan,” kata Meta. “ImageBind menunjukkan bahwa adalah mungkin untuk membuat ruang penyematan umum untuk beberapa modalitas tanpa harus melatih data dengan setiap kombinasi modalitas. Ini penting karena peneliti tidak dapat membuat kumpulan data dengan sampel yang berisi, misalnya, data audio dan data termal dari jalan kota yang sibuk, atau data kedalaman dan deskripsi tekstual dari tebing tepi laut.”

Meta percaya bahwa teknologi ini pada akhirnya akan melampaui enam "indra" saat ini. "Meskipun kami menyelidiki enam modalitas dalam penelitian kami saat ini, kami percaya bahwa memperkenalkan modalitas baru yang menghubungkan sebanyak mungkin indra - seperti sentuhan, ucapan, penciuman, dan sinyal otak fMRI - akan memungkinkan model AI berpusat pada manusia yang lebih kaya." Pengembang yang tertarik untuk menjelajahi kotak pasir baru ini dapat memulai dengan mempelajari kode sumber terbuka Meta.

Baca juga:

JereloEngadget

Daftar

0 komentar

Ulasan Tertanam

Lihat semua komentar

Artikel lainnya

Meta ImageBind AI dapat meniru persepsi manusia

Komentar terbaru