Root NationBeritaberita TIMicrosoft menyajikan pendekatan multimodal yang membuka jalan menuju AI pada tingkat manusia

Microsoft menyajikan pendekatan multimodal yang membuka jalan menuju AI pada tingkat manusia

-

Awal pekan ini, peneliti dari Microsoft menghadirkan Kosmos-1, model kecerdasan buatan multimodal yang dapat menganalisis gambar untuk konten, memecahkan teka-teki visual, melakukan pengenalan teks visual, melakukan tes IQ visual, dan memahami instruksi bahasa alami. Menurut para peneliti, model AI seperti itu adalah langkah pertama menuju penciptaan kecerdasan umum buatan (AI) yang dapat melakukan tugas-tugas gabungan di tingkat manusia. Artinya, teknologi ini akan mampu menggantikan seseorang dalam tugas intelektual apapun. Dan inilah tujuan OpenAI, mitra bisnis utama Microsoft di bidang kecerdasan buatan.

Kosmos-1

Dalam hal ini, Kosmos-1 adalah murni pengembangan pribadi perusahaan Microsoft. Para peneliti menyebut kreasi mereka sebagai "model bahasa luas multimodal" (MLLM) karena akarnya terletak pada pemrosesan bahasa alami hanya teks seperti LLM, seperti ChatGPT. Agar model dapat menerima gambar masukan, peneliti harus terlebih dahulu mengubah gambar menjadi serangkaian token khusus (terutama teks) yang dapat dipahami oleh LLM.

Kosmos-1

Kosmos-1 dilatih menggunakan database dari Internet, termasuk ekstrak dari The Pile (sumber teks bahasa Inggris 800 GB) dan Common Crawl. Model tersebut kemudian diuji dengan beberapa tes pemahaman ucapan, pembangkitan ucapan, klasifikasi teks tanpa pengenalan karakter optik, teks gambar, jawab pertanyaan visual, jawab pertanyaan halaman web, dan klasifikasi gambar dengan lokalisasi. Berdasarkan Microsoft, Kosmos-1 mengungguli model saat ini dalam banyak pengujian ini.

Kosmos-1

Yang sangat menarik adalah tes Penalaran Progresif Raven, yang mengukur IQ visual dengan menghadirkan urutan bentuk dan meminta subjek untuk menyelesaikan urutannya. Kosmos-1 mampu memberikan jawaban yang benar dalam 22% kasus.

Kosmos-1

Langkah awal ini, yang dengan pengoptimalan di masa mendatang, dapat memberikan hasil yang lebih signifikan, memungkinkan model AI untuk memahami dan memengaruhi segala bentuk media, memperluas kemampuan asisten buatan secara signifikan.

Baca juga:

Daftar
Beritahu tentang
tamu

0 komentar
Ulasan Tertanam
Lihat semua komentar