Google Hadirkan Model AI Canggih yang Dapat Terjemahkan Gambar Menjadi Teks

1 min read

606

Technology

Perkembangan robot semakin canggih dengan hadirnya model AI terbaru dari Google, namanya Robotics Transformer (RT) 2. Model ini memberi robot kemampuan lebih dalam memahami tugas-tugas.

Dalam sebuah postingan di blog resmi Google, dijelaskan bahwa Robotics Transformer 2 (RT-2) adalah model yang menggabungkan bahasa dan penglihatan (VLA), dilatih dengan berbagai informasi dan gambar dari Internet.

Robot ini memiliki kapasitas besar dalam mengolah data, memahami konsep-konsep umum, dan menerapkannya dalam tindakan nyata. Hasilnya, robot mampu beroperasi dengan efektif.

Kelebihan utama model AI ini adalah kemampuannya dalam penalaran kompleks dan memberikan arahan pada robot.

Namun, untuk mencapai level kompetensi tertentu, robot perlu mengumpulkan data langsung dari objek, lingkungan, tugas, dan situasi yang dihadapi. Proses ini menjadi kunci pengembangan kemampuan robot yang lebih baik.

Adaptasi VLM untuk pengendalian robotik

Model bahasa visual (VLM) belajar dari data robotika RT-1 untuk menjadi RT-2, model bahasa visual-aksi (VLA) yang mengendalikan robot.

Perkembangan ini menghadirkan langkah maju dalam pengembangan robot, sebab RT-2 merupakan hasil dari pengembangan model bahasa visual (VLM) yang bisa memproses gambar menjadi teks alami.

Sebelumnya, VLM telah sukses digunakan untuk berbagai tugas, termasuk menjawab pertanyaan visual, memberikan keterangan gambar, dan mengenali objek.

Seperti terlihat dalam ilustrasi di atas, RT-2 menunjukkan kemampuan umum dan pemahaman visual di luar data robotik yang digunakan dalam pelatihannya.

Ini termasuk interpretasi perintah baru dan respons terhadap perintah pengguna melalui penalaran, seperti kategori objek atau deskripsi tingkat tinggi.

Selama bertahun-tahun, para peneliti berupaya meningkatkan kemampuan robot untuk menyelesaikan masalah dalam kehidupan sehari-hari. Google sendiri telah menguji model RT-2 dalam lebih dari 6.000 percobaan robot.

Mengeksplorasi potensi Google RT-2

Berbeda dari chatbot biasa, RT-2 memiliki koneksi dengan dunia nyata dan pemahaman tentang kemampuannya. RT-2 dijelaskan sebagai basis pengetahuan yang memungkinkan robot menyelesaikan tugas dengan lancar, seperti mengambil apel atau membuang sampah.

Dikutip dari blog resmi Google, setiap tugas memerlukan pemahaman konsep visual-semantik dan kemampuan kontrol robotik. Sebagai contoh, robot perlu mengenali sampah, lalu mengambil dan membuangnya.

Tidak seperti memprogram robot untuk tugas tertentu, RT-2 memungkinkan robot menggunakan pengetahuan dari web untuk membantu memahami cara menyelesaikan tugas, bahkan jika belum pernah dilatih secara eksplisit.

Google menyebut model ini hampir dua kali lebih baik dalam kinerja robot dalam skenario baru, dibandingkan versi sebelumnya. Versi baru ini juga mampu merespons perintah pengguna dengan penalaran sederhana.

Konvergensi cepat AI & robotika

Google telah membuat langkah penting dalam menciptakan robot serbaguna yang bisa beradaptasi dengan berbagai situasi.

Hal ini menunjukkan komitmen Google dalam mendorong perkembangan kecerdasan buatan dan aplikasinya dalam robotika.

Kita memasuki era baru dalam robotika dengan kombinasi visi, bahasa, dan tindakan yang diwujudkan oleh RT-2.

Di zaman yang serba canggih ini, hampir seluruh industri di dunia telah menggunakan bantuan AI dalam menjalankan aktivitasnya. Ketahuilah bagaimana Harvard Menggunakan Chatbot AI untuk Mendukung Pembelajaran Mahasiswa.