Kemudian, mesin tersebut akan belajar untuk mencocokkan teks caption dari audio dengan gambar berisikan obyek yang dicari.
Untuk memudahkan mesin dalam mengenali targetnya, peneliti mengubah jaringan neural yang bertugas untuk menangani gambar supaya memecahkan gambar menjadi potongan gambar.
Sama seperti gambar, jaringan neural yang menangani suara akan memecahkan diagram spektogram audio ke dalam segmen berdurasi 2 detik.
Baca Juga : Nintendo Switch Sertakan Konten Fortnite Dalam Bundle Terbarunya
Setelah mencocokkan gambar dan suara yang tepat, AI akan melihat apakah prosesnya sudah benar dan mendapatkan hasil yang benar pula.
Prosesnya sama persis seperti memberi tahu anak kecil nama benda dengan cara menunjukkan bendanya dan memberi tahu namanya.
Tentu saja ada banyak potensi kegunaannya, tetapi peneliti dari MIT (Massachusetts Institute of Technology) yang membuatnya mengatakan mesin ini sangat tepat menjadi penerjemah.
Baca Juga : JD.ID X, Mal Tanpa Kasir Berbasis Artificial Intelligence (AI) Pertama di Indonesia
Dengan begitu, tidak akan ada lagi kesalahan pengartian dan juga prosesnya lebih cepat dibandingkan manusia.(*)