Bagaimana Komputer Mengenali Gambar
Ada salah satu video TED Talk lama dari Dr. Fei Fei Li yang saya suka tentang bagaimana cara komputer mengenali gambar.
Di awal pembicaraan, beliau membandingkan kemampuan komputer dalam mengenali wajah, dibandingkan dengan anak kecil berusia kurang lebih 3 tahun.
Dalam demo singkat tersebut, digambarkan bahwa anak kecil tersebut mampu mengenali "cerita" dalam gambar atau foto yang dilihat dengan kedua matanya. Misalnya ketika ada gambar sebuah kue, kemudian ada anak kecil, balon serta kado-kado, anak kecil tersebut bisa mengenali "cerita" gambar tersebut adalah gambar atau foto pesta ulang tahun.
Kalau sobat ngulik belum sempat menonton videonya, saya masukan videonya disini. Tapi kalau misalnya takut kehilangan fokus ketika membaca artikel ini (karena videonya agak panjang), boleh juga diliat belakangan nanti setelah selesai membaca artikel ini. :-)
Perjalanan komputer untuk mengenali "cerita" sebuah gambar ini merupakan perjalanan yang sangat panjang. Sebelum kita bisa mencapai kesana, komputer perlu memiliki kemampuan untuk mengenali semua objek atau benda yang kita sebagai manusia bisa dengan mudah mengenali benda tersebut dalam berbagai bentuk, ukuran dan warna yang berbeda-beda.
Diperlukan data yang sangat banyak sekali untuk "melatih" kecerdasan buatan (artificial intelligence) sehingga bisa mengenali suatu objek dengan sangat akurat. Nah, bisa dibayangkan itu untuk satu objek, bagaimana dengan jutaan objek lainnya?
Contoh situasinya begini, kalau misalnya komputer memproses informasi dari kamera CCTV dan kemudian mengenali objek kolam renang dan ada anak kecil, seandainya komputer bisa mengenali bahwa situasi tersebut bisa menjadi situasi yang berbahaya kalau tidak ada orang dewasa di dalam gambar, maka informasi ini akan berguna sekali untuk alert sistem.
Dari awal saya pribadi memang memiliki ketertarikan untuk mendalami pemrosesan gambar. Tapi bukan untuk ke arah risetnya, tapi ke aplikasinya.
Saya dulu pernah membuat service yang setiap hari mengambil data 100 gambar yang paling populer di Flickr. Setelah itu, saya ambil informasi metadatanya dan kemudian saya masukan informasi ini ke Cognitive API.
Cognitive API bisa mengenali subjek dan objek dalam gambar. Bahkan pada saat itu, API nya pun sudah mulai bisa menebak "cerita" dari gambar tersebut.
Lalu dari situ saya bisa membuat profile untuk setiap orang yang mengupload gambar populer ke Flickr tersebut dan kemudian membuat klasifikasi photographernya seperti "style", "genre", "equipment", dsb..
Belum ada tujuan yang serius selain untuk belajar sih, setidaknya untuk saya aktifitas ini seperti menggabungkan dua hobi yang saya benar-benar suka, yaitu di dunia IT dan di dunia fotografi.