
Kecanggihan AI ditentukan kualitas data, bukan model semata. Tanpa keseriusan membangun dataset bahasa Indonesia, jangan heran jika mesin fasih berbahasa dunia, namun masih gagap menyebut Indonesia
Catatan Ahmadie Thaha, Kolumnis
Tagar.co – Di sebuah pagi yang tampak biasa di kampus Universitas Gadjah Mada (UGM) Yogyakarta, sejarah kecil terjadi. Bukan karena demonstrasi mahasiswa yang mengguncang pagar kampus, bukan pula karena berlangsung seminar yang penuh jargon dan kopi dingin.
Pagi itu, di hari yang sama, sepasang suami-istri, Prof. Edi Winarko dan Prof. Tutik Dwi Wahyuningsih, berdiri sejajar dan bersama mencapai puncak akademik: guru besar. Di negeri yang sering lebih sibuk mengejar gelar ketimbang mengejar mutu, momen ini terasa seperti anomali yang menyenangkan, sekaligus menyentil diam-diam.
Baca juga: Bonsai AI dan Kepadatan Kecerdasan
Namun, yang lebih penting dari seremoni itu bukanlah toga, bukan pula pidato ucapan terima kasih penuh haru, melainkan satu gagasan yang, jika ditarik sampai ke ujungnya, dapat membuat kita sedikit gelisah: kecerdasan buatan ternyata ditentukan bukan terutama oleh kecerdasan mesin, tetapi oleh kualitas data yang kita berikan.
Dalam pidato ilmiahnya yang berjudul “Data Berkualitas, AI Berdaya: Pentingnya Pendekatan Data-Centric dalam Penerapan Kecerdasan Buatan di Dunia Nyata”, Prof. Edi Winarko menjelaskan pergeseran penting dalam dunia AI, sekaligus memberi kita sentilan tentang posisi kita dalam bidang akal imitasi ini.
Selama ini, perkembangan AI lebih banyak didorong oleh pendekatan model-centric, yaitu memperbaiki algoritma, menambah kompleksitas arsitektur, dan memperbesar jumlah parameter. Dari Convolutional Neural Network (CNN) hingga transformer, semua berlomba menjadi lebih pintar.
Namun, menurut beliau, persoalan utama di lapangan sering kali bukan pada model, melainkan pada data. Model yang sama dapat menghasilkan performa yang sangat berbeda jika dilatih dengan data yang berbeda.
Karena itu, pendekatan data-centric menjadi krusial. Di sini, data harus dibersihkan, distandardisasi, diberi label dengan benar, dan terus diperbaiki kualitasnya. AI dianalogikan seperti mobil balap. Mesin boleh canggih, tetapi tanpa bahan bakar berkualitas, ia hanya akan berputar di tempat.
Masalahnya, kita ini seperti bangsa yang bangga membeli mobil balap, tetapi mengisinya dengan bensin eceran. Punya mobil Mercy, tetapi diisi bensin oplosan di perempatan jalan. Lebih tragis lagi, kita sibuk memoles bodinya, sementara mesinnya dibiarkan batuk-batuk.
Dunia hari ini memang sedang mabuk model. Model, maksudnya, adalah hasil dari proses belajar dari data. Ia bukan data itu sendiri, melainkan pola yang diserap dari data. Jadi, kalau data adalah buku-buku yang dibaca, maka model adalah isi kepala setelah membaca semua buku itu.
Dalam bahasa yang sangat sederhana, model AI itu seperti “otak buatan” yang belajar dari pengalaman. Bayangkan seorang anak kecil. Ia belum tahu apa itu kucing. Lalu ia melihat banyak gambar kucing, mendengar orang menyebut “ini kucing”, dan perlahan ia dapat mengenali kucing tanpa diajari rumus apa pun.
Proses belajar itu menghasilkan “pemahaman” di dalam kepalanya. Itulah analoginya dengan model. Nama-nama seperti OpenAI, Google, Meta, Microsoft, dan Alibaba disebut dengan penuh kekaguman karena menghasilkan model-model kuat melalui proses training dan fine-tuning atas data.
Kita berbicara tentang GPT, Gemini, LLaMA, DeepSeek, Qwen, Gemma, dan berbagai model besar lain seakan-akan itu adalah puncak peradaban manusia. Kita membahas fine-tuning, inference, dan latency seperti sedang membaca kitab suci teknologi. Namun, kita lupa satu hal sederhana: semuanya hidup dari data.
Lalu di tengah kehebatan raksasa tadi, kita heran mengapa bangsa Indonesia seolah tak punya data. Lihat saja, misalnya, di bidang text-to-speech (TTS) kelas dunia, jarang yang benar-benar fasih berbahasa Indonesia. Hal itu karena model-model TTS tidak memiliki set data bahasa Indonesia yang memadai.
Di titik ini, ironi kita menjadi agak lucu sekaligus menyedihkan. Kita ribut memilih model terbaik, padahal datanya tidak siap. Kita berdebat GPT mana paling canggih, tetapi korpus bahasa sendiri berantakan. Kita ingin suara AI terdengar “Indonesia banget”, tetapi tak pernah serius mengumpulkan suara orang Indonesia.

Ibarat ingin membuat rendang kelas dunia, tetapi dagingnya pinjam, santannya impor, dan bumbunya hasil penelusuran Google.
Model-model TTS seperti WaveNet dari Google, VALL-E dari Microsoft, Voicebox dari Meta, hingga sistem suara dari OpenAI atau ElevenLabs, menghadirkan bahasa Indonesia setengah hati. Kadang ada, tetapi terasa kaku. Kadang tidak ada sama sekali.
Jika pun berbicara, terdengar seperti turis asing yang baru tiga hari belajar mengucapkan “ngopi”. Masih bisa dipahami, tetapi rasa Indonesianya terasa “asing”. Ini bukan karena mereka tidak mampu, melainkan karena kita tidak memberi mereka data untuk dipelajari.
Mari tengok lebih jauh. Kontribusi riset AI Indonesia masih relatif kecil dalam lanskap global. Dalam berbagai laporan internasional, jumlah publikasi ilmiah Indonesia di bidang AI berada di bawah satu persen dari total dunia. Bukan hanya soal jumlah, tetapi juga soal kualitas dan dampaknya.
Lalu kita bertanya: di mana masalahnya?
Apakah kita kekurangan data? Rasanya tidak. Kita punya jutaan dokumen, dari artikel berita, karya sastra, kitab-kitab klasik, hingga ceramah keagamaan yang tersebar di berbagai platform. Kita memiliki ratusan bahasa daerah dengan kekayaan ekspresi yang luar biasa. Kita juga memiliki percakapan sehari-hari yang hidup dan dinamis.
Masalahnya, semua itu tidak menjadi set data. Ia hanya menjadi tumpukan. Kalau pun ada, sering kali tidak berkualitas. Data berkualitas itu bukan sekadar banyak. Ia harus bersih dari kesalahan, konsisten dalam format, jelas dalam konteks, dan terkurasi dengan baik.
Data dari Wikipedia dapat berguna, tetapi tidak cukup. Data dari kitab-kitab klasik bisa sangat berharga, tetapi perlu anotasi. Data percakapan dapat memperkaya model, tetapi harus dipilah. Semua itu membutuhkan kerja panjang: mengumpulkan, membersihkan, memberi label, mengevaluasi, dan memperbaiki secara berulang.
Perusahaan-perusahaan besar seperti OpenAI, Google, Meta, Microsoft, dan Alibaba memahami ini dengan sangat serius. Mereka membangun tim khusus untuk kurasi data, membuat pipeline pembersihan, melakukan deduplikasi, dan menetapkan standar kualitas yang ketat. Mereka tidak hanya membangun model, tetapi juga merawat data seperti petani merawat sawah.
Sementara kita masih sibuk menanam tanpa pernah mencangkul. Bahkan kadang, sawahnya belum jelas, kita sudah sibuk panen wacana.
Padahal, secara teknis, membangun set data berkualitas untuk bahasa Indonesia bukanlah hal yang mustahil. Apalagi jika negara mau turun tangan dengan alasan strategis sekaligus kultural: menjaga bahasa dari kepunahan. BRIN dan Badan Bahasa semestinya terlibat penuh.
Kita bisa menyusun korpus bahasa baku, menambahkan variasi dialek, melibatkan ahli linguistik, dan membuat standar anotasi nasional. Kita bahkan bisa membuka kolaborasi lintas kampus dan lembaga untuk membangun set data terbuka yang dapat digunakan bersama.
Yang tampaknya lebih sulit justru bukan teknologinya, melainkan ketekunannya, juga political will-nya. Kita terlalu cepat puas menjadi pengguna. Terlalu nyaman menjadi pasar. Kita unduh model, kita pakai, kita kagum, lalu selesai. Seolah-olah masa depan bisa diimpor seperti aplikasi di ponsel.
Padahal, masa depan dibangun dari pekerjaan yang tidak glamor: membersihkan data satu per satu, memberi label dengan sabar, dan memperbaiki kesalahan kecil yang nyaris tak terlihat, tetapi menentukan segalanya.
Di titik ini, pidato Prof. Edi Winarko terasa seperti pengingat yang sunyi namun tajam: bahwa AI bukan sekadar perlombaan siapa paling pintar membuat model LLM, tetapi siapa yang paling sabar membangun fondasi data.
Dan mungkin, jika kita jujur, krisis kita bukan krisis teknologi, melainkan krisis ketekunan.
Karena pada akhirnya, AI hanyalah cermin. Ia memantulkan apa yang kita berikan. Jika datanya kacau, hasilnya pun pincang.
Dan jangan heran jika suatu hari nanti mesin dapat berbicara dalam ratusan bahasa dunia dengan fasih, tetapi masih tersendat-sendat ketika menyebut: Indonesia. (#)
Ma’had Tadabbur Al-Qur’an, 12 April 2026
Penyunting Mohammad Nurfatoni












