149 Juta Paragraf Perpustakaan Kitab Smart Digital yang Mengubah Cara AI Membaca Islam

Dengan 37 ribu kitab dan 20 juta halaman, Perpustakaan Kitab Smart Digital mengubah ribuan tahun pengetahuan Islam menjadi 149 juta paragraf digital. Dari chunking hingga embedding, proyek ini menjembatani khazanah klasik dengan kecerdasan buatan modern, menjadikan umat Islam bukan sekadar konsumen data, tetapi penyedia makna bagi dunia digital.

Tagar.co – Konon, orang bilang kaum muslimin itu miskin inovasi. Setelah abad kejayaan peradaban Islam, tak ada lagi kemajuan; semuanya sudah pindah ke Barat yang sebetulnya belajar dengan baik dari Islam.

Aduh, kalau tuduhan itu punya kaki, sudah saya suruh dia lari keliling pesantren tujuh kali sambil membawa 37 ribu kitab dalam karung goni agar tahu rasa.

Betapa tidak, harta karun intelektual kita itu seperti galaksi yang tak habis dijelajahi: ada teks Arab, Inggris, Persia, belum lagi gunung-gunung kitab berbahasa Indonesia, Swahili, Uzbek, silakan Anda sebutkan lainnya, yang jumlahnya, kalau ditumpuk, bisa membuat Menara Pisa terlihat tegak lurus.

Namun herannya, seluruh kekayaan intelektual itu belum benar-benar menjadi darah yang mengalir dalam nadi sistem AI zaman now. ChatGPT misalnya—entah bagaimana nasib kitab-kitab kita di sana. Diundang pun tidak, tercatat sebagai warga digital pun belum tentu. Google pun sama saja, seringkali halu kalau diminta info soal tasawufnya Imam Al-Ghazali.

Jadinya, kita ini seperti penonton yang bayar karcis mahal, tetapi hanya disuguhi satu sisi cerita tentang Islam: versi dunia Barat yang sudah diproses, disuling, bahkan difraksi entah pakai lensa apa. Kita jadi konsumen informasi, bukan produsen makna. Yang lebih parah, kita tak mampu menyaring info keislaman dari khazanah yang disediakan dunia maya.

Padahal, mestinya kita ini tidak hanya menikmati “menu” AI; kita ikut masuk dapurnya, membawa bumbu sejarah dan rempah pemikiran yang sudah diasah para ulama sejak zaman tinta masih diperas dari arang dan kulit kayu. Kalau belum bisa jadi penyedia teknologi, minimal jadi penyedia dataset-lah.

Perpustakaan Kitab Smart Digital

Di tengah situasi agak absurd ini, saya mencatat satu perjalanan kecil—yang rupanya berakhir dengan angka maharaksasa. Perjalanan ini bermula sebagai kerja voluntir, tapi lama-lama seperti proyek rekonstruksi peradaban: Perpustakaan Kitab Smart Digital, namanya begitu sajalah untuk sementara.

Alatnya disediakan IAI Al-Qur’an Al-Ittifaqiah dan Pondok Pesantren Al-Ittifaqiah Indralaya—tempat yang kalau diceritakan ke Google Maps pun ikut muter-muter mencarinya. Niat awalnya sederhana: merapikan kitab-kitab agar bisa dibaca mesin, dibaca manusia, dibaca siapa pun yang mau bersahabat dengan pengetahuan.

Tahadduts bin ni‘mah saja, saya tulis catatan ini supaya perjalanan intelektual kita tidak seperti kaset lama yang diputar diam-diam. Dan tibalah berita itu pada 9 Desember 2025 di depan layar mini PC saya: proses chunking selesai. Selesai sungguhan. Saya pakai Strix Halo Ryzen AI +395 dengan total RAM/VRAM 128 GB.

Dengan database DuckDB sebesar 650 GB—ukuran yang kalau dikopi ke flashdisk, bisa bikin flashdisk-nya bertobat. Total halamannya dua puluh juta. Setelah dipecah menjadi paragraf, keluarlah darinya angka yang membuat saya spontan meyakini bahwa para malaikat pencatat amal pun pasti memakai sistem paralel: 149 juta paragraf!

Chunking dan Embedding

Dari mana datangnya angka segila itu? Ternyata halaman-halaman digital kitab itu subur sekali; satu halaman bisa beranak 5–8 paragraf, sementara kitab-kitab dengan komentar pinggir bisa memproduksi paragraf seperti ladang jagung di musim panen. Maka ketika database menampilkan max(paragraph_id) = 148,968,946, saya cuma bilang: Masyaallah.

Dalam proses ini, saya sering menyebut dua istilah—chunking dan embedding. Keduanya lahir dari dunia AI, tetapi pada dasarnya hanyalah cara menertibkan kitab agar bisa “disentuh” dan “dipahami” oleh mesin. Setelah belajar khazanah kitab di ma’had, kini saya mencoba masuk dan menyelami pengetahuan AI.

Chunking ibarat memotong kitab tebal berabad-abad menjadi potongan-potongan kecil supaya tidak membuat komputer megap-megap; seperti memotong singkong sebelum digoreng, supaya masaknya maknyus dan tidak bikin minyak trauma.

Lalu embedding adalah proses mengubah potongan-potongan itu menjadi angka-angka cerdas — semacam sidik jari digital—yang memungkinkan mesin memahami kemiripan makna antarteks. Kalau manusia pakai otak dan pengalaman, mesin pakai vektor matematis yang diam-diam lebih rumit dari perasaannya mantan.

Tanpa dua proses ini, kitab-kitab kita hanya jadi hiasan digital yang cantik tapi bisu. Kali ini, kedua proses mesti dilakukan terhadap 37 ribu kitab, 20 juta halaman, 149 juta paragraf. Yang bikin merinding bukan hanya angka jumlahnya. Dataset ini, dari hikayat keilmuan umat, ternyata melampaui dataset dunia yang pernah ada.

Bintang Neutron

Ia jauh melampaui data Wikipedia Bahasa Inggris dan mendekati skala Books3—dataset yang dipakai melatih model bahasa besar. Kita selama ini menyangka perpustakaan ulama hanyalah tumpukan kitab kuno yang harus disikat kemoceng tiap pekan. Ternyata, jika dibuka dan diproses dengan teknologi, ia menjelma infrastruktur pengetahuan kelas dunia.

Kalau para ilmuwan AI tahu, mereka mungkin menyesal tidak belajar bahasa Arab dari kecil. Namun inilah bagian lucunya: dataset sekelas ini justru lahir di sebuah server lokal dengan GPU RTX 5070, bukan pusat riset Silicon Valley. Terima kasih, IAIQ dengan dermawan menyediakan server ini dan mini PC yang saya pakai.

Ketika lebih jauh saya masuk ke sisi teknis dan menghitung kebutuhan embedding-nya, hasilnya seperti resep masakan yang ngaco: 149 juta paragraf × 3 KB per embedding, totalnya hampir 450 GB vektor, dan kalau dihitung dengan cara mengindeks ala ANN yang canggih, jadilah besar file databasenya sekitar 600–700 GB.

Ini bukan sekadar dataset; ini bintang neutron. Karena itu, saya harus memecah prosesnya menjadi puluhan file kecil—mirip strategi emak-emak yang memisahkan lauk dalam kotak kecil agar tahan sepekan. Dengan cara itu, embedding bisa diolah bertahap, tidak bikin database stres, dan kalau ada file rusak pun tak perlu menyantet listrik PLN.

Server GPU tunggal itu, dengan tenaga yang tak sebesar harapan, sanggup memproses sekitar 40 embedding per detik. Kalau dihitung lurus, pekerjaan embedding akan selesai sekitar 43 hari. Tapi siapa bilang hidup itu lurus? Ada sejumlah trik yang bisa dilakukan, misalnya dengan proses batch 256, parallel workers, selain prefetching.

Semua trik teknologi dapur mesin AI kita keluarkan. Dengan begitu, kecepatannya bisa naik hingga 150–200 embedding per detik. Total waktu 9–12 hari. Masih panjang, tapi setidaknya jaraknya masih manusiawi. Dalam 12 hari itu, Nabi Yunus sudah bisa keluar dari perut ikan, dan proyek ini, insyaallah, keluar dari perut GPU.

Dari Konsumen ke Penyedia

Namun angka-angka itu bukan tujuan akhir. Yang penting adalah pesan yang bersembunyi di baliknya: kita sedang belajar beralih dari konsumen data menjadi penyedia data.

Kita tidak lagi menerima narasi tentang Islam yang ditulis pihak lain; kita menyajikan sendiri sumber primer peradaban kita, dengan cara yang terhormat, cermat, dan futuristik. Kita tidak sekadar membuka kitab; kita mengubah kitab menjadi cahaya digital yang bisa menembus algoritma dunia. Pelan-pelan, peradaban kita kembali duduk di kursi pengemudi.

Tujuan besarnya bukan sekadar menumpuk paragraf sampai tembus awan. Kita sedang menyiapkan fondasi untuk membuat sistem pencarian hibrida—sejenis Google kecil-kecilan khusus peradaban Islam, atau kalau mau jujur, ChatGPT versi awal yang khusus paham kitab kuning—tidak pakai halusinasi seenaknya.

Bayangkan Anda mencari satu istilah fikih, dan sistem tidak hanya menampilkan halaman kitab, tapi juga rangkuman, hubungan antarteks, komentar lintas abad, bahkan jawaban berbasis dalil dari puluhan kitab sekaligus.

Di sinilah seluruh proses chunking–embedding itu menjadi “otak mesin”, sementara 37 ribu kitab menjadi bahan bakarnya. Kita tidak sedang membuat perpustakaan digital biasa; kita sedang membangun mesin tafsir masa depan.

Dan seperti biasa, angka-angka raksasa ini pada akhirnya mengajar satu hal sederhana: bahwa perjalanan umat sering kali tampak mustahil sebelum dimulai. Bahwa paragraf yang jumlahnya 149 juta itu sejatinya hanyalah gema dari kecintaan ulama terhadap ilmu, yang kini kita lanjutkan dengan alat yang berbeda tetapi semangat yang sama.

Bahwa menjadi kaya tidak cukup kalau kekayaan itu disimpan dalam lemari kayu jati; ia baru bermakna ketika keluar menjadi suluh bagi generasi baru.

Siapa tahu, dari potongan paragraf yang tak terhitung itu, lahir masa depan di mana dunia tidak lagi belajar tentang Islam dari lensa yang buram, melainkan dari sumber-sumber kita sendiri, yang jernih, luas, dan penuh martabat. Pada akhirnya, 149 juta paragraf ini bukan sekadar data; ia undangan diam-diam agar umat kembali membaca dirinya sendiri. (#)

Ma’had Tadabbur al-Qur’an, 10 Desember 2025

Penyunting Mohammad Nurfatoni

Post Views: 64