Menilik Kualitas "Big Data"
Pengunaan ”big data” untuk statistik resmi perlu diperluas lagi di berbagai bidang untuk melengkapi statistik konvensional yang sekarang dikumpulkan, untuk menuju data statistik yang berkualitas.
Jika kita mendengar kata big data (mahadata), pasti langsung tebersit di benak suatu data yang besar. Sebesar apa? Untuk menjawab hal tersebut perlu kita kaji lagi sifat 4V yang sekarang berkembang menjadi 5V dari big data itu.
Apa itu 5V? Unsur V pertama adalah volume. Volume ini berhubungan dengan ukuran dan jumlah yang sangat besar. Ibarat kalau kita membaca status yang muncul di beranda media sosial kita, rasanya tidak cukup waktu seharian untuk membaca semua status terbaru.
Banyak sekali status berupa teks, foto, video, dan lain-lain. Ditambah lagi setiap orang mempunyai banyak akun media sosial dan aktif update status demi gelar ”exist” yang kini banyak menjadi incaran para pengguna dunia maya. Tak heran, makin exist seseorang, makin besar pula pundi-pundi yang akan mereka dapatkan dari paid promote ataupun endorse berbagai produk dan jasa. Inilah yang menjadikan big data itu bisa mencapai terabyte, exabyte, zettabyte, dst.
Baca juga: Mahadata, Maha-sia-sia
Unsur V yang kedua berkaitan dengan velocity atau kecepatan pertumbuhan/perpindahannya. Dalam sekejap mata, kita pasti melihat beratus, bahkan ribuan, status baru di beranda media sosial kita. Secara bersamaan, kita dapat melakukan berbagai aktivitas di dunia maya, seperti membaca status teman di Facebook atau Instagram sambil menunggu buffer (proses) pada saat streaming film Korea di kanal Youtube.
Selain di media sosial, kecepatan dari data yang besar ini juga berperan di berbagai marketplace yang saat ini ramai pengguna, apalagi di masa pandemi Covid-19 yang mayoritas masyarakat berada di rumah. Tidak heran jika dikatakan menjadi seorang suami yang mempunyai istri sedang ngidam saat ini benar-benar dimanjakan oleh cepatnya transaksi di era digital ini. Kalau istri ngidam, suami cukup membuka telepon pintarnya dan melakukan transaksi belanja daring di mana saja. Apalagi saat ini didukung berbagai jenis dompet digital yang memudahkan seseorang melakukan transfer uang secara cepat.
Selain di media sosial, kecepatan dari data yang besar ini juga berperan di berbagai marketplace yang saat ini ramai pengguna.
Variety atau jenisnya yang sangat bervariasi merupakan salah satu unsur dari 5V big data ini. Variasi data ini bisa terstruktur dan tidak terstruktur seperti data di media sosial yang sangat beragam. Ada yang senang posting gambar, ada yang senang upload video, ada juga yang senang dengan kata-kata motivasinya yang panjang, bahkan ada juga yang shareloc (membagikan lokasinya terkini) dengan memanfaatkan GPS di telepon pintarnya. Jenis lainnya juga banyak kita jumpai di dunia perbankan, seperti transaksi transfer dan pembayaran tagihan atau belanja.
Unsur 5V selanjutnya adalah veracity yang berhubungan dengan kualitas dari data yang dihasilkan. Tentu data yang ada perlu dilihat dari sisi kebenarannya. Apalagi saat ini banyak hoaks yang bertebaran di dunia maya.
Garbage in garbage out. Tentu kita sering mendengar istilah ini. Jika sampah yang masuk, maka sampah pula yang akan keluar. Jadi, big data dengan berbagai variasi serta jumlah yang sangat besar perlu dicek terlebih dahulu kebenarannya.
Dengan data yang benar, menghasilkan nilai (value) yang sangat berharga. Value inilah yang merupakan unsur kelima dari 5V. Jangan heran jika kita baru saja mencari suatu produk di marketplace tertentu, tiba-tiba saat kita mengakses media sosial kita muncul iklan yang mirip dengan apa yang kita incar di marketplace tersebut. Hal ini karena pemanfaat big data yang memiliki nilai tersendiri bagi para pelaku bisnis dengan melakukan analisis dari profil para penggunanya.
Kualitas ”big data”
Berkualitas atau tidak suatu data itu bergantung dari sumber datanya. Banyak aspek dan dimensi yang perlu menjadi pertimbangan dalam mengukur kualitas data, seperti apakah data itu relevan (sesuai) dengan apa yang diinginkan penggunanya? Misalnya jika kita ingin mendapatkan data pengguna suatu telepon pintar keluaran terbaru, kita sebaiknya menggunakan data dari para marketplace atau situs web yang berhubungan dengan pembelian telpon pintar tersebut sehingga yang kita cari dan yang kita dapatkan akan relevan (sesuai).
Banyak aspek dan dimensi yang perlu menjadi pertimbangan dalam mengukur kualitas data.
Selanjutnya apakah data itu akurat? Tentu dengan maraknya hoaks saat ini membuat para pengguna big data terutama data yang tidak terstruktur dari media sosial harus lebih berhati-hati. Keakuratan data yang kita peroleh harus benar-benar diuji dan dilakukan pengecekan secara teliti dengan membandingkan dan mem-filter (menyaring) setiap data yang masuk.
Keterlibatan suatu ”robot” dalam dunia maya juga perlu menjadi perhatian. Semakin tinggi teknologi, peluang cheating dari orang yang tidak bertanggung jawab perlu menjadi perhatian tersendiri agar akurasi data tetap terjaga.
Baca juga: Menimbang Kuasa Data
Bagaimana aktualitas dan ketepatan waktu big data? Dimensi kualitas ini tidak perlu dipertanyakan lagi dalam big data. Namun, yang perlu menjadi perhatian adalah bagaimana menyiapkan tools (alat) yang tepat, kuat, dan mampu menampung cepatnya arus big data ini agar data dapat diproses dengan cepat dan aktual. Misalnya, dalam melakukan web scraping, apakah sudah disiapkan program ataupun manusia yang ahli dalam melakukan proses tersebut dengan cepat? Apakah telah disiapkan gudang untuk menyimpan datanya (datawarehouse).
Big data yang akan kita olah harus dilihat juga koherensi dan keterbandingannya dengan berbagai data lain. Pada saat kita ingin mengakses harga suatu produk di pasaran, tidak cukup hanya mengambil dari satu sumber data marketplace, kita perlu membandingkannya dengan harga dari marketplace lainnya.
Terkait pengambilan data ini, ada satu dimensi lainnya yang berperan, yaitu aksesibilitas dari data tersebut. Saat ini banyak data yang tersedia secara gratis di dunia maya, tetapi banyak juga data yang perlu menguras kantong kita saat ingin digunakan. Jika kita ingin data yang banyak, pundi-pundi tabungan kita pun perlu diikhlaskan. Terkadang, kita perlu kerja sama dengan para pemilik suatu situs web ataupun aplikasi tertentu untuk memudahkan dalam mengakses datanya.
Terakhir, kita perlu melihat aspek interpretabilitas dari big data yang akan kita olah. Banyak data gambar, video, suara, teks, lokasi, dsb di media sosial. Bagaimana kita menyampaikan data itu dan mengemasnya sesuai dengan sudut pandang dan konsep yang benar? Kita perlu memanfaatkan sumber daya yang ada seperti menerapkan berbagai metode pembelajaran mesin (machine learning) dll.
Kita perlu melihat aspek interpretabilitas dari big data yang akan kita olah.
”Big data” bagi pemerintah
Pemerintah harus menyesuaikan diri dengan era teknologi yang sangat pesat saat ini agar kebijakan yang diambil tepat sasaran dan cepat dalam menanggapi isu yang sedang berkembang. Sesuai Undang-undang Nomor 16 Tahun 1997, Badan Pusat Statistik (BPS) merupakan lembaga yang mengumpulkan data statistik dasar. Pada Pasal 7 dijelaskan bahwa pengumpulan data statistik bisa dilakukan dengan cara lain selain sensus, survei, kompilasi produk administrasi, yaitu dengan menyesuaikan perkembangan ilmu pengetahuan dan teknologi.
Dilansir dari www.bps.go.id, BPS sudah mulai menggunakan big data untuk statistik resmi (official statistics) pada berbagai bidang. Hal itu antara lain, pemanfaatan mobile positioning data (MPD) pada statistik pariwisata dan mobilitas, menghitung indeks kualitas udara dengan melakukan pengambilan data dari sebuah situs web (web scraping) yang menyediakan data terkait kualitas udara, dan melakukan tinjauan big data terhadap dampak Covid-19.
Baca juga: Mengatur Mahadata
Pengunaan big data untuk statistik resmi perlu diperluas lagi di berbagai bidang untuk melengkapi statistik konvensional yang sekarang dikumpulkan. Momentum Hari Statistik Nasional 26 September diharapkan mampu melahirkan berbagai revolusi baru dalam mengumpulkan big data menuju data statistik yang berkualitas.
Reni Amelia, ASN Badan Pusat Statistik, Mahasiswa Pascasarjana Statistika dan Sains Data IPB University, Asisten Profesor dalam Praktikum/Responsi Metode Statistika di IPB University