Penyebutan pertama untuk formulasi data besar atau big data bisa ditemukan pada Mei 2013 lalu.
Setiap dua tahun sepanjang tiga dekade terakhir, jumlah data di dunia meningkat sampai 10 kali lipat, laju percepatan yang bahkan membuat hukum Moore tentang kekuatan prosesor yang berlipat dua menjadi terasa lambat.
Salah satu kelemahan dari peningkatan informasi yang pesat adalah masa kini akan tampak jauh lebih besar dibanding masa lalu.
Bayangkan Anda melihat album foto yang mencerminkan 18 tahun pertama kehidupan Anda: dari lahir hingga dewasa. Sebutlah Anda memiliki dua foto dari saat usia dua tahun pertama.
Dengan mengikuti laju peningkatan informasi data dunia, maka Anda akan punya 2.000 foto sepanjang masa usia enam hingga delapan tahun, kemudian 200.000 foto pada usia 10 hingga 12 tahun.
Lantas dalam masa usia 16 hingga 18 tahun ada 200.000 foto, yang artinya tiga foto lebih untuk setiap satu detik dalam dua tahun terakhir.
Jelas itu bukan analogi yang tepat untuk data global.
Yang pertama adalah karena banyak peningkatan pengumpulan data didorong oleh lebih banyak sumber informasi yang diciptakan oleh lebih banyak orang, sejalan pula dengan format yang lebih besar dan lebih rinci.
Namun secara proporsional, masalahnya sama: jika Anda melihat catatan ke masa lalu atau mencoba menganalisanya maka masa lalu akan menjadi tidak penting.
Hanya dua foto ketika usia Anda dua tahun dan ada 200.000 foto ketika berusia 16-18 tahun.
Di situlah masalahnya dengan data besar yang dikumpulkan pada masa kini dan dianalisa.
Ketika Anda berupaya untuk melihat ke belakang Anda memiliki terlalu banyak bahan dari masa kini dan sedikit sekali dari masa lalu.
Perkembangan teknologi memungkinkan pengumpulan data masa kini yang lebih banyak.
Cara pandang singkat pun menjadi terbangun dalam strukturnya: karena kecenderungan berlebihan untuk melakukan estimasi atas periode yang pendek, dengan mengabaikan sejarah masa lalu.
Untuk menyadari masalah ini, coba lihat temuan ilmu-ilmu sosial tentang ‘bias kekinian’, yang mengungkapkan adanya kecenderungan untuk mengasumsikan bahwa masa depan akan menyerupai pengalaman masa kini.
Bias ini sama dengan yang dikenal sebagai ‘proses belajar berdasarkan ketersediaan’ yaitu sebuah kecenderungan untuk mendasarkan cara berpikir secara tidak proporsional pada apa yang paling mudah masuk ke dalam benak Anda. Hal itu juga merupakan satu sifat psikologis yang universal.
Begini contohnya.
Dalam beberapa tahun belakangan Anda mengalami musim panas yang lebih dingin sehingga Anda tergoda untuk menyatakan bahwa musim panas akan semakin dingin, atau iklim di tempat Anda mendingin.
Kenyataannya, Anda sebaiknya memang tidak usah membaca data apapun karena Anda membutuhkan data yang jauh lebih panjang untuk bisa mengetahui makna tentang perubahan iklim.
Kalau hanya dalam jangka pendek, yang terbaik adalah jangan sama sekali berspekulasi –tapi mana ada pula orang yang mampu untuk tidak berspekulasi.
Dibutuhkan data yang jauh lebih panjang untuk bisa mengetahui makna tentang perubahan iklim.
Hal yang sama terjadi untuk fenomena kehidupan nyata yang lebih rumit: seperti bursa saham, ekonomi, keberhasilan atau kegagalan perusahaan, perang dan damai, hubungan manusia, maupun jatuh bangunnya kerajaan-kerajaan.
Analisa jangka pendek bukan saja tidak valid tapi juga tidak membantu dan menyesatkan.
Lihat saja para ahli ekonomi yang menyatakan bahwa krisis keuangan tahun 2009 sama sekali tidak terpikirkan sampai kemudian benar-benar terjadi.
Jadi gagasan bahwa prediksi yang valid bisa dilakukan dalam skala besar adalah bagian dari masalah itu sendiri.
Perlu juga diingat bahwa 'kebaruan' cenderung menjadi pertimbangan yang dominan ketika memutuskan data yang akan disimpan dan dihapus.
Keluarkan yang lama dan masukkan yang baru. Begitulah kecenderungan digital dalam dunia ini, ketika algoritme secara naluriah berpihak kepada kebaruan, dan ketika tautan internet memenuhi semua hal -mulai dari keputusan Mahkamah Agung sampai ke seluruh layanan media sosial.
Banyak perangkat data yang bisa direduksi namun akan lebih berharga ketika utuh.
Keberpihakan pada masa kini secara struktural sudah beruratakar dalam semua teknologi di sekitar kita: antara lain karena kebiasaan kita untuk menggali banyak hal dari komputer –baik itu dalam bentuk telepon genggam, komputer jinjing, komputer meja, maupun tablet- selama sekitar lima tahun belakangan.
Jadi apa yang harus dilakukan?
Ini bukan pertanyaan tentang bagaimana menyimpan data lama dengan cara lebih baik, walau itu jelas bukan gagasan yang buruk mengingat amat sedikit yang tersedia sekarang ini tentang beberapa dekade lalu. Sumber : BBC.com
Yang lebih penting adalah bagaimana menentukan yang perlu dipertahankan dan apa artinya menyisihkan informasi dengan baik demi ilmu pengetahuan.
Yang lebih diperlukan adalah sesuatu yang saya sebut sebagai ‘melupakan secara cerdas’, yaitu mengajari agar lebih baik dalam melepas masa yang baru saja berlalu dengan tujuan untuk mempertahankan agar kelanjutan yang lebih panjang jadi bisa masuk ke dalam pandangan kita.
Ini semacam perilaku yang mirip dalam mengatur album foto namun dengan menggunakan matematika.
Jadi kapan dua juta foto lebih kurang berharga dibanding 2.000 foto?
Jawabannya adalah ketika jumlah yang besar itu malah mencakup ‘kawasan’ yang lebih kecil, atau ketika pertanyaan yang bisa diajukan untuk jumlah foto yang besar itu adalah pertanyaan yang kurang penting.
Juga ketika rincian yang ditawarkannya tidak memberikan keraguan namun justru keyakinan yang salah.
Banyak perangkat data yang bisa direduksi namun akan lebih berharga ketika utuh: seperti rangkaian gen, data demografis, dan pengetahuan tentang geografi serta fisika.
Semakin lembut ilmunya, maka semakin besar skalanya untuk berbanding terbalik dengan kualitas, dan semakin lebih penting bagi waktu untuk menjadi penyaring.
Penumpukan data jelas bukan merupakan sebuah jawaban.
Faktor waktu melakukan penyaringan lewat beberapa cara, antara lain karena merupakan indra yang penting sebagai faktor pembatas: karena kemampuan manusia yang terbatas untuk waktu dan perhatian.
Perusahaan-perusahaan, orang per orang, dan pemerintah memiliki sama-sama menyusun informasi yang lebih banyak tersedia hari ini dibanding beberapa tahun lalu.
Namun mereka sebenarnya tidak memiliki lebih banyak perhatian, lebih banyak anggota dewan direksi, maupun pimpinan eksekutif yang lebih banyak atau para pejabat pemerintah yang lebih banyak, apa lagi hari yang lebih panjang dari 24 jam.
Jadi diperlukan alat yang lebih baik untuk membantu para pengambil keputusan mengajukan pertanyaan bermakna dari informasi yang mereka miliki, dan hanya Anda hanya bisa menganalisa data yang masih tersedia.
Jelas kalau penumpukan data semata jelas bukan jawabannya.
Dalam era ketika lebih banyak data tersedia, maka yang Anda pilih untuk tidak diketahui sama pentingnya pula dengan yang Anda pilih untuk diketahui.
Best Regards,Bintang Jeremia Tobing