Perbedaan Fase Index Hot data, Warm Data dan Cold Data Pada Elasticsearch

 Dalam implementasi pengelolaan data pada elasticsearch kita mengenal adanya tingkatan data atau data tiers. Tingkatan data ini sangat penting untuk membedakan fungsi dari masing-masing tingkatan agar pengelolaan data bisa menjadi lebih efektif dan efisien. Dalam elasticsearch kita mengenal content data, hot data, warm data, cold data dan frozen data, masing-masing memiliki fungsinya tersendiri, kita akan membahasnya satu persatu.

gambar dari elastic.co


Apa perbedaan masing-masing data tiers dalam hot-warm architecture elasticsearch?

1.       Content tier / data content

Content tier node atau node data konten mempunyai tugas untuk menangani indexing dan pemuatan kueri untuk konten. Saat Anda melakukan indexing dokumen secara langsung ke sebuah index tertentu maka dokumen tersebut tetap berada di node data konten tanpa batas.

Konten data biasanya digunakan untuk menyimpan data yang bersifat konstan misalnya data produk, data cabang dll. Data ini tidak terpengaruhi waktu. Biasanya data yang disimpan pada tingkatan ini erupakan data yang akan disimpan dalam jangka waktu yang Panjang.

Tingkatan data konten sangat optimal untuk melakukan proses penelusuran dan agregasi yang kompleks dan memberikan hasil dengan cepat. Setiap index baru biasanya ditempatkan pada tingkat konten data kecuali data stream.

2.       Hot tier / data panas

Hot tier atau hot data node merupakan node data yang berfungsi untuk menyimpan index yang mempunyai deret waktu / timeseries seperti data metrik dan data log. Hot data menyimpan data yang paling sering diakses dan ditelusuri, oleh karena itu hot data harus cepat dalam membaca dan menulis data. Maka lebih baiknya pada hot data kita menggunakan hardware dan storage yang bisa menjalankan pencarian lebih cepat, misalnya menggunakan SSD.

Index baru yang merupakan bagian dari aliran data / data stream secara otomatis dialokasikan ke tingkat panas. Pada tingkatan ini kita harus melakukan konfigurasi minimal data harus mempunyai satu atau lebih replica.

3.       Warm tier / data hangat

Warm tier atau warm data node merupakan node data yang berfungsi untuk menyimpan index yang mempunyai deret waktu / timeseries seperti data metrik dan data log namun data yang disimpan pada node ini merupakan data yang lebih jarang diakses dibandingkan dengan data yang berada pada hot data. Biasanya warm data node menyimpan data index read only namun masih bisa di perbaharui walaupun jarang, warm data node biasanya memiliki penyimpanan data yang relatif lebih besar.

Pada node ini kita bisa menggunakan spindle drives yang mempunyai penyimpanan yang besar, dibandingkan dengan menggunakan SSD. Untuk ketahanan data yang lebih baik, kita bisa melakukan konfigurasi dengan memasang satu atau lebih replica index.

4.       Cold tier / data dingin

Data dingin / cold data menyimpan data yang memiliki deret waktu / timeseries namun data tersebut sudah jarang diakses dan data yang terseimpan tidak dapat di update, Namun meskipun demikian cold data masih merupakan data yang responsive, data yang tersimpan didalam fase ini asih bisa di kueri. Saat transisi data ke tingkat dingin, data dapat dikompresi dan dikecilkan. Untuk ketahanan, index di tingkat dingin dapat mengandalkan snapshot yang dapat ditelusuri, sehingga tidak perlu replika.

5.       Freeze tier / data beku

Sebelum masuk ke pembahasan, perlu diketahui tingkatan data ini masil bersifat experimental dan belum tersedia pada service elasticsearch.

Secara singkatnya data tingkat beku menyimpan data deret waktu / timeseries yang jarang diakses dan tidak pernah diperbarui, disimpan dalam snapshot yang dapat dicari. Fase beku secara otomatis mengubah transisi data ke tingkat beku menjadi snapshot cache bersama yang dapat dicari.

Pencarian biasanya lebih lambat pada tingkat beku daripada tingkat dingin, karena Elasticsearch terkadang harus mengambil data dari repositori snapshot.

Komentar

Postingan Populer