Sebelum kita melakukan analisis data
untuk nantinya mendapatkan insights dari data tersebut ataupun melakukan
pengambilan keputusan, maka kita harus mengetahui jenis tipe dan karakteristik
dari data tersebut. Mengapa penting? Karena masing-masing tipe data memiliki
karakteristik sendiri-sendiri dan tentunya cara mengolah datanya pun berbeda.
Hal ini bisa dianalogikan jika kita
memiliki beras dan ketan, maka keduanya memiliki karakteristik dan cara
pengolahan yang berbeda. Jika kita memasaknya dengan cara yang sama unuk
membuat nasi goreng misalnya, maka tentunya output (hasil) yang diharapkan
tidaklah sama.
Lalu apa saja jenis-jenis data (tipe
data) yang harus kita kenal?
1. Data numerik (numerical) – interval
& ratio
2. Data kategori (nominal)
3. Data ranking (ordinal)
Data Numerik (Numerical)
Data numerik atau dalam bahasa
inggris dikenal dengan sebutan numerical adalah data di mana ia
direpresentasikan dalam sebuah angka. Karakteristik dari angka adalah ia
merepresentasikan sifat kuantitatif dari data itu sendiri. Maksud dari
kuantitatif adalah jumlah, kadar, kapasitas yang bisa diukur dengan jelas.
Misal air dalam gelas bisa kita ukur volumenya. Berat beras dalam karung beras
bisa kita ukur beratnya, dan seterusnya.
Tipe data numerik ini dibagi menjadi beberapa jenis:
1.
Data
diskret (discrete)
Data diskret adalah data numerik
(angka) yang tidak memiliki koma, atau dalam bahasa matematik dan programming
disebut dengan integer. Dalam konteks statistik, data diskret juga disebut
dengan attribute data. Karakteristik lain dari data diskret ini adalah tidak
ada pecahan yang lebih kecil lagi. Misal kita tidak mungkin mengatakan 1,5
(satu setengah) orang. Maka yanga da adalah 1 orang atau 2 orang. Biasanya tipe
data ini dihitung dalam satuan waktu tertentu.
Contoh dari data diskret adalah:
a. Berapa banyak pembelian yang
dilakukan pelanggan dalam satu tahun? Nilainya bisa 20 pembelian/tahun, 30, 40,
dan seterusnya.
b. Berapa kali kita mengedipkan mata
dalam satu menit? Nilainya bisa 10 kali/menit, 40 kali bahkan 100 kali.
c. Apa hasil melempar dadu sebanyak 2
buah? Nilainya bisa 2,3,4,5,6,7,8,9,10,11,12.
2.
Data
kontinu
Data kontinu atau juga disebut dengan
continuous data adalah tipe data yang memiliki nilai tak terbatas (dalam
rentang tertentu) dan bisa disajikan dalam bentuk koma.
Contoh data kontinu antara lain:
a. Tinggi badan seseorang. Nilainya bisa
170,4 cm, 165,87 cm dan seterusnya.
b. Berat badan seseorang. Nilainya bisa
67.9 kg, 78,88 kg dan seterusnya.
c. Berapa lama waktu yang diperlukan
pelanggan untuk memutuskan membeli (check-out) di toko online? Nilainya bisa 15
menit, 29,87 menit dan seterusnya.
Dalam konteks statistic,
tipe data ini juga sering digolongkan ke dalam 2 jenis, yaitu:
a. Data Interval
Data interval adalah data numerik (angka) yang
karakteristiknya mirip dengan integer di mana ia tidak dinyatakan dalam
decimal. Kemudian data interval tidak memiliki nilai 0 dalam makna matematis
yang sesungguhnya (disebut dengan true zero). Misal suhu 0 derajat celcius
bukan berarti ia bernilai 0 (kosong), melainkan ia adalah nilai kadar saja.
Walau demikian, kita bisa menyatakan minus 15 derajat celcius, 0 derajat
celcius, dan 15 derajat celcius seperti sebuah urutan dari kecil ke besar.
Karena sifatnya yang tidak memiliki true zero maka kita hanya bisa melakukan
operasi penjumlahan dan pengurangan, tapi tidak bisa melakukan operasi
perkalian maupun pembagian.
b. Data Ratio
Berbeda dengan data interval, maka data ratio memiliki true
zero. Dengan demikian kita bisa melakukan banyak operasi matematika. Ini adalah
tipe data favorit para data scientist, karena bisa melakukan banyak teknik
statistik untuk mengolah data ini, termasuk penjumlahan, pengurangan,
perkalian, dan pembagian.
Secara definitif, ia memang sangat mirip dengan data numerik
kontinu (continuous), namun yang membedakan adalah ia tidak memiliki nilai
minus. Contoh dari data ratio antara lain:
1) Luas tanah. Bisa diukur dalam meter
persegi, hektar, dan lain-lain
2) Kadar dosis dalam obat. Bisa diukur
dalam mg dan satuan lainnya.
3) Response time (kecepatan respons),
bisa diukur dalam ms, s, jam, dan lain-lain.
0 Komentar