Data Understanding dan Data Preprocessing Dasar - Data Mining
Pada proses Data Mining, tahap awal yang sangat penting adalah memahami data dan melakukan proses data preprocessing. Data yang digunakan dalam analisis sering kali memiliki berbagai permasalahan seperti missing value, data kategorikal, atau format data yang tidak sesuai.
Materi ini membahas konsep dasar Data Understanding dan Data Preprocessing serta praktikum sederhana menggunakan Python dan Pandas.
1. Evolusi Big Data menuju Data Mining
Perkembangan teknologi informasi menyebabkan jumlah data meningkat secara signifikan. Data tersebut berasal dari berbagai sumber seperti:
- Media sosial
- Transaksi e-commerce
- Sensor Internet of Things (IoT)
- Sistem informasi organisasi
Fenomena ini dikenal sebagai Big Data. Namun data yang besar tidak secara otomatis menghasilkan informasi. Untuk mengekstraksi pengetahuan dari data tersebut diperlukan proses Data Mining.
Data Mining adalah proses menemukan pola, hubungan, atau informasi yang berguna dari dataset menggunakan teknik statistik, machine learning, dan basis data.
2. Tipe Data dalam Dataset
Dalam proses analisis data, terdapat beberapa tipe data yang umum digunakan.
| Jenis Data | Contoh |
|---|---|
| Numerical | Umur, harga, jumlah transaksi |
| Categorical | Kota, jenis produk |
| Ordinal | Tingkat pendidikan, rating |
| Binary | Ya / Tidak |
Memahami tipe data penting karena menentukan teknik preprocessing dan algoritma yang digunakan.
3. Missing Value Handling
Missing value adalah kondisi ketika suatu atribut dalam dataset tidak memiliki nilai.
| Nama | Umur | Kota |
|---|---|---|
| Andi | 25 | Jakarta |
| Budi | NaN | Bandung |
| Citra | 30 | NaN |
Beberapa metode penanganan missing value antara lain:
| Metode | Penjelasan |
|---|---|
| Delete | Menghapus baris yang memiliki nilai kosong |
| Mean Imputation | Mengisi nilai kosong dengan rata-rata |
| Median Imputation | Mengisi nilai kosong dengan nilai tengah |
| Mode Imputation | Mengisi nilai kosong dengan nilai yang paling sering muncul |
4. Encoding Data Kategorikal
Sebagian besar algoritma machine learning hanya dapat memproses data numerik. Oleh karena itu data kategorikal perlu diubah menjadi angka melalui proses encoding.
Label Encoding
Mengubah kategori menjadi angka.
| Kota | Kode |
|---|---|
| Jakarta | 0 |
| Bandung | 1 |
| Surabaya | 2 |
One-Hot Encoding
Mengubah kategori menjadi beberapa kolom biner.
| Jakarta | Bandung | Surabaya |
|---|---|---|
| 1 | 0 | 0 |
| 0 | 1 | 0 |
| 0 | 0 | 1 |
5. Praktikum Data Preprocessing dengan Python
Import Library
import pandas as pd
import numpy as np
Membuat Dataset
data = {
'umur': [25, 30, np.nan, 40, 28],
'pendapatan': [3000000, 4500000, 5000000, np.nan, 3500000],
'kota': ['Jakarta', 'Bandung', 'Jakarta', 'Surabaya', np.nan]
}
df = pd.DataFrame(data)
df
Pandas Preprocessing
df.info()
df.describe()
df.isnull().sum()
Simple Imputation
# 1. Mengisi 'umur' dengan rata-rata (mean)
df['umur'] = df['umur'].fillna(df['umur'].mean())
# 2. Mengisi 'pendapatan' dengan median
df['pendapatan'] = df['pendapatan'].fillna(df['pendapatan'].median())
# 3. Mengisi 'kota' dengan modus
# Catatan: mode() mengembalikan Series, jadi kita ambil indeks ke-[0]
df['kota'] = df['kota'].fillna(df['kota'].mode()[0])
df
Label Encoding
# Membuat copy dataframe agar data asli tidak berubah
df_label = df.copy()
# Inisialisasi LabelEncoder
le = LabelEncoder()
# Melakukan transformasi pada kolom 'kota'
df_label['kota_encoded'] = le.fit_transform(df_label['kota'])
df
One Hot Encoding
# Membuat copy dataframe dari data bersih
df_onehot = df.copy()
# Melakukan One-Hot Encoding
# dtype=int digunakan agar hasilnya 0 dan 1 (bukan True dan False)
df_onehot = pd.get_dummies(df_onehot, columns=['kota'], dtype=int)
df
Kesimpulan
- Data Understanding merupakan tahap awal dalam proses Data Mining.
- Dataset sering memiliki masalah seperti missing value dan data kategorikal.
- Missing value dapat ditangani menggunakan metode imputasi sederhana seperti mean dan mode.
- Data kategorikal perlu diubah menjadi numerik menggunakan teknik encoding.
- Library Pandas sangat membantu dalam proses data preprocessing.



Posting Komentar untuk "Data Understanding dan Data Preprocessing Dasar - Data Mining"
Posting Komentar