Data Understanding dan Data Preprocessing Dasar - Data Mining

Data Understanding dan Data Preprocessing Dasar - Data Mining

Pada proses Data Mining, tahap awal yang sangat penting adalah memahami data dan melakukan proses data preprocessing. Data yang digunakan dalam analisis sering kali memiliki berbagai permasalahan seperti missing value, data kategorikal, atau format data yang tidak sesuai.

Materi ini membahas konsep dasar Data Understanding dan Data Preprocessing serta praktikum sederhana menggunakan Python dan Pandas.


1. Evolusi Big Data menuju Data Mining

Perkembangan teknologi informasi menyebabkan jumlah data meningkat secara signifikan. Data tersebut berasal dari berbagai sumber seperti:

  • Media sosial
  • Transaksi e-commerce
  • Sensor Internet of Things (IoT)
  • Sistem informasi organisasi

Fenomena ini dikenal sebagai Big Data. Namun data yang besar tidak secara otomatis menghasilkan informasi. Untuk mengekstraksi pengetahuan dari data tersebut diperlukan proses Data Mining.

Data Mining adalah proses menemukan pola, hubungan, atau informasi yang berguna dari dataset menggunakan teknik statistik, machine learning, dan basis data.


2. Tipe Data dalam Dataset

Dalam proses analisis data, terdapat beberapa tipe data yang umum digunakan.

Jenis Data Contoh
Numerical Umur, harga, jumlah transaksi
Categorical Kota, jenis produk
Ordinal Tingkat pendidikan, rating
Binary Ya / Tidak

Memahami tipe data penting karena menentukan teknik preprocessing dan algoritma yang digunakan.


3. Missing Value Handling

Missing value adalah kondisi ketika suatu atribut dalam dataset tidak memiliki nilai.

Nama Umur Kota
Andi 25 Jakarta
Budi NaN Bandung
Citra 30 NaN

Beberapa metode penanganan missing value antara lain:

Metode Penjelasan
Delete Menghapus baris yang memiliki nilai kosong
Mean Imputation Mengisi nilai kosong dengan rata-rata
Median Imputation Mengisi nilai kosong dengan nilai tengah
Mode Imputation Mengisi nilai kosong dengan nilai yang paling sering muncul

4. Encoding Data Kategorikal

Sebagian besar algoritma machine learning hanya dapat memproses data numerik. Oleh karena itu data kategorikal perlu diubah menjadi angka melalui proses encoding.

Label Encoding

Mengubah kategori menjadi angka.

Kota Kode
Jakarta 0
Bandung 1
Surabaya 2

One-Hot Encoding

Mengubah kategori menjadi beberapa kolom biner.

Jakarta Bandung Surabaya
1 0 0
0 1 0
0 0 1

5. Praktikum Data Preprocessing dengan Python

Import Library


import pandas as pd
import numpy as np

Membuat Dataset


data = {
    'umur': [25, 30, np.nan, 40, 28],
    'pendapatan': [3000000, 4500000, 5000000, np.nan, 3500000],
    'kota': ['Jakarta', 'Bandung', 'Jakarta', 'Surabaya', np.nan]
}

df = pd.DataFrame(data)
df

Pandas Preprocessing


df.info()
df.describe()
df.isnull().sum()

Simple Imputation


# 1. Mengisi 'umur' dengan rata-rata (mean)
df['umur'] = df['umur'].fillna(df['umur'].mean())

# 2. Mengisi 'pendapatan' dengan median
df['pendapatan'] = df['pendapatan'].fillna(df['pendapatan'].median())

# 3. Mengisi 'kota' dengan modus
# Catatan: mode() mengembalikan Series, jadi kita ambil indeks ke-[0]
df['kota'] = df['kota'].fillna(df['kota'].mode()[0])

df

Label Encoding


# Membuat copy dataframe agar data asli tidak berubah
df_label = df.copy()

# Inisialisasi LabelEncoder
le = LabelEncoder()

# Melakukan transformasi pada kolom 'kota'
df_label['kota_encoded'] = le.fit_transform(df_label['kota'])
df

One Hot Encoding


# Membuat copy dataframe dari data bersih
df_onehot = df.copy()

# Melakukan One-Hot Encoding
# dtype=int digunakan agar hasilnya 0 dan 1 (bukan True dan False)
df_onehot = pd.get_dummies(df_onehot, columns=['kota'], dtype=int)
df

Kesimpulan

  • Data Understanding merupakan tahap awal dalam proses Data Mining.
  • Dataset sering memiliki masalah seperti missing value dan data kategorikal.
  • Missing value dapat ditangani menggunakan metode imputasi sederhana seperti mean dan mode.
  • Data kategorikal perlu diubah menjadi numerik menggunakan teknik encoding.
  • Library Pandas sangat membantu dalam proses data preprocessing.
Materi ini merupakan bagian dari pembelajaran Data Mining yang berfokus pada tahap Data Preparation sebelum proses analisis data dilakukan.

Posting Komentar untuk "Data Understanding dan Data Preprocessing Dasar - Data Mining"