K-Means

Teknik clustering dengan menggunakan K-Means ialah dengan mengelompokkan data/objek ke dalam k kelompok atau cluster. Metode ini mengharuskan penentuan jumlah k cluster di awal proses clustering, selanjutnya untuk menentukan anggota cluster dari data yang ada digunakan ukuran ketidakmiripan. Ukuran ketidakmiripan tersebut dapat di representasikan dalam konsep jarak, jika dua buah objek/data dekat dibandingkan dengan objek/data yang lain, maka objek tersebut dapat dijadikan 1 cluster.

Secara ringkas algoritma K-Means dapat dijabarkan sebagai :

  1. Tentukan jumlah k cluster.
  2. Inisialisasi titik pusat masing – masing cluster (centroid), untuk inisialisasi dapat menggunakan metode random, yakni memilih secara acak 1 data dari keseluruhan data yang akan di kelompokkan.
  3. Tempatkan setiap data/objek ke cluster terdekat, proses penentuan cluster terdekat ditentukan berdasarkan jarak antara data/objek dengan pusat cluster. Dalam fase ini perlu dihitung jarak antara data/objek dengan semua pusat cluster yang ada.
  4. Hitung kembali pusat cluster dengan keanggotaan cluster yang baru, pusat cluster yang dihitung ulang diperoleh dari rata – rata semua data/objek dalam cluster.
  5. Gunakan pusat cluster yang baru untuk menghitung proses penentuan cluster pada langkah ke 3.

Dibawah ini merupakan method/fungsi dalam JAVA untuk menghitung jarak euclidian yang umum digunakan dalam mengukur jarak antar data/objek
public double eucDistance(double x, double y, double cx, double cy)
{
return(Math.sqrt(Math.pow((x - cx),2) + Math.pow((y - cy), 2)));
}