Penerapan Regresi Linier Untuk Menentukan Harga Rumah — Data Mining(2)
Halo semuanya, ini post kedua saya yaitu bahas bagaimana penerapan regresi linier untuk menentukan harga rumah. Untuk kamu yang tertarik soal data mining juga, bisa baca-baca postingan saya sebelumnya yaitu penerapan algoritma apriori pada data groceries.
Oke, sama seperti sebelumnya jadi artikel ini saya buat karena hal yang sama yaitu saya mendapatkan ujian akhir semester mata kuliah data mining.
Data yang digunakan pada soal kedua adalah Real estate valuation data set.xlsx yang diperoleh dari https://archive.ics.uci.edu/ml/datasets/Real+estate+valuation+data+set Kumpulan data historis pasar dari penilaian real estat dikumpulkan dari Sindian Dist., New Taipei City, Taiwan.
Seperti pada soal sebelumnya tahapan pertama yang dilakukan adalah menentukan working directory, mengimport dataset dan juga library yang dibutuhkan untuk melakukan proses data mining.
Library yang digunakan cukup dua yaitu readxl untuk mengimport dataset yang berekstensi xlsx dan ggcorplot untuk ploting nilai korelasi pada heatmap. Setelah dilakukan tahapan selanjutnya adalah mengimport dataset.
Untuk tahapan preprocessing dilakukan untuk merubah nama kolom/feature dan melihat apakah terdapat data yang null atau tidak. Untuk melihat nama kolom dapat menggunakan fungsi colnames, berdasarkan hasil maka harus diubah menjadi hanya x1,x2,x3,x4,x5,x6 dan y saja untuk memudahkan proses selanjutnya.
Setelah melakukan rename pada feature, selanjutnya adalha melihat apakah terdapat missing value menggunakan is.na pada masing-masing atribut.
Dari hasi diatas diketahui bahwa tidak terdapat missing value, sehingga tidak diperlukan proses imputasi.
Tahapan selanjutnya berdasarkan soal baris data yang digunakan untuk data training dan data testing yaitu bergantung pada npm, karena npm saya 62, maka data yang digunakan untuk training adalah 62–161, dan untuk data testing yaitu 162–181.
Kemudian menampilkan 6 data teratas dari data training.
Untuk menentukan atribut mana yang akan digunakan untuk estimasi harga rumah, maka cara yang paling efektif adalah melihat korelasi masing masing atribut terhadap atribut y atau targetnya, salah satu metode untuk mengecek korelasi adalah menggunakan pearson correlation yaitu mengukur kekuatan dan arah hubungan linier dari dua variabel.
Dari gambar diatas terdapat tabel korelasi hubungan antara masing-masing atribut, karena atribut targetnya adalah y maka yang dilihat adalah kolom y atau baris y saja. Agar lebih menarik dapat ditampilkan pada heatmap berikut.
Berdasarkan hasil pengujian korelasi antar masing-masing atribut, atribut yang memiliki korelasi diatas 0,5 atau mendekati 1 terhadap target (y), yaitu :
· x3 (0,654)
· x4 (0,576)
· x5 (0,567)
· x6 (0,541)
Karena x5 dan x6 adalah latitude dan longitude yang menunjukkan lokasi berdasarkan gps, maka dieliminasi sehingga hanya tersisa 2 atribut yaitu x3 dan x4.
Maka 2 atribut yang akan digunakan yaitu x3 dan x4, dengan 2 kombinasi cara estimasi/model yaitu
· x3 saja
· x3 dan x4
Tahapan selanjutnya adalah melakukan training terhadap data training menggunakan fungsi lm. mod1 adalah model dengan x3 saja sebagai parameter yang menentukan y, sedangkan mod2 yaitu dengan x3 dan x4 sebagai parameter yang menentukan y.
Kemudian untuk melihat hasilnya dapat menggunakan fungsi summary.
Hasil diatas adalah hasil mod1 dimana nilai intercept nya didapatkan yaitu 46,5718780 dan x3 nya -0,0073067, sehingga persamaan regresi linier yang dihasilkan yaitu :
Dari gambar diatas didapatkan nilai r-squared atau koefisien determinansinya (R2) sebesar 0,4283 atau pengaruh distance to near MRT atau jarak ke MRT terdekat terhadap harga rumah berpengaruh sebesar 42,83% sementara sisanya 57,17% disebabkan oleh factor lain yang tidak masuk kedalam model.
Sementara untuk nilai standar deviasinya yaitu 10,04. Sementara itu untuk model dua hasilnya sebagai berikut
Hasil diatas adalah hasil mod2 dimana nilai intercept nya didapatkan yaitu 39,127115 dan x3 nya -0,005385 dan x4 nya 1,326157, sehingga persamaan regresi linier yang dihasilkan yaitu :
Dari gambar diatas didapatkan nilai r-squared atau koefisien determinansinya (R2) sebesar 0,4789 atau pengaruh distance to near MRT atau jarak ke MRT terdekat dan jumlah convenience store terhadap harga rumah berpengaruh sebesar 47,89% sementara sisanya 52,11% disebabkan oleh faktor lain yang tidak masuk kedalam model.
Sementara untuk nilai standar deviasinya yaitu 9,63.
Untuk evaluasi data testing yang sebelumnya dibuat akan dibandingkan hasil targetnya dengan hasil prediksi yang dihasilkan oleh model
yPred merupakan prediksi model terhadap data testing, sedangkan actuals_preds merupakan target sebenarnya, hasilnya akan dibandingkan menggunakan korelasi.
Berikut adalah hasil nilai korelasi untuk model pertama, didapatkan presentase sebesar 82,4% mendekati target sebenarnya.
Sedangkan untuk model 2 lebih baik lagi yaitu 82,5% mendekati target sebenarnya
Berikut contoh hasil nilai actual dan prediksi yang dihasilkan menggunakan model 1
Dan model 2
Maka dapat diambil kesimpulan model terbaik adalah dengan 2 atribut yaitu x3 dan x4.
Oke cukup sekian postingan kali ini, kalau teman-teman semua punya data yang ingin kita cari insightnya juga bisa komen dibawah, dan jangan lupa clapsnya.