Please use this identifier to cite or link to this item:
https://ptsldigital.ukm.my/jspui/handle/123456789/475573
Title: | Kaedah pemadanan dan pengelasan rekod alamat daftar pemilih induk Malaysia |
Authors: | Rafizi Razali (GP02387) |
Supervisor: | Hafiz bin Mohd Sarim |
Keywords: | Kaedah pemadanan Pengelasan rekod Alamat daftar Pemilih induk Malaysia Universiti Kebangsaan Malaysia--Dissertations |
Issue Date: | 16-Jan-2015 |
Description: | Pemadanan alamat merupakan proses untuk mengenalpasti dua atau lebih rekod alamat yang dibandingkan adalah sama. Alamat merupakan atribut yang digunakan dalam pemadanan data selain daripada nama dan tarikh lahir jika kekunci yang unik seperti nombor kad pengenalan tidak wujud atau tidak boleh digunakan. Di Suruhanjaya Pilihan Raya (SPR) Malaysia, kualiti alamat pemilih memberi implikasi yang besar kepada SPR sehingga kesahihan Daftar Pemilih Induk (DPI) dipertikaikan. Isu yang dipertikaikan adalah “ramai pemilih menggunakan alamat bermastautin yang sama”. Perkara ini disebabkan oleh cara penulisan yang berbeza dan masalah kepelbagaian leksikal iaitu kesalahan ejaan, kesalahan kognitif, kesalahan fonetik dan penggunaan perkataan singkatan. Terdapat lima langkah dalam proses pemadanan data iaitu pra-pemprosesan data, pengindeksan, perbandingan rekod, pengelasan rekod dan penilaian. Teknik Array-based Sorted Neighborhood digunakan pada langkah pengindeksan. Manakala teknik Levenshtein, Jaro-Wrinkler dan Monge-Elkan digunakan pada langkah perbandingan rekod. Fokus kajian ini tertumpu kepada langkah pengelasan rekod. Dua teknik pengelas iaitu LIBSVM untuk Mesin Vektor Sokongan dan J48graft untuk Pohon Keputusan dibandingkan untuk menguji keberkesanan pengelasan dua set data alamat. Bagi setiap teknik, dua set parameter digunakan untuk melihat hasil pengelasan. Empat metrik penilaian digunakan untuk mengukur keberkesanan kedua-dua teknik pengelas iaitu ketepatan, kejituan, dapatan semula dan F-Measure. Hasil ujikaji yang diperoleh menunjukkan tidak terdapat perbezaan yang signifikan di antara dua teknik pengelas yang diuji walaupun set parameter yang digunakan berbeza. Kedua-dua teknik pengelas menunjukkan peratus yang tinggi untuk pengelasan data alamat DPI. Walaubagaimanapun, secara keseluruhan didapati Pohon Keputusan menunjukkan keputusan yang baik berbanding Mesin Sokongan Vektor. Aplikasi prototaip dibangunkan untuk melaksanakan proses pemadanan berdasarkan kaedah dan teknik yang digunakan. Kajian ini menunjukkan kaedah dan teknik yang digunakan boleh mengenalpasti alamat DPI yang sama terutamanya dalam konteks alamat Malaysia walaupun terdapat masalah kepelbagaian leksikal.,Master/Sarjana |
Pages: | 113 |
Publisher: | UKM, Bangi |
URI: | https://ptsldigital.ukm.my/jspui/handle/123456789/475573 |
Appears in Collections: | Faculty of Information Science and Technology / Fakulti Teknologi dan Sains Maklumat |
Files in This Item:
There are no files associated with this item.
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.