Please use this identifier to cite or link to this item:
https://ptsldigital.ukm.my/jspui/handle/123456789/513415
Title: | Kaedah pengelasan bersekutu bagi pengesanan data siri masa tidak menentu |
Authors: | Nabilah Filzah Mohd Radzuan (P67403) |
Supervisor: | Zalinda Othman, Prof. Madya. Dr. |
Keywords: | Universiti Kebangsaan Malaysia -- Dissertations Dissertations, Academic -- Malaysia Ketidaktentuan data Big data analytic Big data |
Issue Date: | 20-Jun-2020 |
Description: | Menguruskan ketidaktentuan data merupakan salah satu masalah dalam analisis data sains. Ketidaktentuan data berlaku disebabkan oleh sifat semula jadi data, maklumat tak diketahui, dan kesilapan semasa pengumpulan data, sama ada secara automatik atau manual. Masalah bertambah rumit bagi data siri masa apabila ketidaktentuan menyebabkan kesilapan ramalan siri masa dan ketidakupayaan untuk mengesan keabnormalan yang berlaku secara tiba-tiba pada data. Antara masalah khusus dalam menangani data siri masa tidak menentu ialah ketidaktepatan pengesanan, dan kehilangan mampatan sifat data. Ketepatan pengesanan adalah penting kerana ia mempengaruhi ukuran kualiti, kos, keputusan, risiko, dan ramalan. Penyelidikan terdahulu menyatakan masalah besar dalam nilai ralat dan nilai ralat yang diterima dalam data tidak menentu. Bagi meminimumkan ralat, nilai data tidak menentu perlu diringkaskan. Ralat dikira antara nilai yang diringkaskan dengan nilai sebenar. Kehilangan mampatan dalam sifat data berlaku semasa proses normalisasi dengan mempertimbangkan sifat data ideal dan mengubah nilai menjadi julat yang sama dan membuang data yang „tidak diperlukan‟. Mampatan data melibatkan pengekodan maklumat menggunakan data bersaiz lebih kecil daripada perwakilan asal. Beberapa kaedah sedia ada, termasuklah Discrete Cosine Transform, Vector Quantisation, dan Huffman Coding, tidak dapat mengekalkan sifat data dengan cekap. Sebaliknya, perwakilan simbolik dalam data siri masa membenarkan pengurangan dimensi dan numerositi data. Terdapat tiga objektif untuk kajian ini. Pertama, mencadangkan kaedah mengesan ketidaktentuan dalam data siri masa dengan menggunakan salah satu algoritma penjanaan corak kekerapan, iaitu Fp-growth, H-mine atau Apriori. Kemudian set item kerap bewajaran yang terjana dikumpul bersama pengelasan bersekutu tidak menentu. Kaedah yang dicadangkan meningkatkan ketepatan pengesanan data tidak menentu berbanding kaedah penanda aras lain. Kedua, mencadangkan algoritma perwakilan simbolik data siri masa bagi menyelesaikan masalah kehilangan mampatan data. Teknik lossy compression melalui discrete wavelet transform digunakan. Teknik ini mengubah siri masa kepada skala nilai diskret. Corak dengan kekerapan yang diubahsuai membentuk set data, menghapuskan masalah sifat bertindih antara urutan. Ini merupakan faktor utama dalam membentuk mampatan yang cekap. Sebanyak 19 set data penanda aras dari pangkalan data UCI, NOAA, dan tambahan data taburan hujan sebenar dari Stesen Petaling Jaya digunakan dalam ekperimen. Teknik linear regression dan support vector machine digunakan untuk peramalan. Sebagai kajian kes, kaedah yang dicadangkan digunakan pada data kualiti air yang mengandungi 16 atribut dari Pusat Penyelidikan Tasik Chini UKM. Hasil kajian menunjukkan kewujudan ketidaktentuan dalam data dan kehilangan sifat mampatan boleh diminimumkan. Pengesahan dan perbandingan kebolehpercayaan kaedah yang dicadangkan ialah dengan mengamati selang keyakinan 95% perbezaan melalui t-test sebagai teknik pengesahan dari kajian terdahulu. Oleh itu, kajian ini boleh membantu menangani ramalan awal data tidak menentu bagi situasi yang tidak dijangka di Malaysia, seperti gempa bumi dan tsunami.,Ph.D |
Pages: | 248 |
Publisher: | UKM, Bangi |
Appears in Collections: | Faculty of Information Science and Technology / Fakulti Teknologi dan Sains Maklumat |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
ukmvital_130425+Source01+Source010.PDF Restricted Access | 3.72 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.