Please use this identifier to cite or link to this item:
https://ptsldigital.ukm.my/jspui/handle/123456789/773290
Title: | Perlombongan siri masa multivariant untuk permodelan identiti cuaca menggunakan perwakilan Beg N-gram berwajaran (W-BON) |
Authors: | Shakirah Mohd Taib, (P64510) |
Supervisor: | Azuraliza Abu Bakar, Prof. Dr. |
Keywords: | Universiti Kebangsaan Malaysia -- Dissertations Dissertations, Academic -- Malaysia |
Issue Date: | 22-Feb-2022 |
Abstract: | Kajian iklim ialah kajian tentang sifat cuaca secara umum dalam sesuatu lokasi berdasarkan data siri masa cuaca jangka panjang. Data siri masa ini terkumpul hasil pemantauan pelbagai pemboleh ubah cuaca yang direkodkan setiap hari. Analisis data cuaca ini menjadi rumit dan mencabar kerana perlu mempertimbangkan set data yang berskala besar dan interaksi antara setiap pemboleh ubah. Pengelasan pelbagai jenis cuaca juga tidak dapat dilaksanakan sekiranya identiti (signature) unik setiap jenis cuaca tersebut tidak dapat dikenal pasti. Pengenalpastian identiti cuaca secara univariat adalah popular tetapi terhad kepada satu pemboleh ubah sahaja. Cabaran lain ialah corak bukan linear dalam siri masa cuaca yang disebabkan oleh kebolehubahan temporal yang tidak dapat disokong oleh kebanyakan model berasaskan statistik. Keserupaan berasaskan bentuk yang biasa digunakan dalam analisis corak atau identiti cuaca pula tidak sesuai untuk siri masa jangka panjang. Cabaran-cabaran yang mempengaruhi prestasi model analisis cuaca ini dapat dikurangkan dengan perwakilan data siri masa yang sesuai. Perwakilan siri masa secara simbolik adalah satu satu kaedah yang terbukti dapat menyelesaikan masalah ruang storan siri masa yang besar terutama bagi siri masa multivariat. Kaedah perwakilan siri masa multivariat yang berdasarkan perwakilan simbolik termasuk perwakilan beg corak multivariat (MVBoP) dan beg corak bertindan (Stacked BoP(TF-IDF)) yang menggabungkan teknik beg perkataan (BoW) dan beg fitur (BoF). Namun begitu, kedua-dua perwakilan ini mempunyai risiko kehilangan maklumat dalam konteks jujukan siri masa simbolik yang menyebabkan pengelasan identiti atau corak siri masa menjadi kurang tepat. Tesis ini mencadangkan strategi penambahbaikan perwakilan simbolik data siri masa dengan mengintegrasikan perwakilan Penganggaran Agregat Simbolik (SAX) dan model N-gram untuk menemukan identiti-identiti stesen cuaca berdasarkan episodepisod cuaca yang berturutan. Kaedah siri masa simbolik telah diterokai dalam fasa perwakilan, manakala model rangkaian keserupaan pemboleh ubah telah digunakan dalam fasa pembinaan perwakilan beg N-gram berwajaran yang baharu iaitu W-BoN. Model N-gram dilaksanakan dengan membina jujukan kata-kata SAX dalam bentuk (n-1) susunan model Markov dan keserupaan jujukan ditentukan dengan menggunakan graf yang menghubungkan setiap pemboleh ubah sebagai nod dalam rangkaian keserupaan. Rangkaian keserupaan menggunakan algoritma kedudukan berasaskan graf dan fungsi sebaran pengaktifan untuk memeringkat kepentingan pemboleh ubah-pemboleh ubah dalam set data. Hasil eksperimen dari kedua-dua fasa dianalisis berdasarkan ketepatan pengelasan. Ketersauran kaedah yang dicadangkan dibuktikan dengan keputusan eksperimen ke atas dua set data siri masa cuaca sebenar yang berbeza. Prestasi W-BoN didapati lebih baik daripada segi penghasilan fitur-fitur pengelompokan dan pengelasan data cuaca berbanding model perwakilan MV-BoP dan Stacked BoP(TF-IDF). Kajian ini menunjukkan perwakilan siri masa multivariat dapat memelihara maklumat siri masa selain meringkaskan proses perlombongan dengan mengurangkan kekompleksan data serta mencapai prestasi yang lebih baik atau setanding dengan model perwakilan simbolik yang lain. Strategi yang dicadangkan ini dijangkakan akan menjadi titik permulaan untuk aplikasi yang lebih maju yang berpotensi dimanfaatkan dalam pelbagai domain. |
Description: | Full-text |
Pages: | 242 |
Publisher: | UKM, Bangi |
Appears in Collections: | Faculty of Information Science and Technology / Fakulti Teknologi dan Sains Maklumat |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
PERLOMBONGAN SIRI MASA MULTIVARIAT UNTUK PERMODELAN.pdf Restricted Access | 3.2 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.