Please use this identifier to cite or link to this item:
https://ptsldigital.ukm.my/jspui/handle/123456789/476669
Title: | Penambahbaikan model penanda golongan kata untuk tweets bahasa Melayu berdasarkan normalisasi teks dan algoritma pembelajaran mesin |
Authors: | Siti Noor Allia Noor Ariffin (P102054) |
Supervisor: | Sabrina Tiun, Dr. |
Keywords: | Universiti Kebangsaan Malaysia -- Dissertations Dissertations, Academic -- Malaysia Model penanda golongan kata Tweets Bahasa Melayu |
Issue Date: | 22-Jan-2021 |
Description: | Model penanda golongan kata merupakan satu perisian yang berfungsi untuk meramal dan menanda golongan kata perkataan. Kajian ini dilaksanakan bertujuan untuk menghasilkan model penanda golongan kata khusus untuk tweets bahasa Melayu berdasarkan algoritma pembelajaran mesin. Kajian ini menggunakan tweets yang diekstrak secara manual berpandukan kepada kata kunci perkataan bahasa Melayu tidak formal yang diperolehi daripada dapatan kajian lepas daripada Twitter pengguna Melayu sebagai sumber data kajian. Kajian ini dilakukan disebabkan oleh kajian ramalan dan penandaan golongan kata tweets bahasa Melayu masih kurang dan perlu ditambahbaik daripada pelbagai aspek seperti proses normalisasi yang mampu meneutralkan hampir keseluruhan tweets bahasa Melayu, golongan kata bahasa Melayu yang sesuai untuk ditandai bersama tweets bahasa Melayu tersebut, dan penggunaan teknik pembelajaran mesin diselia yang berbeza daripada yang terdapat dalam kajian lepas. Kaedah kajian ini terdiri daripada empat fasa perlaksanaan iaitu fasa prapemprosesan, fasa pengekstrakan ciri, fasa penghasilan model penanda golongan kata untuk tweets bahasa Melayu berdasarkan algoritma pembelajaran mesin, dan fasa penilaian dan perbandingan. Fasa pra-pemprosesan merupakan fasa di mana algoritma proses normalisasi baharu dihasilkan dan digunakan untuk meneutralkan perkataan dalam korpus kajian dan perkataan tersebut kemudiannya ditandai dengan golongan kata bahasa Melayu yang baharu. Fasa pengekstrakan ciri merupakan fasa yang mengekstrak ciri perkataan yang telah ditandai golongan kata untuk kegunaan model penanda golongan kata. Fasa penghasilan model pula merupakan fasa di mana model penanda golongan kata dihasilkan menggunakan empat algoritma pembelajaran mesin iaitu pengelas Mesin Vektor Sokongan (SVM), pengelas Naive Bayes (NB), pengelas Pohon Keputusan (DT), dan pengelas K-Jiran Terdekat (KNN). Akhir sekali, fasa penilaian dan perbandingan merupakan fasa di mana hasil keputusan ramalan dan penandaan golongan kata oleh keempat-empat algoritma pembelajaran mesin dinilai dan dibandingkan dalam usaha untuk mengenal pasti algoritma pembelajaran mesin paling sesuai digunakan untuk kajian yang menggunakan tweets bahasa Melayu. Kajian ini mendapati bahawa hasil penilaian proses ramalan dan penandaan golongan kata ke atas tweets bahasa Melayu oleh empat algoritma pembelajaran mesin tersebut menunjukkan bahawa pengelas SVM berjaya mencapai ketepatan ramalan dan penandaan golongan kata tertinggi iaitu 95%, manakala pengelas yang memperolehi ketepatan ramalan dan penandaan golongan kata terendah pula ialah pengelas NB iaitu sekitar 85% sahaja. Kesimpulannya, kajian ini telah berjaya menghasilkan proses normalisasi bahasa Melayu yang baharu dan model penanda golongan kata untuk tweets bahasa Melayu yang baharu berdasarkan kepada empat algoritma pembelajaran mesin. Pengelas pembelajaran mesin yang paling sesuai dan disyorkan untuk digunakan bagi kajian yang menggunakan tweets bahasa Melayu ialah pengelas SVM.,Sarjana Teknologi Maklumat |
Pages: | 109 |
Publisher: | UKM, Bangi |
Appears in Collections: | Faculty of Information Science and Technology / Fakulti Teknologi dan Sains Maklumat |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
ukmvital_124899+SOURCE1+SOURCE1.0.PDF Restricted Access | 1.66 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.