Please use this identifier to cite or link to this item:
https://ptsldigital.ukm.my/jspui/handle/123456789/513240
Title: | Pembangunan pelabelan golongan kata bahasa Melayu aksara Jawi berasaskan model entropi maksimum dengan maklumat kontekstual |
Authors: | Juhaida Abu Bakar (P61088) |
Supervisor: | Khairuddin Omar, Prof. Dr. |
Keywords: | Pelabelan golongan kata Teks Jawi Sistem transliterasi Bahasa Melayu Dissertations, Academic -- Malaysia |
Issue Date: | 15-Aug-2016 |
Description: | Pelabelan golongan kata (PGK) merupakan proses pengelasan setiap perkataan dalam teks kepada kategori tatabahasa seperti kata nama, kata kerja, adjektif dan sebagainya. PGK adalah sukar kerana terdapat perkataan yang boleh mewakili lebih dari satu golongan kata (GK) pada masa yang berlainan, bergantung kepada makna dan konteks perkataan. PGK Bahasa Melayu yang terdahulu lebih tertumpu kepada tulisan Rumi. Algoritmanya tidak sesuai untuk Jawi berdasarkan empat isu utama iaitu i) laras bahasa, ii) pendekatan pembelajaran PGK, iii) ketaksaan dan masalah kata anu dalam PGK, dan iv) perbezaan pembentukan kata Jawi dan Rumi. Oleh yang demikian, kajian khusus dalam PGK diperlukan bagi mengelaskan teks Jawi. Empat objektif kajian ini, iaitu: i) membangunkan pengekodan sistem tulisan untuk pemprosesan PGK, ii) membangunkan algoritma pengtokenan Jawi, iii) menghasilkan satu model PGK Jawi, dan iv) menjalankan uji kaji rintis korpus dan dibandingkan dengan kaedah PGK piawai dalam menentukan fitur dan parameter terbaik. Model ini dibangun berdasarkan 12 kriteria pembangunan set GK digariskan oleh pengkaji terdahulu. Ia mengandungi tiga modul: i) pengekodan sistem transliterasi Buckwalter, ii) pengtoken RegExpTokenizer, dan iii) pelabel GK menggunakan model entropi maksimum dengan tambahan maklumat kontekstual. Model ini dinilai berdasarkan tiga set korpus dari National University of Malaysia Word Tokenization Corpus (NUWT) iaitu i) korpus Rumi beranotasi laras bahasa moden, ii) korpus Rumi beranotasi laras cerpen, dan iii) korpus Jawi tidak beranotasi laras doa. Korpus ini dibahagi kepada data latihan dan data ujian dengan pengesahan silang lipatan-k, iaitu k=10. Model terbaik yang menggunakan algoritma MaxEnt menunjukkan purata ketepatan bagi korpus pertama adalah 89.60% dan 63.39% bagi korpus kedua. Korpus ketiga dilarikan dengan model terbaik dari korpus pertama dan kedua. Tiga pakar bahasa telah menilai hasil GK korpus ketiga dan hasil menunjukkan keputusan positif di antara model yang dibangunkan dan penilaian pakar. Berdasarkan hasil kajian, pelabel GK yang dicadangkan terbukti dapat membantu meningkatkan ketepatan dalam sistem terselia dokumen Jawi dan memberi kesan yang baik kepada komuniti pengguna Jawi.,Tesis ini tidak ada Perakuan Tesis Sarjana/Doktor Falsafah" |
Pages: | 235 |
Publisher: | UKM, Bangi |
Appears in Collections: | Faculty of Information Science and Technology / Fakulti Teknologi dan Sains Maklumat |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
ukmvital_83267+SOURCE1+SOURCE1.0.PDF Restricted Access | 654.44 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.