Pembangunan pelabelan golongan kata bahasa Melayu aksara Jawi berasaskan model entropi maksimum dengan maklumat kontekstual

Juhaida Abu Bakar

Please use this identifier to cite or link to this item: https://ptsldigital.ukm.my/jspui/handle/123456789/513240

Title:	Pembangunan pelabelan golongan kata bahasa Melayu aksara Jawi berasaskan model entropi maksimum dengan maklumat kontekstual
Authors:	Juhaida Abu Bakar
Supervisor:	Khairuddin Omar, Prof. Dr.
Keywords:	Pelabelan golongan kata Teks Jawi Sistem transliterasi Bahasa Melayu Dissertations, Academic -- Malaysia
Issue Date:	15-Aug-2016
Description:	Pelabelan golongan kata (PGK) merupakan proses pengelasan setiap perkataan dalam teks kepada kategori tatabahasa seperti kata nama, kata kerja, adjektif dan sebagainya. PGK adalah sukar kerana terdapat perkataan yang boleh mewakili lebih dari satu golongan kata (GK) pada masa yang berlainan, bergantung kepada makna dan konteks perkataan. PGK Bahasa Melayu yang terdahulu lebih tertumpu kepada tulisan Rumi. Algoritmanya tidak sesuai untuk Jawi berdasarkan empat isu utama iaitu i) laras bahasa, ii) pendekatan pembelajaran PGK, iii) ketaksaan dan masalah kata anu dalam PGK, dan iv) perbezaan pembentukan kata Jawi dan Rumi. Oleh yang demikian, kajian khusus dalam PGK diperlukan bagi mengelaskan teks Jawi. Empat objektif kajian ini, iaitu: i) membangunkan pengekodan sistem tulisan untuk pemprosesan PGK, ii) membangunkan algoritma pengtokenan Jawi, iii) menghasilkan satu model PGK Jawi, dan iv) menjalankan uji kaji rintis korpus dan dibandingkan dengan kaedah PGK piawai dalam menentukan fitur dan parameter terbaik. Model ini dibangun berdasarkan 12 kriteria pembangunan set GK digariskan oleh pengkaji terdahulu. Ia mengandungi tiga modul: i) pengekodan sistem transliterasi Buckwalter, ii) pengtoken RegExpTokenizer, dan iii) pelabel GK menggunakan model entropi maksimum dengan tambahan maklumat kontekstual. Model ini dinilai berdasarkan tiga set korpus dari National University of Malaysia Word Tokenization Corpus (NUWT) iaitu i) korpus Rumi beranotasi laras bahasa moden, ii) korpus Rumi beranotasi laras cerpen, dan iii) korpus Jawi tidak beranotasi laras doa. Korpus ini dibahagi kepada data latihan dan data ujian dengan pengesahan silang lipatan-k, iaitu k=10. Model terbaik yang menggunakan algoritma MaxEnt menunjukkan purata ketepatan bagi korpus pertama adalah 89.60% dan 63.39% bagi korpus kedua. Korpus ketiga dilarikan dengan model terbaik dari korpus pertama dan kedua. Tiga pakar bahasa telah menilai hasil GK korpus ketiga dan hasil menunjukkan keputusan positif di antara model yang dibangunkan dan penilaian pakar. Berdasarkan hasil kajian, pelabel GK yang dicadangkan terbukti dapat membantu meningkatkan ketepatan dalam sistem terselia dokumen Jawi dan memberi kesan yang baik kepada komuniti pengguna Jawi.,Tesis ini tidak ada Perakuan Tesis Sarjana/Doktor Falsafah"
Pages:	235
Call Number:	QA76.9.N38J837 2016 3 tesis
Publisher:	UKM, Bangi
URI:	https://ptsldigital.ukm.my/jspui/handle/123456789/513240
Appears in Collections:	Faculty of Information Science and Technology / Fakulti Teknologi dan Sains Maklumat

Files in This Item:

File	Description	Size	Format
Pembangunan pelabelan golongan kata Bahasa Melayu aksara Jawi berasaskan model entropi maksimum dengan maklumat kontekstual.pdf Restricted Access	Partial	654.44 kB	Adobe PDF	View/Open

Show full item record Recommend this item