Please use this identifier to cite or link to this item:
https://ptsldigital.ukm.my/jspui/handle/123456789/772439
Title: | Transliterasi mesin bahasa melayu (Jawi kepada Rumi) dengan penyahtaksaan homograf Jawi menggunakan pengelasan Naive bayes Multinomial |
Authors: | Che Wan Shamsul Bahri Che Wan Ahmad (P61087) |
Supervisor: | Khairuddin Omar, Prof. Dr. |
Keywords: | Universiti Kebangsaan Malaysia -- Dissertations Dissertations, Academic -- Malaysia |
Issue Date: | 14-Jun-2022 |
Abstract: | Transliterasi mesin (TM) adalah proses menukar skrip daripada teks sumber kepada teks sasaran secara automatik. Dalam konteks TM Bahasa Melayu (BM) Jawi - Rumi, terdapat kesukaran untuk mendapatkan transliterasi yang berketepatan tinggi bagi perkataan Jawi yang homograf. Homograf adalah perkataan yang sama ejaannya dengan perkataan lain, tetapi berbeza dari segi makna dan sebutannya. Dalam Jawi lama terdapat banyak perkataan homograf, manakala ia berjaya dikurang apabila Pedoman Ejaan Jawi yang Disempurnakan (PEJYD) mula diperkenalkan oleh Dewan Bahasa dan Pustaka (DBP) pada tahun 1986. Isu utama dalam kajian transliterasi mesin BM Jawi lama kepada Rumi adalah penyahtaksaan homograf bagi mendapatkan hasil yang berketepatan tinggi. Kaedah sebelum ini didapati tidak dapat menyelesaikan masalah ini. Isu kedua pula adalah keperluan cantasan Jawi lama dalam TM Jawi lama kepada Rumi. Beberapa penyelidik sebelum ini telah membuktikan bahawa hasil transliterasi mesin menjadi lebih tepat apabila proses cantasan dilakukan terlebih dahulu berbanding transliterasi secara terus tanpa cantasan. Petua cantasan Jawi moden yang dicadangkan oleh pengkaji sebelum ini didapati tidak dapat menghasilkan cantasan yang tepat untuk ejaan Jawi lama setelah diuji terhadap 89 perkataan Jawi lama. Isu yang ketiga adalah ketiadaan korpus selari (Jawi lama kepada Rumi) yang boleh digunakan sebagai set data untuk kajian TM dalam domain Jawi. Empat objektif kajian adalah , i) mencadangkan satu korpus piawai selari Bahasa Melayu Jawi kepada Rumi yang bersumberkan daripada tiga sumber utama teks Jawi lama dengan beberapa analisis terhadap korpus tersebut, ii) membangunkan pengubahsuaian pengtokenan perkataan untuk disesuaikan dengan teks Jawi lama yang sebahagiannya ditulis secara bersambung di antara dua perkataan, iii) menambahbaik petua cantasan perkataan Jawi untuk disesuaikan dengan ejaan Jawi lama yang dipanggil PEJAL, iv) membangunkan transliterasi Jawi kepada Rumi (TEJARU) berasaskan petua (PT-OOV) dan menggunakan pembelajaran mesin selia bagi penyahtaksaan homograf Jawi untuk transliterasi Jawi Rumi. Petua cantasan yang dicadangkan oleh pengkaji sebelum ini perlu ditambah baik untuk disesuaikan dengan ejaan Jawi lama. Untuk membuktikan keberkesanan petua yang dicadangkan, Majalah Qalam (MQ) 1950 -1959, Kitab Hidayat Al-Salikin (KHS) versi cetakan 1937 dan Hikayat Merong Mahawangsa (HMM) yang ditulis pada akhir abad ke-18 dijadikan set data Jawi lama yang dipanggil Korpus Selari BM (KOSBAM). Sebanyak 12 perkataan homograf Jawi moden dipilih berdasarkan senarai perkataan homograf yang terdapat di dalam PEJYD, Dewan Bahasa dan Pustaka. Hasil kajian mendapati bahawa purata ketepatan PEJAL mencapai sehingga 82% berdasarkan ujian terhadap set data Jawi lama pada korpus KOSBAM. Manakala hasil kajian terhadap algoritma penyahtaksaan homograf Jawi menggunakan pengelas Naive Bayes Multinomial (NBM) mencapai ketepatan sehingga 67%. Tiga pakar Jawi telah menilai hasil cantasan dan penyahtaksaan homograf. Hasil menunjukkan keputusan positif di antara model yang dibangunkan dan penilaian pakar. Berdasarkan hasil kajian, model pencantas dan penyahtaksaan homograf yang dicadangkan terbukti dapat membantu meningkatkan ketepatan dalam sistem terselia TM Jawi Rumi dan memberi kesan yang baik kepada komuniti pengguna Jawi. |
Description: | Full-text |
Pages: | 291 |
Call Number: | CD TESIS UKM PL2 |
Publisher: | UKM, Bangi |
Appears in Collections: | Faculty of Information Science and Technology / Fakulti Teknologi dan Sains Maklumat |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
TRANSLITERASI MESIN BAHASA MELAYU (JAWI KEPADA RUMI) .pdf Restricted Access | 4.2 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.