Please use this identifier to cite or link to this item:
https://ptsldigital.ukm.my/jspui/handle/123456789/513436
Title: | Teknik analisis semantik tersurat bagi pengukuran persamaaan perkataan Bahasa Melayu menggunakan wordnet bahasa dan wikipedia Bahasa Melayu |
Authors: | Tuan Norhafizah Tuan Zakaria (P67405) |
Supervisor: | Mohd Juzaiddin Ab Aziz, Prof. Dr. |
Keywords: | Universiti Kebangsaan Malaysia -- Dissertations Dissertations, Academic -- Malaysia Wordnet Wikipedia Bahasa Melayu Semantics |
Issue Date: | 16-Sep-2021 |
Description: | terhadap capaian pengetahuan berskala besar untuk mendapatkan nilai kebersamaan kerana kedua-dua perkataan ini memberikan maksud yang berbeza mengikut situasi dan konteks penggunaan. Kajian ini bertujuan untuk membangunkan satu teknik untuk mengukur persamaan semantik bagi perkataan Bahasa Melayu (BM) menggunakan dua sumber leksikal BM iaitu WordNet Bahasa (WB) dan Wikipedia Bahasa Melayu (WikiBM). Objektif utama kajian adalah untuk membangunkan kaedah pengukuran persamaan semantik perkataan BM menggunakan teknik berasaskan pengetahuan pada sumber leksikal terhad WB dan WikiBM. Tiga fasa utama dijalankan iaitu: (i) pemilihan pengukuran yang paling sesuai untuk data BM; (ii) pengurangan perwakilan semantik; dan (iii) pemetaan set sinonim WB kepada artikel WikiBM. Sebanyak tiga set data Bahasa Inggeris iaitu RG-65, MC-28 dan FL-353 telah dikumpul. Set data tersebut diterjemah dan disaring. Sebanyak 120 pasangan perkataan daripada set data tersebut digunakan sebagai set data awalan (bagi latihan pengukuran menggunakan WB) dan 65 pasangan perkataan digunakan sebagai set data ujian untuk menilai prestasi pengukuran persamaan semantik BM hasil gabungan maklumat semantik daripada WB dan WikiBM. Setiap fasa dibangunkan dan diuji untuk mengukur prestasi kaedahkaedah yang telah dibangunkan. Pada fasa pertama iaitu pemilihan pengukuran persamaan semantik, sebanyak tiga jenis pengukuran telah dikaji iaitu pengukuran berasaskan laluan, pengukuran berasaskan kandungan maklumat intrinsik dan pengukuran berasaskan definisi. Sebanyak sembilan pengukuran diuji ke atas data BM. Hasil ujikaji menunjukkan pengukuran SimWP memberikan nilai korelasi tertinggi bagi pengukuran berasaskan laluan dengan nilai 0.66, IICZhou bagi pengukuran berasaskan kandungan maklumat instrinsik (0.67) dan GBLesk bagi pengukuran berasaskan definisi (0.52). Manakala bagi fasa pengurangan perwakilan semantik pula, sebanyak 60 pasangan perkataan telah digunakan untuk menguji perbandingan teks asal dengan teks yang dikelompokkan bagi mengurangkan perwakilan semantik. Hasil analisis menunjukkan peningkatan nilai korelasi kepada 0.43 (Teks Semantik Terkurang – TST). Fasa ketiga iaitu pemetaan set sinonim WB – artikel WikiBM dibangunkan menggunakan gabungan kaedah Analisis Semantik Eksplisit (ASE) dan persamaan definisi (PD). Ujian dijalankan bagi membandingkan prestasi menggunakan kaedah ASE sahaja dengan kaedah gabungan. Pengukuran ketepatan, dapatan semula dan pengukuran-F digunakan. Hasil ujian menunjukkan peningkatan penggabungan kaedah ASE dan PD pada ketiga-tiga pengukuran iaitu Ketepatan (82%), Dapatan semula (64%) dan Pengukuran-F (72%). Kemudian, sebanyak 65 pasangan perkataan (130 perkataan) Bahasa Melayu diuji untuk mencapai objektif utama kajian iaitu pembangunan pengukuran persamaan semantik perkataan BM. Hasil ujikaji menunjukkan peningkatan nilai korelasi kepada 0.63 (pengukuran berasaskan laluan), 0.71 (pengukuran berasaskan kandungan maklumat intrinsik) dan 0.54 (pengukuran berasaskan definisi). Secara keseluruhannya, pembangunan kaedah kajian yang dijalankan telah menunjukkan prestasi yang baik ke atas data perkataan Bahasa Melayu.,Ph.D |
Pages: | 241 |
Publisher: | UKM, Bangi |
Appears in Collections: | Faculty of Information Science and Technology / Fakulti Teknologi dan Sains Maklumat |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
ukmvital_130621+Source01+Source010.PDF Restricted Access | 3.54 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.