Please use this identifier to cite or link to this item: https://ptsldigital.ukm.my/jspui/handle/123456789/497831
Title: Reka bentuk dan pembinaan korpus rujukan Bahasa Melayu berasaskan teks web
Authors: Azhar Jaludin (P57814)
Supervisor: Imran Ho Abdullah, YBhg. Prof. Dato' Dr.
Keywords: Korpus
Teks web
Kajian linguistik
Universiti Kebangsaan Malaysia -- Dissertations
Dissertations, Academic -- Malaysia
Issue Date: 9-Nov-2019
Description: Korpus, satu koleksi sampel bahasa yang dihasilkan dalam konteks semulajadi dan tanpa pengaruh eksperimen, memainkan peranan penting dalam menentukan kemandirian sesuatu bahasa. Kemunculan World Wide Web (web), di mana data teks elektronik dalam jumlah yang amat banyak boleh didapati, membolehkan korpus dibina secara automatik dengan kos yang sangat rendah. Walaupun demikian, pada ketika ini masih belum terdapat usaha memanfaatkan teks web ini untuk pembinaan korpus rujukan bahasa Melayu (dalam konteks penggunaan di Malaysia). Objektif kajian ini adalah untuk membina prosedur telusur yang diperlukan untuk mencari, mengekstraksi, mengumpul dan memurni teks bahasa Melayu yang ditemui di laman web bagi membina sebuah korpus rujukan bahasa Melayu; dan menilai kualiti korpus yang dibina bagi memastikan korpus berkenaan sah dan andal untuk digunakan dalam kajian linguistik. Dalam kajian ini, prosedur telusur yang dibina hanya mengektraksi teks bahasa Melayu jenis mime html/text dari laman web lima buah universiti di Malaysia. Berpandukan kerangka konsep web sebagai gudang korpus, kaedah pembentukan telusur bermula dengan meneliti struktur web bagi mengenal pasti masalah dan kekangan yang akan dihadapi sewaktu proses pembinaan korpus berjalan. Penyelesaian bagi setiap masalah itu kemudiannya disusun ke dalam tiga modul iaitu robot telusur, ekstraksi dan pasca-pemprosesan. Diberikan satu set URL (Uniform Resource Locator) pemula, modul robot telusur berfungsi untuk memuat turun semua URL pada laman web yang dilawati; modul ekstraksi pula akan memuat turun dokumen yang dijumpai pada laman web berkenaan, dan akhir sekali modul pasca-proses akan mengenal pasti bahasa dan memurnikan teks web dengan membuang hingar web. Kaedah penilaian kualiti dan kesahan korpus yang dibina adalah melalui perbandingan hasil penilaian intrinsik dan ekstrinsik dengan korpus rujukan DBP-UKM. Prosedur telusuran ini telah berjaya dilaksanakan dan berhasil membina satu korpus bahasa Melayu bersaiz 1 juta perkataan. Hasil perbandingan penilaian intrinsik dan ekstrinsik di antara korpus kajian dan korpus DBP-UKM, didapati kedua-dua korpus memberikan hasil yang setara, dengan itu kualiti korpus yang dibina juga setara. Kesimpulannya, prosedur yang telah dibina dalam kajian ini terbukti berupaya membina korpus yang berkualiti dan andal untuk kajian linguistik serta mampu menyumbang kepada pembinaan sebuah korpus rujukan bahasa Melayu menggunakan teks dari web yang boleh dipertanggungjawabkan.,Ph.D
Pages: 164
Publisher: UKM, Bangi
Appears in Collections:Faculty of Social Sciences and Humanities / Fakulti Sains Sosial dan Kemanusiaan

Files in This Item:
File Description SizeFormat 
ukmvital_122324+SOURCE1+SOURCE1.0.PDF
  Restricted Access
3.86 MBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.