Please use this identifier to cite or link to this item:
https://ptsldigital.ukm.my/jspui/handle/123456789/772412
Title: | Teknik pemilihan fitur menggunakan TF-IDF dan pendekatan perwakilan pengekodan dwi-arah daripada transformer (BERT) bagi analisis sentiment |
Authors: | Hasnan Othman, P106617 |
Supervisor: | Mohd Ridzwan Yaakob, Prof. Madya. Dr. |
Keywords: | Universiti Kebangsaan Malaysia -- Dissertations Dissertations, Academic -- Malaysia |
Issue Date: | 17-Jun-2022 |
Abstract: | Dimensi yang tinggi dan sparsiti merupakan antara cabaran di dalam analisis sentimen (SA) yang disebabkan oleh penggunaan bahasa formal dan bentuk kata serta kesalahan ejaan. Proses pengurangan dimensi pula adalah satu tugasan bagi mengekalkan beberapa sifat vektor yang penting dengan mengasingkan ciri-ciri hingar dan tidak berkaitan di ruang fitur. Penggunaan pemilihan fitur (FS) seperti Term Frequency Inverse Document Frequency (TF-IDF) telah menunjukkan bahawa ia berupaya mengurangkan dimensi yang tinggi dengan menormalkan terma kata dalam ruang vektor. Penggunaan model Pengekodan Dwi-Arah daripada TRANSFORMER (BERT) pula berupaya mewakili terma kata berdasarkan konteks sekeliling, menangani variasi diskret dalam pengertian perkataan dan impak kepada konteks perkataan dengan lebih baik. Walau bagaimanapun, tidak semua tugas boleh diwakili dengan mudah oleh model seni bina TRANSFORMER kerana ciri tetap yang ditentukan oleh model pra-latihan. Sehubungan dengan itu, seni bina model secara hibrid dicadangkan dengan menggunakan pemilihan fitur TF-IDF bagi memperkayakan sifat korpus yang akan dinilai dalam lapisan model BERT. Set data IMDB movie reviews telah digunakan bagi penilaian model dan hasilnya telah dapat meningkatkan ketepatan sebanyak 3.54 peratus daripada model aras asas. Pengukuran prestasi pula telah dinilai menggunakan nilai skor FI yang memperolehi sebanyak 93.10 peratus, kejituan sebanyak 92.4 peratus dan dapatan semula sebanyak 93.90 peratus bersama nilai Receiver Operating Curve (ROC) dan Area Under Curve (AUC) yang mencapai keputusan 90.50 peratus. Kesimpulannya, projek yang dicadangkan ini telah berjaya mencapai objektif dalam meningkatkan ketepatan model pengelasan dan penggunaan model dalam mengenalpasti polariti skor sentimen. |
Description: | Fulltext |
Pages: | 143p. |
Call Number: | FTSM |
Publisher: | UKM, Bangi |
Appears in Collections: | Faculty of Information Science and Technology / Fakulti Teknologi dan Sains Maklumat |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
HASNAN.pdf Restricted Access | 1.92 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.