Article Info

Malay Part of Speech Tagger: A Comparative Study on Tagging Tools

Hassan Mohamed, Nazlia Omar, Mohd. Juzaiddin Ab. Aziz
dx.doi.org/10.17576/apjitm-2015-0401-02

Abstract

Bahasa Melayu merupakan bahasa aglutinatif yang kaya dengan morfologi untuk menerbitkan perkataan dengan makna selain daripada kata akar yang akan memberi kesan kepada perubahan golongan katanya. Korpus beranotasi Bahasa Melayu sukar didapati, maka belum ada penerbitan tentang perbandingan prestasi penandaan golongan kata (GK) menggunakan kaedah Model Markov Tersembunyi (MMT), Entropi Maksimum (EM) dan Mesin Vektor Sokongan (MVS), terutamanya bagi melihat kesan morfologi Bahasa Melayu ke atas penandaan GK bagi perkataan anu. Kertas ini bertujuan untuk membentangkan penilaian ketiga-tiga kaedah tersebut ke atas Bahasa Melayu. Tiga alatan penanda GK telah digunakan yakni TnT mewakili MMT, MaxEnt mewakili EM dan SVMTool mewakili MVS. Bagi melengkapkan latihan dan ujian bagi ketiga-tiga alatan tersebut, usaha menganotasi korpus Bahasa Melayu bagi domain kesihatan telah dilakukan. Alatan TnT diubahsuai untuk memasukkan fitur imbuhan awalan serta apitan. Keputusan bagi seluruh eksperimen menunjukkan prestasi SVMTool mengatasi TnT dan MaxEnt bagi kejituan keseluruhan (99.23% untuk SVMTool, 94% untuk TnT dan 96% untuk MaxEnt) serta kejituan penandaan perkataan anu (96.78% untuk SVMTool, 67% untuk TnT dan 86.23% untuk MaxEnt). Keupayaan MaxEnt pula mengatasi TnT bagi kejituan keseluruhan serta kejituan penandaan perkataan anu. Dengan penandaan perkataan anu sebanyak 96.78% ketepatan oleh SVMTool, maka isu penandaan GK Bahasa Melayu bagi domain spesifik dianggap telah selesai.

keyword

POS tagging

Area

Knowledge Technology