IMPLEMENTASI HIRARKI DATASET DALAM MEMBANGUN MODEL LANGUAGE AKSARA BALI MENGGUNAKAN FRAMEWORK TESSERACT OCR

Asroni, Ahmad (2024) IMPLEMENTASI HIRARKI DATASET DALAM MEMBANGUN MODEL LANGUAGE AKSARA BALI MENGGUNAKAN FRAMEWORK TESSERACT OCR. Masters thesis, Universitas Pendidikan Ganesha.

[img] Text (COVER)
2129101009-COVER.pdf

Download (916kB)
[img] Text (ABSTRAK)
2129101009-ABSTRAK.pdf

Download (31kB)
[img] Text (BAB 1 PENDAHULUAN)
2129101009-BAB 1 PENDAHULUAN.pdf

Download (182kB)
[img] Text (BAB 2 KAJIAN TEORI)
2129101009-BAB 2 KAJIAN TEORI.pdf
Restricted to Repository staff only

Download (467kB) | Request a copy
[img] Text (BAB 3 METODELOGI PENELITIAN)
2129101009-BAB 3 METODELOGI PENELITIAN.pdf
Restricted to Repository staff only

Download (312kB) | Request a copy
[img] Text (BAB 4 HASIL DAN PEMBAHASAN)
2129101009-BAB 4 HASIL DAN PEMBAHASAN.pdf
Restricted to Repository staff only

Download (865kB) | Request a copy
[img] Text (BAB 5 PENUTUP)
2129101009-BAB 5 PENUTUP.pdf
Restricted to Repository staff only

Download (38kB) | Request a copy
[img] Text (DAFTAR PUSTAKA)
2129101009-DAFTAR PUSTAKA.pdf

Download (102kB)
[img] Text (LAMPIRAN)
2129101009-LAMPIRAN.pdf

Download (1MB)

Abstract

Salah satu faktor utama yang menyebabkan penurunan penggunaan Aksara Bali adalah masyarakat Bali kurang tertarik untuk membaca Aksara Bali karena keengganan dalam mempelajari Aksara Bali yang relatif rumit dalam proses pengenalannya. Perkembangan teknologi komputer saat ini telah banyak dimanfaatkan untuk melakukan pengenalan karakter optik atau diistilahkan dengan OCR (Optical Character Recognition). Pada penelitian ini dilakukan eksperimen menggunakan Tesseract OCR yaitu salah satu engine OCR terpopuler. Proses eksperimen yang dilakukan terdiri dari beberapa tahapan yaitu pertama melakukan persiapan dataset, kedua melakukan menggunakan metode Web Scraping untuk melakukan generate dataset, ketiga tahap training dataset, dan tahapan terakhir adalah melakukan implementasi model language ke dalam aplikasi mobile. Hasil penelitian membuktikan bahwa proses generate menggunakan metode Web Scraping dataset dapat menjadi pilihan lebih baik jika diperhadapkan dengan training dataset yang memerlukan dataset yang besar dibandingkan dengan beberapa penelitian sebelumnya yang sejenis dalam pengenalan karakter nol-latin. Model language terbaik yang dihasilkan adalah kombinasi hirarki dataset karakter, kata, kalimat dan paragraf (Combination Hierarchy of Character, Word, Sentence, and Paragraph Datasets) dengan tingkat coincidence sebesar 66.67%. Hirarki dataset tersebut memperoleh tingkat coincidence paling tinggi dibandingkan dua jenis hirarki dataset yang lain yaitu kombinasi dataset secara acak (Random Dataset Combination Hierarchy) dengan tingkat coincidence sebesar 25% dan hirarki dataset per karakter (Single Character Dataset Combination Hierarchy) dengan tingkat coincidence sebesar 40%. Semakin beragam dan terstruktur hirarki dataset yang digunakan maka akan memberikan peningkatan tingkat coincidence. Hasil penelitian menunjukkan bahwa tingkat coincidence masih jauh dari optimal, memerlukan perhatian pada karakteristik dataset yang terbatas pada penggunaan synthetic data images.

Item Type: Thesis (Masters)
Uncontrolled Keywords: Aksara Bali, Optical Character Recognition, Tesseract OCR, Web Scraping, Mobile
Subjects: P Language and Literature > P Philology. Linguistics
Q Science > QA Mathematics > QA75 Electronic computers. Computer science
Q Science > QA Mathematics > QA76 Computer software
T Technology > T Technology (General)
T Technology > TA Engineering (General). Civil engineering (General)
T Technology > TK Electrical engineering. Electronics Nuclear engineering
Divisions: Pascasarjana > Program Studi Ilmu Komputer (S2)
Depositing User: Ahmad Asroni
Date Deposited: 24 Jul 2024 01:22
Last Modified: 24 Jul 2024 01:22
URI: http://repo.undiksha.ac.id/id/eprint/20983

Actions (login required)

View Item View Item