sastrawi

package module
v0.0.0-...-3dd6e0e Latest Latest
Warning

This package is not in the latest version of its module.

Go to latest
Published: Jun 21, 2020 License: MIT Imports: 4 Imported by: 3

README

Go-Sastrawi

GoDoc Build Status

Go-Sastrawi is a Go package for doing stemming in Indonesian language. It is based from Sastrawi for PHP by Andy Librian. For more information in English, see readme.

Go-Sastrawi adalah package Go untuk melakukan stemming pada bahasa Indonesia. Dikembangkan dari Sastrawi untuk PHP yang dibuat oleh Andy Librian.

Stemming

Dari Wikipedia, stemming adalah proses untuk mengubah kata berimbuhan menjadi kata dasar. Contohnya :

  • menahan => tahan
  • pewarna => warna

Contoh Penggunaan

Penggunaan yang paling sederhana adalah dengan menggunakan kamus kata dasar default yang telah disediakan :

import (
	"fmt"
	"github.com/RadhiFadlillah/go-sastrawi"
)

func main() {
	// Kalimat asal
	sentence := "Rakyat memenuhi halaman gedung untuk menyuarakan isi hatinya. Baca berita selengkapnya di http://www.kompas.com."

	// Ubah kata berimbuhan menjadi kata dasar
	dictionary := sastrawi.DefaultDictionary()
	stemmer := sastrawi.NewStemmer(dictionary)
	for _, word := range sastrawi.Tokenize(sentence) {
		fmt.Printf("%s => %s\n", word, stemmer.Stem(word))
	}
}

Selain menggunakan kamus kata dasar default, user juga dapat membuat kamus kata dasar sendiri :

import (
	"fmt"
	"github.com/RadhiFadlillah/go-sastrawi"
)

func main() {
	// Buat kamus baru
	dictionary := sastrawi.NewDictionary("lapar")
	dictionary.Print("")

	// Tambah kata dasar ke kamus
	dictionary.Add("ingin", "makan", "gizi", "enak", "lezat")
	dictionary.Print("")

	// Hapus kata dasar dari kamus
	dictionary.Remove("enak", "lezat")
	dictionary.Print("")

	// Gunakan kamus yang telah dibuat untuk stemming
	sentence := "Aku kelaparan dan menginginkan makanan yang bergizi."
	stemmer := sastrawi.NewStemmer(dictionary)
	for _, word := range sastrawi.Tokenize(sentence) {
		fmt.Printf("%s => %s\n", word, stemmer.Stem(word))
	}
}

Sastrawi juga menyediakan daftar stop word bahasa Indonesia yang bisa digunakan untuk menghapus kata-kata umum. Daftar stop word ini adalah Dictionary biasa, jadi user bisa menambah atau mengurangi stop word sesuai keperluan :

package main

import (
	"fmt"
	"github.com/RadhiFadlillah/go-sastrawi"
)

func main() {
	stopwords := sastrawi.DefaultStopword()
	dictionary := sastrawi.DefaultDictionary()
	stemmer := sastrawi.NewStemmer(dictionary)
	sentence := "Perekonomian Indonesia sedang dalam pertumbuhan yang membanggakan"

	for _, word := range sastrawi.Tokenize(sentence) {
		if stopwords.Contains(word) {
			continue
		}

		fmt.Printf("%s => %s\n", word, stemmer.Stem(word))
	}
}

Pustaka

Algoritma
  1. Algoritma Nazief dan Adriani
  2. Asian J. 2007. Effective Techniques for Indonesian Text Retrieval. PhD thesis School of Computer Science and Information Technology RMIT University Australia. (PDF dan Amazon)
  3. Arifin, A.Z., I.P.A.K. Mahendra dan H.T. Ciptaningtyas. 2009. Enhanced Confix Stripping Stemmer and Ants Algorithm for Classifying News Document in Indonesian Language, Proceeding of International Conference on Information & Communication Technology and Systems (ICTS). (PDF)
  4. A. D. Tahitoe, D. Purwitasari. 2010. Implementasi Modifikasi Enhanced Confix Stripping Stemmer Untuk Bahasa Indonesia dengan Metode Corpus Based Stemming, Institut Teknologi Sepuluh Nopember (ITS) – Surabaya, 60111, Indonesia. (PDF)
  5. Tambahan aturan stemming dari kontributor Sastrawi.
Kamus Kata Dasar

Proses stemming oleh Sastrawi sangat bergantung pada kamus kata dasar. Sastrawi menggunakan kamus kata dasar dari kateglo.com dengan sedikit perubahan.

Lisensi

Sebagaimana Sastrawi untuk PHP, Go-Sastrawi juga disebarkan dengan lisensi MIT. Untuk lisensi kamus kata dasar dari Kateglo adalah CC-BY-NC-SA 3.0.

Di Bahasa Pemrograman Lain

Documentation

Index

Constants

This section is empty.

Variables

This section is empty.

Functions

func Tokenize

func Tokenize(sentence string) []string

Tokenize remove symbols and URLs from sentence, then split it into words

Types

type Dictionary

type Dictionary map[string]struct{}

Dictionary is map[string]struct{} that used as root words database

func DefaultDictionary

func DefaultDictionary() Dictionary

DefaultDictionary is default database of root words in Indonesian language, taken from Kateglo

func DefaultStopword

func DefaultStopword() Dictionary

DefaultStopword is default database of stop words in Indonesian language

func NewDictionary

func NewDictionary(words ...string) Dictionary

NewDictionary creates new Dictionary with words as its content

func (Dictionary) Add

func (dictionary Dictionary) Add(words ...string)

Add is used to append new words to dictionary

func (Dictionary) Contains

func (dictionary Dictionary) Contains(word string) bool

Contains is used for to check if word exists within dictionary

func (Dictionary) Count

func (dictionary Dictionary) Count() int

Count returns the size of dictionary

func (Dictionary) Print

func (dictionary Dictionary) Print(separator string)

Print is used for printing content of dictionary, where each word is separated by separator

func (Dictionary) Remove

func (dictionary Dictionary) Remove(words ...string)

Remove is used to remove some words from dictionary

type Stemmer

type Stemmer struct {
	// contains filtered or unexported fields
}

Stemmer is object for stemming word

func NewStemmer

func NewStemmer(dict Dictionary) Stemmer

NewStemmer returns new Stemmer using dict as its dictionary

func (*Stemmer) ChangeDictionary

func (stemmer *Stemmer) ChangeDictionary(dict Dictionary)

ChangeDictionary changes dictionary that used in Stemmer

func (Stemmer) Stem

func (stemmer Stemmer) Stem(word string) string

Stem reduces inflected or derived word to its root form

Jump to

Keyboard shortcuts

? : This menu
/ : Search site
f or F : Jump to
y or Y : Canonical URL