Text Preprocessing: Pengertian, Apa itu NLTK Library? Macam Tahapan Basic (Dasar) serta Contoh Simple dan Kodenya!

Mengenal Text Preprocessing, Pengertian, Apa itu NLTK Library? Macam Tahapan Basic atau Dasar serta Contoh Simple dan Kodenya!

Lihat Selengkapnya!

Seperti yang kita ketahui, dalam tugas machine learning apa pun, pembersihan atau prapemrosesan data sama pentingnya dengan pembuatan sebuah model.

Lihat Selengkapnya!

Data teks pada dasarnya adalah salah satu bentuk data (baca pengertian tentang apa itu data di sini) yang tersedia yang paling tidak terstruktur dan ketika berurusan dengan bahasa manusia maka itu terlalu rumit.

Lihat Selengkapnya!

Terkait pembahasan Kami beberapa minggu sebelumnya, pernahkah Anda bertanya-tanya bagaimana Alexa, Siri, asisten Google dapat memahami, memproses, dan merespons dalam bahasa kita sebagai manusia.

Lihat Selengkapnya!

Yup! NLP-lah teknologi yang bekerja di belakangnya di mana sebelum ada respons, banyak pra-pemrosesan teks dilakukan.

Lihat Selengkapnya!

Postingan Kami kali ini akan mempelajari teknik preprocessing teks utama yang harus Anda ketahui untuk bermain dengan data teks apa pun.

Lihat Selengkapnya!

Mari kita simak ulasannya berikut ini!

Lihat Selengkapnya!

Sekilas tentang NLP

Seperti yang sudah Kami bahas sebelumnya, ini merupakan kepanjangan dari Natural Language Processing yang juga dikenal dengan istilah Natural Language Understanding (NLU), NLP adalah subbidang ilmu komputer dan kecerdasan buatan yang berhubungan dengan interaksi antara komputer dan bahasa manusia (alami).

Lihat Selengkapnya!

Terkait bidang ilmu data atau data science, kadang-kadang, NLP ini digunakan dalam penerapan algoritme machine learning pada teks dan ucapan.

Lihat Selengkapnya!

Sebagai contoh misalnya, dapat menggunakan Natural Language Processing (NLP) ini dalam pembuatan sistem seperti pengenalan suara, ringkasan dokumen, terjemahan mesin, deteksi spam, pengenalan entitas bernama, penjawab pertanyaan, pelengkapan otomatis, prediksi pengetikan, dan lain sebagainya.

Lihat Selengkapnya!

Apa itu NLTK Library pada Python?

Merupakan singkatan dari Natural Language Toolkit, NLTK adalah platform terkemuka untuk membangun program Python untuk bekerja dengan data bahasa manusia.

Lihat Selengkapnya!

NLTK menyediakan interface yang mudah digunakan ke banyak sumber daya korpora dan leksikal, mereka berisi library suite pemrosesan teks untuk klasifikasi, tokenization, stemming, tagging, parsing, dan semantic reasoning.

Lihat Selengkapnya!

Secara umum, dapat kita katakan bahwa NLTK adalah library terbaik dalam Python, khususnya karena mereka proyek berbasis komunitas gratis, open source.

Lihat Selengkapnya!

Macam-Macam Tahapan Dasar atau Basic Text Preprocessing dan Menghasilkan Document Term of Matrix dengan TF-IDF serta Contohnya

Lihat Selengkapnya!

Basic text preprocessing adalah langkah-langkah yang terbilang sangat penting dilakukan untuk mentransfer teks dari bahasa manusia ke format yang dapat dibaca mesin untuk diproses ke tahap yang lebih lanjut.

Lihat Selengkapnya!

Dalam tahapan atau prosesnya sendiri, setelah teks diperoleh, kita mulai dengan normalisasi teks.

Lihat Selengkapnya!

Sebelum memulainya, saran Kami kalian dapat menggunakan Google Colab atau perangkat lunak Jupyter agar lebih mudah.

Lihat Selengkapnya!

Adapun untuk proses dalam tahapan basic text preprocessing ini meliputi:

Lihat Selengkapnya!
  • Transformasi semua huruf menjadi huruf kecil atau besar.
  • Pengubahan angka menjadi kata atau menghapus angka.
  • Penghapusan tanda baca, tanda aksen, dan diakritik lainnya.
  • Penghilangan spasi atau yang dikenal dengan istilah white space..
  • Memperluas singkatan.
  • Menghilangkan kata henti, istilah jarang, dan kata-kata tertentu yang sering disebut dengan tahapan stop word removal.
  • Melakukan kanonikalisasi teks.
Lihat Selengkapnya!

Di bawah ini adalah macam tahapan dan contoh penerapan tahapan basic text preprocessing dan menemukan document term of matrix (menggunakan TF-IDF) dengan menggunakan bahasa pemrograman Python dengan menggunakan teks yang berasal dari dataset "Computer Glossary".

Lihat Selengkapnya!

a. Sentence Tokenization

Tokenisasi kalimat, sentence tokenization (atau yang juga disebut dengan sentence segmentation) adalah suatu permasalah terkait dalam pembagian string bahasa tertulis ke dalam kalimat komponennya.

Lihat Selengkapnya!

Sederhananya, seperti dalam bahasa Inggris dan beberapa bahasa lain, kita dapat memisahkan kalimat setiap kali kita melihat tanda baca.

Lihat Selengkapnya!

Berikut adalah contohnya:

Lihat Selengkapnya!

Lalu, kode di bawah ini sudah dapat Anda jalankan.

Lihat Selengkapnya!

b. Word Tokenization

Berarti tokenisasi kata, word tokenization atau yang juga disebut dengan word segmentation adalah suatu permasalahan terkait pembagian string bahasa tertulis menjadi kata-kata komponennya.

Lihat Selengkapnya!

Dalam bahasa Inggris dan banyak bahasa lain (seperti bahasa Indonesia) yang menggunakan beberapa bentuk abjad Latin, dalam hal ini tanda "space" atau spasi adalah perkiraan yang baik untuk pemisah katanya.

Lihat Selengkapnya!

Adapun contoh kode simple-nya dengan salah satu fungsi NLTK yaitu:

Lihat Selengkapnya!

c. Text Lemmatization dan Stemming

Dalam tata bahasa, dokumen dapat berisi berbagai bentuk kata seperti make, makes, making.

Lihat Selengkapnya!

Juga, terkadang kita memiliki kata-kata yang terkait dengan arti yang sama, seperti human, humanial, humanity.

Lihat Selengkapnya!

Tujuan dari ini text lemmatization dan stemming adalah untuk mengurangi bentuk-bentuk infleksional serta juga kadang berbagai macam bentuk kata terkait (secara turunan katanya) menjadi bentuk dasar kata yang sama.

Lihat Selengkapnya!

Stemming mengacu ke proses heuristik kasar yang memotong ujung kata yang ada, ini dilakukan dengan harapan mencapai tujuan tersebut dengan benar setiap saat, serta sering kali mencakup penghapusan afiks derivasinya.

Lihat Selengkapnya!

Kemudian, lemmatization ini dapat mengacu pada proses melakukan sesuatu dengan benar dengan penggunaan kosakata dan analisis morfologis kata yang ada.

Lihat Selengkapnya!

Ini bertujuan untuk menghilangkan akhiran infleksional serta untuk mengembalikan bentuk dasar atau kamus dari sebuah kata saja, atau yang juga dikenal sebagai lemma.

Lihat Selengkapnya!

Perbedaan stemmer dengan lemmatization yaitu stemmer beroperasi tanpa pengetahuan tentang konteksnya, sehingga dia tidak dapat memahami perbedaan antara kata-kata yang memiliki arti berbeda berdasarkan bagian pengucapannya.

Lihat Selengkapnya!

Kelebihannya, stemmer ini lebih mudah terkait penerapannya sendiri dan ini biasanya berjalan lebih cepat, terlebih jika pengurangan "accurary" yang mungkin tidak masalah untuk beberapa aplikasi.

Lihat Selengkapnya!

Contohnya menggunakan tool NLTK yaitu:

Lihat Selengkapnya!

d. Stop Words

Stop words atau stopword (tanpa spasi) adalah penyaringan kata-kata sebelum dan sesudah pemrosesan teks.

Lihat Selengkapnya!

Saat menerapkan pembelajaran mesin ke dalam sebuah teks, kata-kata yang ada seringkali dapat menambahkan banyak gangguan, sehinggan karena itulah kita perlu untuk melakukan penghapusan pada kumpulan kata non-relevan yang ada.

Lihat Selengkapnya!

Stopwords di sini mengacu pada kata-kata yang paling umum seperti kata hubung "and", "the", "a" dalam suatu bahasa.

Lihat Selengkapnya!

Perlu untuk diketahui bahwa tidak ada list atau daftar stopword universal tunggal, ini dapat berubah tergantung pada aplikasi Anda.

Lihat Selengkapnya!

Contohnya yaitu seperti:

Lihat Selengkapnya!

Kemudian, untuk menghilangkan stop words dari sebuah kalimat, kita dapat melakukan:

Lihat Selengkapnya!

Cara lain untuk mendapatkan hasil yang sama, terlebih jika Anda tidak paham dengan list comprehensions dalam Python, walaupun perlu diingat bahwa dia lebih cepat karena dioptimalkan untuk interpreter Python dalam menemukan pola yang dapat diprediksi selama perulangan yaitu:

Lihat Selengkapnya!

e. Regex

Ekspresi regular, regular expression, regex, atau regexp adalah urutan karakter yang digunakan untuk menentukan pola pencarian.

Lihat Selengkapnya!

Kita dapat menggunakannya dalam penerapan filter tambahan pada teks yang ada.

Lihat Selengkapnya!

Sebagai contoh misalnya, kita dapat menghapus semua karakter simbol atau yang bukan kata (non-kata).

Lihat Selengkapnya!

Dalam bahasa pemrograman Python, modul "re" seperti contoh di bawah menyediakan operasi pencocokan regular expressiong yang mirip dengan bahasa pemrograman lainnya seperti Perl:

Lihat Selengkapnya!

f. Bag Of Words (BOW)

Algoritma dalam machine learning tidak dapat bekerja dengan teks mentah (yang dikenal dengan sebutan raw) secara langsung, sehingga mengubah teks (text processing) menjadi vektor angka merupakan sebuah keharusan.

Lihat Selengkapnya!

Ini biasa disebut dengan ekstraksi fitur sederhana (simple feature extraction) dan disingkat dengan BOW, model bag-of-words adalah teknik ekstraksinya yang populer dan seringkali digunakan saat kita bekerja dengan teks.

Lihat Selengkapnya!

Ini menggambarkan (peristiwa) terjadinya setiap kata dalam sebuah dokumen.

Lihat Selengkapnya!

Untuk menggunakan model ini, kita harus melakukan beberapa hal sebagai berikut:

Lihat Selengkapnya!
  • Merancang kosakata dari kata-kata yang dikenal (token).
  • Memilih ukuran keberadaan kata-kata yang dikenal.
Lihat Selengkapnya!

Informasi apa pun tentang urutan atau struktur kata akan dibuang, itulah sebabnya ini disebut "bag" yang artinya kantong dari "of words" kata-kata.

Lihat Selengkapnya!

Model ini mencoba memahami apakah kata yang dikenal muncul dalam dokumen, tetapi tidak tahu di mana kata itu dalam dokumen.

Lihat Selengkapnya!

Intuisinya adalah bahwa dokumen serupa memiliki konten yang serupa.

Lihat Selengkapnya!

Selain itu, dari sebuah konten, maka kita dapat mempelajari sesuatu tentang arti dari dokumen tersebut.

Lihat Selengkapnya!

Di bawah ini adalah contoh untuk membuat model bag-of-words yang kita mulai dengan memuat datanya.

Lihat Selengkapnya!

Katakanlah, data file .txt kita adalah sebagai berikut:

Lihat Selengkapnya!

Buat kalian yang malas mengubahnya menjadi file teks dengan eksensi .txt, kalian dapat mengunduh filenya dengan mengklik link download di bawah ini.

Lihat Selengkapnya!

Kemudian, kita muat datanya:

Lihat Selengkapnya!

Lalu, lanjutkan dengan membuat desain kosakata (vocabulary) dan vektor dokumennya dengan:

Lihat Selengkapnya!

g. TF-IDF

Merupakan singkatan dari Term Frequency-Inverse Document Frequency, TF-IDF adalah ukuran statistik yang digunakan untuk mengevaluasi pentingnya sebuah kata bagi sebuah dokumen dalam kumpulan atau korpus.

Lihat Selengkapnya!

Nilai pemberian skor TF-IDF biasanya akan meningkat secara proporsional dengan berapa kali sebuah kata muncul dalam dokumen, namun diimbangi dengan jumlah dokumen dalam korpus yang memuat kata tersebut.

Lihat Selengkapnya!

Contoh melakukan proses TF-IDF dengan bahasa pemrograman Python adalah sebagai berikut:

Lihat Selengkapnya!

Kesimpulan

Baiklah, Kami pikir sudah cukup untuk pembahasan pengenalan Text Preprocessing, Pengertian, Apa itu NLTK Library? Macam Tahapan Basic atau Dasar serta Contoh Simple dan Kodenya.

Lihat Selengkapnya!

Sekarang kita tahu dasar-dasar cara mengekstrak fitur dari teks, di mana kemudian, fitur-fitur tersebut dapat kita gunakan sebagai input untuk algoritma machine learning.

Lihat Selengkapnya!

Dalam praktiknya, kalian dapat mencoba code (baca pengertian code di sini) atau kode yang sudah Kami contohkan di atas dan menyesuaikannya untuk pembelajaran kalian.

Lihat Selengkapnya!

Selain itu, adapun beberapa teknik text-preprocessing yang advanced atau lanjuttan lainnya yaitu seperti:

Lihat Selengkapnya!
  • Expand Contractions
  • Lower Case
  • Remove Punctuations
  • Remove words and digits containing digits
  • Remove Stopwords
  • Rephrase Text
  • Stemming and Lemmatization
  • Remove White spaces
Lihat Selengkapnya!

Bagaimana? Apa kalian juga tertarik dengan NLP?

Lihat Selengkapnya!

Penutup

Demikianlah postingan artikel yang dapat Kami bagikan kali ini, di mana Kami membahas terkait pengenalan Text Preprocessing, Pengertian, Apa itu NLTK Library? Macam Tahapan Basic atau Dasar serta Contoh Simple dan Kodenya.

Lihat Selengkapnya!

Semoga apa yang sudah Kami coba sampaikan serta jelaskan di sini dapat bermanfaat dan juga dapat menambah wawasan dan pengetahuan kita semua terutama dalam bidang teknologi, bisnis khususnya ilmu data dan pembelajaran mesin.

Lihat Selengkapnya!

Silahkan bagikan artikel atau postingan Kami di sini kepada teman, kerabat serta rekan kerja dan bisnis kalian semua khususnya jika kalian temukan ini bermanfaat dan juga jangan lupa subscribe Blog dan YouTube Kami. Sekian dari Saya Rifqi Mulyawan, Terima Kasih.

Lihat Selengkapnya!

Suka story atau cerita web ini?

Bagikan dengan menggunakan tombol di atas.

Rifqi Mulyawan