Teknologi

Makalah Pengujian Algoritma, Akuisisi dan Visualisasi Data serta Semantic Web Lengkap + Link Downloadnya!

Makalah tentang Pengujian Algoritma, Akuisisi dan Visualisasi Data serta Semantic Web Lengkap + Link Downloadnya!

Seorang ahli data, tentunya memiliki kemampuan untuk mengubah sekumpulan data menjadi wawasan yang dapat ditindaklanjuti dapat memberikan kesan yang mendalam.

Menggabungkan sains komputer, pemodelan, statistik, analitik, dan kemahiran matematik secara bersamaan, saintis data mendapati jawaban kepada soalan utama yang membantu organisasi, bisnis atau perusahaan membuat keputusan yang objektif.

Khusus teman-teman dan agan-agan yang kebetulan sedang mendalami bidang data science, dalam postingan kali ini Kami akan membagikan materi ringkasan dari berbagai sumber terpercaya yang ada dalam buku beberapa professor, pakar, ahli dan di internet yang sudah Kami kumpulkan agar lebih kalian mengerti dalam memahami apa saja istilah dan langkah dalam praktik ilmu data.

Oke baiklah langsung saja, berikut ini adalah makalah atau ringkasan tentang data science termasuk teori, rumus beserta dengan cara perhitungannya secara lengkap.

Sekilas tentang Algoritma

Dunia komputasi penuh dengan kata kunci, seperti AI, komputer super, pembelajaran mesin, cloud, komputasi kuantum, dan banyak lagi istilah lainnya, di mana salah satu kata khusus yang digunakan di seluruh komputasi, yaitu algoritma.

Juga disebut dengan algoritme, dalam pengertiannya yang paling umum, algoritma adalah serangkaian instruksi yang memberi tahu komputer bagaimana mengubah serangkaian fakta tentang dunia menjadi suatu informasi yang berguna.

Fakta adalah data, dan informasi yang berguna adalah pengetahuan bagi manusia, instruksi untuk mesin atau masukan untuk algoritma lain.

Ada banyak contoh umum dari kata algoritma, mulai dari mengurutkan kumpulan angka hingga menemukan rute melalui peta hingga menampilkan informasi di layar.

Mengenal Apa yang Dimaksud dengan Pengujian Algoritma

Dalam hal pengujian algoritma, adapun jawaban pertanyaannya seringkali tergantung pada apa yang Anda miliki untuk diuji.

Mungkin, Anda menguji setiap implementasinya dengan cara yang sama, seperti memulainya dengan mengambil masukan, hitung keluaran yang diharapkan, dan bandingkan dengan keluaran yang diberikan sebuah algoritma kepada Anda.

Seperti yang sudah kita singgung di atas, sebuah algoritma adalah sebuah proses.

Ini adalah jumlah langkah yang dapat dihitung (terbatas) yang memungkinkan Anda untuk mencapai beberapa tujuan atau memecahkan beberapa masalah.

Istilah ini banyak digunakan dalam ilmu komputer untuk menggambarkan langkah-langkah pemrograman yang diperlukan untuk mencapai tujuan yang dapat dieksekusi dari sebuah perangkat lunak.

Sebagai contoh misalnya, program komputer mungkin menggunakan algoritma untuk beberapa hal sebagai berikut:

  • Pencarian; Ini adalah proses memilah-milah kumpulan informasi untuk menemukan bagian tertentu yang menarik.
  • Sortir; Ini adalah proses menerapkan perintah ke kumpulan informasi.
  • Parse; Ini adalah proses memecah beberapa informasi menjadi bagian-bagian yang lebih kecil dan lebih mudah dikelola.
  • Hitung; Ini adalah proses melakukan beberapa operasi matematika pada kumpulan informasi.

a. Performance Regression Testing

Berarti pengujian kinerja regresi, performance regression testing adalah pendekatan komparatif yang memeriksa bagaimana kinerja aplikasi perangkat lunak di seluruh build yang berurutan.

Untuk ahli dalam otomatisasi pengujian pintar, ini dilakukan dengan mensimulasikan berbagai skenario penggunaan, banyak di antaranya adalah pengujian yang menempatkan aplikasi ke dalam kondisi kinerja yang buruk.

Secara sederhana, pengujian regresi kinerja memberikan umpan balik tentang bagaimana kinerja aplikasi bervariasi sesuai dengan perubahan terbaru dalam pengembangan.

Gambar Langkah Dasar Dari Praktik Pengujian Regresi Atau Regression Testing

Seperti gambar di atas dan terkait contohnya sendiri, perlu untuk diketahui bahwa langkah dasar praktik pengujian regresi dapat menjadi bervariasi, di mana beberapa langkah dasarnya adalah sebagai berikut:

  • Deteksi perubahan dalam kode sumber; Mendeteksi modifikasi dan optimasi dalam kode sumber; kemudian mengidentifikasi komponen atau modul yang diubah, serta dampaknya terhadap fitur yang ada.
  • Prioritaskan perubahan dan persyaratan produk tersebut; Selanjutnya, prioritaskan modifikasi dan persyaratan produk ini untuk merampingkan proses pengujian dengan kasus uji dan alat pengujian yang sesuai.
  • Tentukan titik masuk dan kriteria masuknya; Pastikan apakah aplikasi Anda memenuhi kelayakan yang telah ditetapkan sebelum eksekusi uji regresi.
  • Tentukan titik keluarnya; Tentukan jalan keluar atau titik akhir untuk persyaratan kelayakan atau persyaratan minimum yang ditetapkan pada langkah ketiga.
  • Jadwalkan tes atau pengujiannya; Terakhir, identifikasi semua komponen pengujian dan jadwalkan waktu yang tepat untuk dieksekusi.

1. Root Mean Square Error (RMSE)

Root Mean Square Error (RMSE) adalah standar deviasi dari residual (kesalahan prediksi).

Residual di sini merupakan ukuran seberapa jauh dari titik data garis dari sebuah regresi.

RMSE pada dasarnya adalah ukuran seberapa menyebar residu tersebut atau dengan kata lain, ini memberi tahu Anda seberapa terkonsentrasi data di sekitar garis yang paling cocok.

Ini biasanya digunakan dalam klimatologi, peramalan, dan analisis regresi untuk memverifikasi hasil eksperimen.

Terkait contoh dan cara menghitungnya, rumusnya adalah:

Gambar Rumus Dan Cara Menghitung Root Mean Square Error RMSE

Dimana Σ merupakan penjumlahan, (yi – yi)2 adalah selisih, kuadrat serta n adalah ukuran sampelnya.

2. Mean Square Error (MSE)

Mean Squared Error (MSE) adalah nilai yang memberi tahu Anda seberapa dekat garis regresi dengan sekumpulan titik.

Ini dilakukan dengan mengambil jarak dari titik ke garis regresi (jarak ini adalah “error”) dan mengkuadratkannya.

Kuadrat diperlukan untuk menghilangkan tanda-tanda negative yang ada, dan ini juga memberi bobot lebih pada perbedaan yang lebih besar.

Ini berarti serta disebut kesalahan kuadrat rata-rata karena Anda menemukan rata-rata dari serangkaian kesalahan.

Dalam hal ini, semakin rendah MSE, maka semakin baik prediksi atau ramalannya.

Untuk contoh menghitung Mean Squared Error atau MSE, rumusnya yaitu:

MSE = (1/n) * (aktual – prediksi)2

Di mana n merupakan jumlah itemnya, Σ adalah notasi penjumlahan, aktual merupakan nilai y asli atau yang diamati, dan prediksi merupakan nilai y dari regresinya.

Adapun langkah-langkah umum dalam menghitung MSE dari sekumpulan nilai X dan Y, yaitu:

  • Temukan garis regresinya.
  • Masukkan nilai X Anda ke dalam persamaan regresi linier untuk menemukan nilai Y baru (Y’).
  • Kurangi nilai Y baru dari yang asli untuk mendapatkan kesalahan.
  • Kuadratkan kesalahan atau error-nya.
  • Jumlahkan error ( dalam rumus adalah notasi penjumlahan).

3. Mean Absolute Error (MAE)

Kesalahan absolut atau absolute error adalah jumlah kesalahan dalam pengukuran Anda. Ini adalah perbedaan antara nilai terukur dan nilai “benar”.

Sebagai contoh misalnya, jika timbangan menyatakan 90 pon tetapi Anda tahu berat Anda yang sebenarnya adalah 100 kg, maka timbangan tersebut memiliki kesalahan mutlak 100 kg dikurangi 99 kg adalah 1 kg.

Hal ini dapat disebabkan oleh timbangan Anda tidak mengukur jumlah yang tepat yang Anda coba ukur, seperti misalnya, skala Anda mungkin akurat hingga kilogram terdekat.

Jika Anda menimbang 99,6 lbs, timbangannya mungkin akan “membulatkan” dan memberi Anda 100 lbs.

Dalam hal ini, kesalahan mutlaknya adalah 100 dikurangi dengan 99,6 lbs yaitu sama dengan 0,4 lbs.

Singkatnya, Mean Absolute Error (MAE) adalah rata-rata dari semua kesalahan absolut.

Rumus perhitungan MAE adalah:

Gambar Rumus Dan Cara Hitung Mean Absolute Error MAE

Di mana n adalah jumlah kesalahannya, Σ merupakan penjumlahan dan |xi – x| yaitu kesalahan mutlak (absolute error).

Seringkali ini memang terlihat agak kompleks bagi Sebagian orang, tetapi langkah-langkahnya dapat kita katakan cukup mudah (hanya 3 langkah dasar) yaitu:

  1. Mulai dengan menemukan semua kesalahan absolut Anda, xi – x.
  2. Tambahkan semuanya.
  3. Bagi dengan jumlah kesalahan, sebagai contoh misalnya, jika Anda memiliki 10 pengukuran, bagi dengan 10.

4. Mean Absolute Percentage Error (MAPE)

Berarti rata-rata persentase kesalahan absolut, Mean Absolute Percentage Error (MAPE) adalah ukuran seberapa akurat sistem perkiraan.

Ini mengukur akurasi ini sebagai persentase, dan dapat dihitung sebagai kesalahan persen absolut rata-rata untuk setiap periode waktu dikurangi nilai aktual dibagi dengan nilai aktual.

Rumus MAPE adalah sebagai berikut:

Gambar Rumus Dan Cara Menghitung Mean Absolute Percentage Error MAPE

Di mana n adalah jumlah titik yang dipasang, At adalah nilai sebenarnya, lalu Ft adalah nilai ramalan serta Σ merupakan notasi penjumlahan (nilai absolut dijumlahkan untuk setiap titik waktu yang diperkirakan).

Rata-rata kesalahan persentase absolut atau yang lebih dikenal dengan istilah MAPE ini adalah ukuran yang paling umum digunakan untuk meramalkan kesalahan (error), dan bekerja paling baik jika tidak ada ekstrem pada data (dan tidak ada nol).

b. Performance Classification

Berarti performa klasifikasi, performance classification adalah cara untuk menganalisis kinerja klasifikasi dari teknik peningkatan yang diterapkan pada mammogram yang merupakan praktik eksperimen lengkap yang dilakukan.

Adapun hasil penelitian atau eksperimen ini terdiri dari matriks konfusi, akurasi, dan akurasi kelas individu untuk setiap metode peningkata.

Seperti yang kita ketahui, klasifikasi adalah termasuk dalam kategori pendekatan pembelajaran terawasi di mana variabel target bersifat diskrit (atau kategoris).

Perlu untuk diketahui bahwa melakukan evaluasi model pembelajaran mesin sama pentingnya dengan membangunnya.

1. Akurasi Klasifikasi

Akurasi klasifikasi pada dasarnya adalah acuan yang menunjukkan berapa banyak prediksi yang benar.

Sederhananya, dapat kita lihat pada rumus di bawah ini:

Gambar Rumus Dan Cara Menghitung Akurasi Klasifikasi Atau Classification Accurary

Dalam beberapa kasus, ini mewakili seberapa baik model tetapi ada beberapa kasus di mana akurasi saja tidak cukup.

Sebagai contoh misalnya, 95% berarti kita akan memprediksi dengan benar 95 dari 100 sampel.

Memang itu nampaknya dapat diterima tanpa mengetahui detail.

Asumsikan kita sedang membuat model untuk melakukan klasifikasi biner pada dataset dengan distribusi kelas yang tidak seimbang dan 95% titik data berada di kelas A dan 5% di kelas B seperti gambar di bawah ini.

Gambar Dari Contoh Model Klasifikasi

Disini kita memiliki model yang hanya memprediksi kelas A saja.

Walaupun terbilang masih sulit untuk menyebutnya sebagai sebuah “model” karena memprediksi kelas A tanpa perhitungan apa pun.

Namun, karena 95% sampel berada di kelas A, maka akurasi model kita di sini adalah 95%.

Lalu, bagaimana jika sangat penting untuk mendeteksi kelas B dengan benar dan kita tidak dapat salah mengklasifikasikan sampel kelas B?

Oleh karena itulah, kita memerlukan metrik lain untuk mengevaluasi model kita.

2. Matriks Konfusi

Disebut dengan confusion matrix, perlu diketahui bahwa ini bukanlah metrik untuk mengevaluasi model, tetapi matrik konfusi ini adalah metode untuk memberikan wawasan tentang prediksi.

Penting untuk mempelajari matriks kebingungan untuk memahami metrik klasifikasi lainnya seperti precision dan recall.

Matriks kebingungan lebih dalam dari akurasi klasifikasi dengan menunjukkan prediksi yang benar dan salah (yaitu benar atau salah) pada setiap kelas.

Dalam kasus tugas klasifikasi biner, matriks konfusi adalah matriks yang terdiri dalam bentuk2x2 (seperti gambar di bawah), dan jika ada tiga kelas yang berbeda, itu adalah matriks bentuk 3×3 dan seterusnya.

Gambar Confusion Matrix For Binary Classification Yang Seperti Tabel Actual Dan Predicted Value

Untuk pembahasannya, mari kita asumsikan kelas A adalah kelas positif dan kelas B adalah kelas negatif.

Adapun istilah kunci dari matriks konfusi adalah sebagai berikut:

  • True Positive (TP); Memprediksi kelas positif sebagai positif (ok)
  • False Positive (FP); Memprediksi kelas negatif sebagai positif (tidak ok)
  • False Negative (FN); Memprediksi kelas positif sebagai negatif (tidak ok)
  • True Negative (TN); Memprediksi kelas negatif sebagai negatif (ok)

Hasil yang diinginkan adalah bahwa prediksi dan kelas sebenarnya adalah sama dan ini mungkin terlihat membingungkan tetapi kita pastinya akan dapat menemukan trik untuk diingat.

Gambar Tabulasi Matriks Konfusi Acrual Prediction Evaluation True Positive TP False Positif FP False Negative FN True Negative TN

Di atas adalah contoh dalam bentuk tabulasinya.

Di atas, False Positive (FP) juga dikenal sebagai error tipe I dan False Negatice (FN) juga dikenal sebagai error tipe II.

Secara lebih lanjut, confusion matrix ini digunakan untuk menghitung presisi dan recall.

3. Precision dan Recall

Metrik presisi (precision) dan recall merupakan metrik yang membawa akurasi klasifikasi satu langkah lebih jauh dan memungkinkan kita untuk mendapatkan pemahaman yang lebih spesifik tentang evaluasi daripada sebuah model.

Adapun untuk yang mana yang lebih disukai oleh seorang peneliti seringkali tergantung pada tugas dan apa yang ingin kita capai.

Presisi di sini akan mengukur seberapa baik model kita ketika prediksinya adalah positif, di mana rumusnya adalah sebagai berikut:

Gambar Dari Rumus Dan Cara Menghitung Presisi Atau Precision

Fokus presisi adalah prediksi positif dan ini menunjukkan berapa banyak prediksi positif yang benar.

Sedangkan recall mengukur seberapa baik model kita dalam memprediksi kelas positif dengan benar dengan rumus:

Gambar Rumus Dan Cara Menghitung Recall

Fokus dari recall adalah kelas positif yang sebenarnya, di mana ini menunjukkan berapa banyak kelas positif yang dapat diprediksi model dengan benar.

Seorang peneliti tidak dapat mencoba memaksimalkan presisi dan daya ingat karena ada trade-off di antara keduanya.

Untuk meningkatkan presisi, pastinya akan menurunkan recall dan sebaliknya.

Kita bisa fokus untuk memaksimalkan presisi atau mengingat tergantung pada tugas.

Sebagai contoh misalnya untuk model pendeteksian spam e-mail, kita bisa mencoba memaksimalkan presisi karena pastinya kita ingin benar ketika sebuah e-mail terdeteksi sebagai spam.

Terkait itu, kita tidak bisa begitu saja melabeli e-mail biasa sebagai spam (dalam hal ini adalah False Positive).

Di sisi lain seperti untuk tugas deteksi tumor misalnya, kita perlu memaksimalkan recall karena kita ingin mendeteksi kelas positif sebanyak mungkin.

Selain itu, ada metrik atau ukuran lain yang menggabungkan presisi dan daya ingat menjadi satu angka yang akan kita bahas selanjutnya, yaitu adalah skor F1.

4. F1 Score

Dikenal dengan sebutkan F1 score, skor F1 ini adalah rata-rata tertimbang presisi dan recall.

Rumus menghitung skor F1 adalah:

Gambar Rumus Dan Cara Kalkulasi F1 One Score

Skor F1 pada dasarnya merupakan ukuran yang lebih berguna daripada akurasi untuk masalah dengan distribusi kelas yang tidak merata karena memperhitungkan False Positive dan False Negative.

Terkait itu, perlu kita ketahui bahwa nilai terbaik untuk skor F1 di sini yaitu adalah 1 dan yang terburuk adalah 0.

c. Performance Clustering

Berarti kinerja clustering secara bahasa, performance clustering merupakan istilah yang digunakan untuk kinerja algoritma pengelompokan yang diterapkan dalam praktiknya.

Ada beberapa metode untuk menilai kinerja algoritma pengelompokan Anda secara efektif.

Pertama-tama kita dapat mencoba untuk membandingkannya dengan apa yang diketahui, namun sudah bekerja dengan baik, kemudian bandingkan hasilnya.

Cara lainnya yaitu dengan menentukan waktu algoritme Anda dan bandingkan waktu antara kedua algoritme.

Jika Anda memiliki dua set jawaban yang baik, maka Anda dapat menganalisis bagaimana kualitas solusinya akan meningkat seiring waktu.

Cara lainnya yaitu dengan mencoba algoritme Anda dengan beberapa contoh masalah.

Satu tidak terlalu menantang, satu sedang dan satu sangat menantang, di mana pada akhirnya, menggunakan evolusi untuk mengoptimalkan parameter algoritme pengelompokan Anda, dapat mengujinya dengan baik di bawah tekanan dan dapat menunjukkan beberapa arah tentang cara meningkatkannya.

1. Rand Index

Rand Index adalah salah satu cara yang dapat digunakan untuk membandingkan kesamaan hasil antara dua metode pengelompokan (dalam hal ini clustering) yang berbeda.

Sering dilambangkan dengan R, Indeks Rand ini dihitung dengan rumus sebagai berikut:

R = (a+b) / (nC2)

Untuk keterangannya sendiri yaitu:

  • a; Berapa kali sepasang elemen milik cluster yang sama di dua metode clustering.
  • b; Berapa kali sepasang elemen menjadi bagian dari cluster yang berbeda di dua metode clustering.
  • nC2; Banyaknya pasangan tak terurut dalam himpunan n elemen.

Perlu untuk diketahui bahwa Rand Index ini selalu mengambil nilai antara 0 dan 1 di mana:

  • Angka 0; Menunjukkan bahwa dua metode pengelompokan tidak setuju pada pengelompokan pasangan elemen mana pun.
  • Angka 1; Menunjukkan bahwa dua metode pengelompokan sangat setuju pada pengelompokan setiap pasangan elemen.

Di bawah ini akan kita ilustrasikan bagaimana cara menghitung Index Rand antara dua metode pengelompokan untuk kumpulan data sederhana.

Untuk cara menghitung indeks Rand, sebagai contoh misalkan kita memiliki dataset yang terdari dari 5 (lima) elemen sebagai berikut:

{A, B, C, D, E}

Semisal jika kita menggunakan dua metode clustering yang menempatkan setiap elemen dalam cluster berikut:

  1. {1, 1, 1, 2, 2}
  2. {1, 1, 2, 2, 3}

Untuk menghitung Rand Index antara metode pengelompokan ini, pertama-tama kita mulai dengan menuliskan setiap pasangan tak terurut yang mungkin dalam kumpulan data 5 (lima) elemennya:

Pasangan tak berurutan (unordered pairs) seperti:

{A, B}, {A, C}, {A, D}, {A, E}, {B, C}, {B, D}, {B, E}, {C, D} , {C, E}, {D, E}

Disini kita dapatkan 10 (sepuluh) pasangan yang tidak berurutan.

Selanjutnya, kita perlu menghitung a, yang mewakili jumlah pasangan tak terurut yang dimiliki oleh cluster yang sama di kedua metode clustering sebagai berikut:

{A, B}

Dalam hal ini, a adalah 1.

Selanjutnya, kita perlu menghitung b, yang mewakili jumlah pasangan tak terurut yang dimiliki oleh klaster yang berbeda di kedua metode pengelompokan:

{A, D}, {A, E}, {B, D}, {B, E}, {C, E}

Dalam hal ini, b sama dengan 5.

Kemudian, baru kita dapat menghitung indeks Rand sebagai:

  • R = (a+b) / (nC2)
  • R = (1+5) / 10
  • R = 6/10

Dengan begitu, maka Rand Index-nya adalah sebesar 0,6.

2. Calinski-Harabasz Index

Calinski-Harabasz Index juga dikenal sebagai Variance Ratio Criterion, ini adalah rasio jumlah dispersi antar-cluster dan dispersi antar-cluster untuk semua cluster.

Terkait praktik dan penerapannya sendiri yaitu, apabila semakin tinggi skornya, maka semakin baik kinerja dari sebuah metode clustering.

Untuk rumusnya sendiri dapat kita lihat pada gambar di bawah ini:

Gambar Rumus Atau Formula Dan Keterangan Calinski Harabasz Index Atau Variance Ratio Criterion

Kelebihannya yaitu skornya akan lebih tinggi ketika cluster padat dan terpisah dengan baik, yang berkaitan dengan konsep standar cluster, serta terbilang cepat untuk dihitung.

Sedangkan kekurangan untuk iIndeks Calinski-Harabasz ini umumnya lebih tinggi untuk cluster cembung (convex) daripada konsep cluster lainnya, seperti cluster berbasis kepadatan (density) seperti yang diperoleh melalui DBSCAN.

3. Davies‐Bouldin Index

Cara lain untuk menentukan performa atau kinerja dari sebuah algoritma klastering yaitu dengan menggunakan Davies–Bouldin Index.

Indeks ini menandakan rata-rata “kesamaan” antar cluster, di mana kesamaan (similiarity) adalah ukuran yang membandingkan jarak antar cluster dengan ukuran cluster itu sendiri.

Indeks Davies-Bouldin yang lebih rendah berhubungan dengan model dengan pemisahan yang lebih baik antara cluster-nya.

Di bawah ini adalah gambar rumusnya:

Gambar Rumus Atau Formula Dan Keterangan Davies Bouldin Index

Terkait keuntungan dalam menggunakan perhitungan Davies-Bouldin ini, yaitu dia terbilang lebih sederhana daripada Silhouette Score (yang akan kita bahas selanjutnya).

Selain itu, indeksnya juga dihitung hanya jumlah dan fitur yang melekat pada dataset saja.

Untuk kekurangannya, penggunaan jarak centroid indeks ini akan membatasi metrik jarak ke ruang Euclidean dan indeks Davies-Boulding ini pada umumnya lebih tinggi untuk cluster cembung (convex) daripada konsep cluster lainnya, seperti cluster yang berbasis density (kepadatan) seperti yang diperoleh dari DBSCAN.

4. Silhouette Score

Koefisien atau Silhouette Score adalah metrik yang digunakan untuk menghitung kebaikan teknik pengelompokan.

Koefisien atau perhitungannya ditentukan untuk setiap sampel dan terdiri dari dua skor (seperti gambar di bawah), dan skornya yang bernilai lebih tinggi berkaitan dengan model dengan klaster yang lebih jelas.

Gambar Rumus Atau Formula Dan Keterangan Silhouette Score

Untuk keterangan dari gambar rumus Silhouette Score di atas adalah sebagai berikut:

  • a; Merupakan jarak rata-rata antara sampel dan semua titik lain di kelas yang sama. Skor ini mengukur kedekatan titik dalam klaster yang sama.
  • b; Adalah jarak rata-rata antara sampel dan semua titik lain di cluster terdekat berikutnya. Skor ini mengukur jarak titik dari cluster yang berbeda.

Untuk keuntungannya sendiri, skor ini dibatasi antara -1 untuk pengelompokan yang salah dan +1 untuk pengelompokan yang sangat padat.

Dalam metrik Silhouette Score ini, skor sekitar nol akan menunjukkan cluster yang tumpang tindih.

Skor lebih tinggi terjadi ketika cluster padat dan terpisah dengan baik, yang berkaitan dengan konsep standar cluster.

Kekurangan dari koefisien Silhouette ini pada umumnya lebih tinggi untuk cluster cembung (convex) daripada konsep klaster lainnya, seperti cluster berbasis kepadatan seperti yang diperoleh melalui DBSCAN serta kompleksitas komputasi tinggi yang ditandai dengan O(n²).

Akuisisi Data dalam Data Science

Dalam ilmu data, akuisisi data (yang biasanya disingkat dengan singkatan DAQ atau DAS) adalah proses pengambilan sampel sinyal yang mengukur fenomena fisik dunia nyata dan mengubahnya menjadi bentuk digital yang dapat dimanipulasi oleh komputer dan software (perangkat lunak).

Akuisisi data secara umum diterima berbeda dari bentuk rekaman sebelumnya ke tape recorder atau bagan kertas.

Berbeda dengan metode tersebut, sinyal diubah dari domain analog ke domain digital dan kemudian direkam ke media digital seperti ROM, media flash, atau hard disk drive.

Akuisisi data terutama dilakukan dengan menggunakan kombinasi instrumen dan alat yang membentuk sistem akuisisi data atau yang dikenal dengan istilah Data Acquisition Systems (DAQ atau DAS).

DAS mengambil sampel sinyal lingkungan dan mengubahnya menjadi sinyal yang dapat dibaca mesin, sementara perangkat lunak memproses data yang diperoleh untuk penyimpanan atau presentasi.

Sistem akuisisi data (atau sistem DAQ) atau yang lebih dikenal dengan istilah Data Acquisition Systems (DAS) seperti namanya, adalah produk atau proses yang digunakan untuk mengumpulkan informasi untuk mendokumentasikan atau menganalisis beberapa fenomena.

Apa itu Data dan Jenis Macamnya?

Data secara khusus merupakan seperangkat nilai subjek sehubungan dengan variabel kualitatif atau kuantitatif.

Data adalah fakta mentah dan tidak terorganisir yang perlu diproses dan ini bisa menjadi sesuatu yang sederhana dan tampaknya acak dan tidak berguna sampai terorganisir.

Ketika sebuah data diproses, diatur, terstruktur atau disajikan dalam konteks tertentu sehingga membuatnya berguna, itu disebut informasi.

Informasi, yang diperlukan untuk kegiatan penelitian dicapai dalam berbagai bentuk.

Gambar Dari Hirarki Tipe Jenis Dan Macam Macam Data

Sebagaimana yang dapat kita lihat pada gambar di atas, adapun untuk tipe atau bentuk utama data adalah sebagai berikut:

  • Data utama atau primary
  • Data sekunder (secondary)
  • Data cross-sectional (penampang)
  • Kategori atau categorical data
  • Data deret waktu (time series)
  • Data spasial (spatial)
  • Data yang tersusun (ordered)

Apa itu Dataset dan Tipenya?

Data set (dengan spasi) atau dataset (tanpa spasi) secara umum merupakan kumpulan dari sebuah data yang tersusun.

Himpunan ini biasanya disajikan dalam pola table, di mana setiap kolomnya akan menggambarkan variabel tertentu dan setiap barisnya sesuai dengan anggota tertentu dari kumpulan data (dataset).

Kumpulan data menggambarkan nilai untuk setiap variabel untuk jumlah yang tidak diketahui seperti tinggi, berat, suhu, volume, dan lain sebagainya dari suatu objek atau nilai angka acak.

Nilai-nilai dalam himpunan ini dikenal sebagai datum.

Dataset atau kumpulan data terdiri dari data dari satu atau lebih anggota yang sesuai dengan setiap barisnya.

Dalam bidang data science dan statistik, ada berbagai jenis kumpulan data yang tersedia untuk berbagai jenis informasi, yakni:

  • Kumpulan data numerik (numerical dataset)
  • Kumpulan data bivariat (bivariate dataset)
  • Kumpulan data multivariasi (multivariate dataset)
  • Kumpulan data kategoris (categorical dataset)
  • Kumpulan data korelasi (correlation dataset)

Perbedaan Data, Data Sets, Database

Terkait pengertian dan perbedaannya sendiri, perlu untuk diketahui bahwa data adalah hasil dari pengamatan atau pengukuran, dan mereka belum diproses, serta biasanya direpresentasikan sebagai teks, angka, atau multimedia.

Kumpulan data atau datasetadalah kumpulan data terstruktur yang umumnya dikaitkan dengan kumpulan pekerjaan yang unik.

Set data publik, juga dikenal dengan public dataset secara umum berarti kumpulan data yang tersedia secara public.

Seperti di Google, public dataset adalah set data apa pun yang disimpan di BigQuery dan tersedia untuk publik umum melalui Google Cloud Public Dataset Program.

Data publik dapat didefinisikan sebagai semua informasi dalam domain publik, mencakup apa saja mulai dari kumpulan data yang diperbarui setiap bulan di portal data pemerintah hingga file PDF yang hanya dapat diakses melalui permintaan Kebebasan Informasi (dan segala sesuatu di antaranya).

Sedangkan basis data yang sering kita sebut dengan database adalah kumpulan data yang terorganisir yang disimpan sebagai beberapa kumpulan data (sets).

Dataset tersebut umumnya disimpan dan diakses secara elektronik dari sistem komputer yang memungkinkan data tersebut mudah diakses, dimanipulasi, dan diperbarui.

Pengertian Data Quality, Preprocessing, Reduction, Augmentation, Transformation, dan Grabbing

a. Data Quality

Data quality adalah istilah yang mengacu pada pengembangan dan implementasi aktivitas yang menerapkan teknik manajemen kualitas pada data untuk memastikan data sesuai untuk melayani kebutuhan spesifik organisasi dalam konteks tertentu.

Data yang dianggap sesuai untuk tujuan yang dimaksudkan tersebut dianggap data berkualitas tinggi.

Sebagai contoh sebuah masalah dalam kualitas data (quality) termasuk data yang terduplikasi, data yang tidak lengkap, data yang tidak konsisten, data yang salah, data yang tidak terdefinisi dengan baik, data yang tidak terorganisir dengan baik, dan keamanan data yang buruk.

Penilaian dalam data quality ini dilakukan oleh analis kualitas data, yang menilai dan menafsirkan setiap metrik kualitas data individu, mengumpulkan skor untuk kualitas keseluruhan data, dan memberikan persentase kepada organisasi untuk mewakili keakuratan data mereka.

Skor kualitas data yang rendah menunjukkan kualitas data yang buruk, yang bernilai rendah, menyesatkan, dan dapat menyebabkan pengambilan keputusan yang buruk yang dapat merugikan sebuah bisnis.

b. Data Reduction

Pra-pemrosesan data atau yang lebih dikenal dengan istilah data preprocessing adalah salah satu langkah dalam ilmu data dan proses analisis data yang mengambil data mentah dan mengubahnya menjadi format yang dapat dipahami dan dianalisis oleh komputer dan pembelajaran mesin.

Seperti yang sudah kita singgung di bagian sebelumnya, data mentah di dunia nyata seringkali tersedia dalam bentuk teks, gambar, video, dan lain sebagainya secara berantakan.

Tidak hanya mungkin mengandung kesalahan dan inkonsistensi saja, tetapi seringkali tidak lengkap, dan bahkan tidak memiliki desain yang teratur dan seragam.

Data yang tidak terstruktur, berupa teks dan gambar harus terlebih dahulu diproses, dibersihkan, dan diformat sebelum dianalisis.

c. Data Reduction

Secara bahasa berarti reduksi data, istilah data reduction adalah teknik optimasi kapasitas di mana data direduksi menjadi bentuk yang paling sederhana untuk membebaskan kapasitas pada perangkat penyimpanan.

Seperti yang kita lihat di atas, ada banyak cara untuk mengurangi data, tetapi idenya sangat sederhana, yaitu cukup dengan masukkan sebanyak mungkin data ke dalam penyimpanan fisik untuk memaksimalkan kapasitasnya saja.

Manfaat utama reduksi data terbilang cukup efektif, semakin banyak data yang dapat Anda masukkan ke dalam satu Terabyte ruang disk, maka akan semakin sedikit kapasitas yang perlu Anda beli.

d. Data Augmentation

Augmentasi data atau data augmentation juga merupakan salah satu teknik yang digunakan untuk menambah jumlah data dengan menambahkan salinan yang telah dimodifikasi sebagiannya dari data yang sudah ada atau data sintetis yang baru dibuat dari data yang ada.

Dengan begitu, augmentation ata augmentasi dari data ini pada dasarnya melibatkan pembuatan data baru dan representatif.

Perbedaannya dengan data sintetis (synthetic) yaitu data sintetis (synthetic data generation) ini merupakan salah satu cara untuk menambah, dalam hal ini mulakukan augmentasi (augment) pada data.

Pendekatan lainnya yaitu seperti misalnya membuat perubahan minimal pada data yang ada untuk membuat data baru untuk augmentasi data.

Aplikasi pembelajaran mesin terutama dalam domain pembelajaran mendalam terus terdiversifikasi dan meningkat pesat.

Teknik augmentation atau augmentasi data mungkin menjadi alat yang baik untuk menghadapi tantangan yang dihadapi dunia kecerdasan buatan.

Augmentasi data berguna untuk meningkatkan kinerja dan hasil model pembelajaran mesin dengan membentuk contoh baru dan berbeda untuk melatih kumpulan data.

Jika dataset dalam model machine learning terbilang kaya dan memadai, maka sebuah model tentunya akan berperforma lebih baik serta lebih akurat.

e. Data Transformation

Transformasi data yang juga dikenal dengan sebutan data transformation ini adalah proses mengubah data dari satu format ke format lainnya.

Transformasi data yang paling umum adalah mengubah data mentah (raw) menjadi bentuk yang bersih dan dapat digunakan, mengonversi tipe data, menghapus data duplikat, dan memperkaya data agar bermanfaat bagi bisnis.

Selama proses transformation-nya, seorang analis, data scientist atau para pakar, dan peneliti seringkali akan menentukan struktur, melakukan pemetaan data, mengekstrak data dari sumber aslinya, menjalankan transformasi, dan akhirnya menyimpan data dalam database yang sesuai.

f. Data Grabbing

Secara bahasa, pengertian data grabbing adalah bagaimana cara kita mengambil data, khususnya untuk dapat dijadikan sebuah dataset.

Dalam hal grabbing atau cara pengambilan data, web scraping adalah metode mengekstraksi data dari situs web.

Scraping (pengikisan) web yang dapat dikatakan sebagai bagian dari seni ilmu komputer dan sebagian sains ini memungkinkan Anda menggali HTML secara terprogram dan mengambil informasi yang Anda butuhkan dan mengubahnya menjadi data terstruktur yang dapat dengan mudah dikonsumsi.

Pengertian UCI Machine Learning Repository, Google API, Tweet Crawl dan JSON

a. Apa itu UCI Machine Learning Repository?

Repositori pembelajaran mesin, atau yang lebih dikenal dengan UCI Machine Learning Repository adalah database masalah pembelajaran mesin yang dapat Anda akses secara gratis.

Ini diselenggarakan dan dikelola oleh Center for Machine Learning and Intelligent Systems at the University of California, Irvine.

Terkait sejarahnya sendiri, pada awalnya ini dibuat oleh David Aha yang pada saat itu merupakan seorang mahasiswa pascasarjana di UC Irvine.

Selama lebih dari 25 tahun telah menjadi tempat tujuan bagi peneliti pembelajaran mesin dan praktisi pembelajaran mesin yang membutuhkan kumpulan data.

b. Apa itu Google API?

Google API adalah kumpulan antarmuka pemrograman aplikasi atau Application Programming Interface (API) yang dikembangkan oleh Google yang memungkinkan kita untuk membangun komunikasi dengan layanan Google (services).

API mematuhi aturan dan metode khusus untuk mengomunikasikan permintaan dan respons dengan jelas.

Kemampuan untuk mengakses data dan sumber daya komputasi sangat meningkatkan efisiensi pengembang.

Dapat dikatakan bahwa jauh lebih mudah menggunakan API daripada membangun setiap program, metode, atau kumpulan data dari awal.

API dibangun dengan mempertimbangkan pengembang dan sering kali tidak menawarkan antarmuka pengguna grafis atau Graphical User Interface (GUI).

Google menawarkan API yang dapat diterapkan ke berbagai bidang dan sector, serta API ini sering digunakan dalam pengembangan web, pembelajaran mesin, ilmu data, dan alur kerja administrasi sistem.

c. Apa itu Tweet Crawl?

Tweet crawl adalah suatu praktik yang mengacu pada pengumpulan data dari situs web Twitter.

Terkait prosesnya sendiri, praktiknya seringkali didukung dengan menggunakan API dari Twitter dan berbagai macam bahasa pemrograman.

Pada analisis teks yang menggunakan data Twitter, crawling merupakan hal yang penting untuk dilakukan.

Sebagai contoh, untuk meng-crawl data twitter, kita bisa menggunakan Official Twitter API dan banyak bahasa pemrograman seperti Python 3 yang hadir dengan banyak library yang berguna (seperti Tweepy), serta pastinya akan memudahkan kita melakukan banyak hal dengannya.

d. Apa itu JSON?

JSON adalah singkatan dari JavaScript Object Notation yang berarti notasi objek JavaScript.

Ini terinspirasi oleh subset dari bahasa pemrograman JS yang berhubungan dengan sintaks literal objek.

JSON adalah agnostik bahasa yang artinya tidak masalah jika Anda tidak menulis kode JavaScript.

Anda dapat menangani data berformat JSON dalam bahasa pemrograman lain.

Sebagai seorang analis data, data engineer, atau ilmuwan data, Anda sering bersentuhan dengan data dalam format JSON, khususnya dalam bidang data science.

Visualisasi Data dalam Data Science

Visualisasi data, khususnya dalam bidang studi ilmu data menyediakan cara yang cepat dan efektif untuk mengkomunikasikan informasi secara universal menggunakan informasi visual.

Praktik ini juga dapat membantu bisnis mengidentifikasi faktor mana yang memengaruhi perilaku pelanggan menentukan area yang perlu ditingkatkan atau membutuhkan lebih banyak perhatian di dalamnya.

Membuat data lebih mudah diingat bagi pemangku kepentingan serta memahami kapan dan di mana menempatkan produk tertentu, dan memprediksi volume penjualan.

Adapun manfaat visualisasi data secara umum adalah sebagai berikut:

  • Kemampuan menyerap informasi dengan cepat, meningkatkan wawasan dan membuat keputusan lebih cepat.
  • Meningkatkan pemahaman tentang langkah-langkah selanjutnya yang harus diambil untuk memperbaiki organisasi.
  • Peningkatan kemampuan untuk mempertahankan minat audiens dengan informasi yang dapat mereka pahami.
  • Distribusi informasi yang mudah yang meningkatkan kesempatan untuk berbagi wawasan dengan semua orang yang terlibat.
  • Menghilangkan kebutuhan ilmuwan data karena data lebih mudah diakses dan dimengerti.
  • Peningkatan kemampuan untuk bertindak berdasarkan temuan dengan cepat dan, oleh karena itu, mencapai kesuksesan dengan kecepatan yang lebih besar dan lebih sedikit kesalahan.

Apa itu Visualisasi Data?

Dikenal dengan istilah data visualization, visualisasi data adalah penyajian data dalam format bergambar atau grafis.

Visualisasi ini memungkinkan pengambil keputusan untuk melihat analitik yang disajikan secara visual, sehingga mereka dapat memahami konsep yang sulit atau mengidentifikasi pola baru.

Dengan visualisasi interaktif, kita dapat mengambil konsep selangkah lebih maju dengan menggunakan teknologi untuk menelusuri bagan dan grafik untuk lebih detail yang secara interaktif mengubah data apa yang Anda lihat dan bagaimana data diproses.

Jenis dan Macam-Macam Grafik Contoh Visualisasi Data

Saat membayangkan tentang visualisasi data, yang kita pikirkan biasanya langsung tertuju pada grafik batang atau diagram lingkaran sederhana.

Memang, meskipun ini mungkin merupakan bagian integral dari memvisualisasikan data dan dasar umum untuk banyak grafik data, visualisasi yang tepat harus dipasangkan dengan kumpulan informasi yang tepat.

Ada banyak pilihan metode visualisasi untuk menyajikan data dengan cara yang efektif dan menarik, di mana jenis umum dari visualisasi data termasuk:

  • Charts
  • Tables
  • Graphs
  • Maps
  • Infographics
  • Dashboards

Terkait form atau bentuknya, contoh metode yang lebih spesifik untuk memvisualisasikan data adalah seperti:

  • Area Chart
  • Bar Chart
  • Box-and-whisker Plots
  • Bubble Cloud
  • Bullet Graph
  • Cartogram
  • Circle View
  • Dot Distribution Map
  • Gantt Chart
  • Heat Map
  • Highlight Table
  • Histogram
  • Matrix
  • Network
  • Polar Area
  • Radial Tree
  • Scatter Plot (2D or 3D)
  • Streamgraph
  • Text Tables
  • Timeline
  • Treemap
  • Wedge Stack Graph
  • Word Cloud

Perintah, Command, dan Cara Menampilkan Grafik di Microsoft Excel dan Bahasa Pemrograman (Python dan R)

Menampilkan data dalam bentuk grafik di Microsoft Excel merupakan hal terpenting yang setidaknya harus diketahui oleh seorang peneliti.

Untuk membuatnya, cukup pilih semua sel tempat Anda memasukkan data, termasuk header Anda.

Klik tab pada bagian atas, “Insert”, klik di area bagan dan kemudian klik jenis grafik yang Anda butuhkan.

Dengan begitu, maka grafik pun kemudian akan muncul di lembar kerja Anda.

Untuk di bahasa pemrograman, sebagai contoh misalnya seperti Python, caranya juga cukup mudah.

Di bawah ini adalah contoh coding atau kode untuk membuat grafik sederhana dengan menggunakan bahasa pemrograman Python.

Gambar Coding Atau Kode Cara Menampilkan Grafik Sederhana Dengan Menggunakan Bahasa Pemrograman Python

Seperti yang kalian lihat, di atas adalah sintaks perintah untuk menampilkan grafik sederhana berbasis bahasa pemrograman Python.

Kemudian, untuk di bahasa pemrograman R, kita dapat melihat contoh dari gambar di bawah ini.

Gambar Coding Atau Kode Cara Menampilkan Grafik Sederhana Dengan Menggunakan Bahasa Pemrograman R

Semantic Web dan Kegunaannya dalam Data Science

Web semantik dan lebih dikenal dengan semantic web pada dasarnya merupakan visi tentang perluasan dari World Wide Web yang ada, yang menyediakan program perangkat lunak dengan metadata yang dapat ditafsirkan mesin dari informasi dan data yang diterbitkan.

Dapat dikatakan bahwa ini merupakan tambahan deskriptor data lebih lanjut ke konten dan data yang ada di web, sehingga komputer mampu membuat interpretasi yang bermakna serupa dengan cara manusia memproses informasi untuk mencapai tujuannya.

Ambisi utama web semantik, sebagaimana yang dilihat oleh pendirinya sendiri yaitu Tim Berners-Lee, adalah memungkinkan komputer untuk memanipulasi informasi dengan lebih baik atas keinginan kita.

Terkait sejarahnya, dia lebih lanjut menjelaskan bahwa, dalam konteks web semantic.

Arti kata “semantic (semantic)” di sini menunjukkan mesin yang dapat diproses atau apa yang dapat dilakukan mesin dengan data.

Sedangkan “web” menyampaikan gagasan tentang ruang yang dapat dinavigasi dari objek yang saling berhubungan dengan pemetaan dari URI ke sumber daya.

Ilustrasi Gambar Dalam Membahas Pengertian Semantik Atau Semantic Web

Jenis-Jenis Sematic Web

Seperti yang sudah kita ketahui, semantic web adalah perpanjangan dari World Wide Web (WWW) melalui standar yang ditetapkan oleh World Wide Web Consortium (W3C).

Disini, metadata yang ditambahkan ke halaman web dapat membuat mesin World Wide Web yang ada membaca sebagai berikut:

  • Schema.org; Ini adalah aktivitas komunitas kolaboratif dengan misi untuk membuat, memelihara, dan mempromosikan skema untuk data terstruktur di Internet, di halaman web, dalam pesan e-mail, dan seterusnya. Lebih dari 10 juta situs menggunakan Schema.org untuk menandai halaman web dan pesan e-mail mereka
  • OWL; W3C Web Ontology Language (OWL) adalah bahasa web semantik yang dirancang untuk mewakili pengetahuan yang kaya dan kompleks tentang berbagai hal, kelompok hal, dan hubungan antara berbagai hal.
  • Ontology; Ontologi mencakup representasi, penamaan formal, serta definisi kategori, properti, dan hubungan antara konsep, data, dan entitas yang mendukung satu, banyak, atau semua domain wacana. Ontology adalah cara untuk menunjukkan properti dari area subjek dan bagaimana mereka terkait, dengan mendefinisikan seperangkat konsep dan kategori yang mewakili subjek. Sebagai contoh misalnya, mereka dapat menggambarkan konsep, hubungan antara entitas, dan kategori dari sesuatu.
  • Triple; Triple adalah satu set tiga entitas yang mengkodifikasi pernyataan tentang data semantik dalam bentuk subjek, predikat, dan objek atau Subject, Predicate and Object (SPO). Sebagai contoh misalnya, dalam kalimat Rifqi memainkan Gitar, di mana subjeknya adalah Rifqi, predikatnya adalah memainkan dan objeknya sendiri adalah gitar.
  • RDF; Resource Description Framework (RDF) adalah model standar untuk pertukaran data dan mengekspresikan data grafik untuk World Wide Web atau WWW. RDF memperluas struktur tautan (link) web untuk menggunakan URI untuk memberi nama hubungan antara hal-hal serta dua ujung tautan (“tiga”). Dengan menggunakan model sederhana ini, maka akan memungkinkan data terstruktur dan semi-terstruktur untuk dicampur, diekspos, dan dibagikan di berbagai aplikasi.
  • RDF Schema (RDFS); Skema atau RDF Schema menyediakan kosakata pemodelan data untuk data RDF. Skema RDF merupakan perpanjangan dari kosakata dasar RDF.
  • RDF Triple Store; Ini merupakan jenis database grafik yang menyimpan fakta semantik.
  • Semantic Reasoner; Juga disebut dengan reasoning engine, rules engine, atau hanya reasoner, ini merupakan software atau perangkat lunak yang dapat menyimpulkan konsekuensi logis dari serangkaian fakta atau aksioma yang ditegaskan. Gagasan tentang alasan semantik menggeneralisasikan mesin inferensi, dengan menyediakan seperangkat mekanisme yang lebih kaya untuk digunakan. Aturan inferensinya biasanya ditentukan melalui bahasa ontology, dan sering kali berbentuk bahasa logika deskripsi.

Secara umum, apa yang ada di balik visi asli web semantik berada di bawah payung 3 (tiga) hal, yaitu otomatisasi pengambilan informasi, Internet of Things (IoT), dan Personal Assistansts.

Namun, seiring berjalannya waktu, konsep tersebut berkembang menjadi hanya 2 (dua) jenis data penting saja, yang secara bersama-sama mengimplementasikan visinya saat ini, mereka adalah Linked Open Data and Semantic Metadata.

Daftar Pustaka

  • Discovering Knowledge in Data : An Introduction to Data Mining; 2005; Daniel T. Larose; Wiley
  • Algoritma Data Mining, 2009, Kusrini dan Emha Taufiq Luthfi, Andi Offset
  • Data Science & Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data; 2015; EMC Education Services; John Wiley & Sons, Inc
  • Web Scraping with Python: Collecting More Data from the Modern Web; Ryan Mitchell; 2018; Ryan Mitchell
  • Python Data Analytics; 2015; Fabio Nelli; Apress
  • Semantic Web for the Working Ontologist, Effective Modeling in RDFS and OWL; Dean Allemang dan Jim Hendler; 2011; Elsevier Inc
  • Testing & Analyzing Computer Algorithms. (2017, April 28). Diakses dari https://study.com/academy/lesson/testing-analyzing-computer-algorithms.html.
  • What Is Data Acquisition (DAQ or DAS)? The Ultimate Guide. (2020, Maret 01). Diakses dari https://dewesoft.com/daq/what-is-data-acquisition
  • Omni Instruments. “Data Logger and Data Acquisition Systems Examples.” Diakses pada Oktober 03, 2021. https://www.omniinstruments.co.uk/data-loggers-and-data-acquisition-systems-examples.html.
  • Omega. “Data Acquisition Systems.” Diakses pada Oktober 03, 2021. https://www.omega.co.uk/prodinfo/dataacquisition.html
  • Data Acquisition. (2018, Februari 01). Diakses dari https://www.techopedia.com/definition/30000/data-acquisition
  • Tableau. “What Is Data Visualization? Definition, Examples, And Learning Resources.” Diakses pada Oktober 05, 2021. https://www.tableau.com/learn/articles/data-visualization
  • Brush Kate. “Data Visualization.” Diakses pada Oktober 06, 2021. https://searchbusinessanalytics.techtarget.com/definition/data-visualization
  • Sas. “Data Visualization.” Diakses pada Oktober 06, 2021. https://www.sas.com/id_id/insights/big-data/data-visualization.html
  • Ontotext. “What Is the Semantic Web?.” Diakses pada Oktober 07, 2021. https://www.ontotext.com/knowledgehub/fundamentals/what-is-the-semantic-web/
  • Vyas Meena. “Semantic Web and its Role in Data Science.” Diakses pada Oktober 07, 2021. https://medium.com/analytics-vidhya/semantic-web-and-its-role-in-data-science-600d6387aef0
  • Belcher, Dan, “What is Performance Regression Testing?” Di akses pada 08 Oktober, 2021. https://www.mabl.com/articles/what-is-performance-regression-testing
  • Katalon, “What is Regression Testing? Definition, Tools & How to Get Started” Di akses pada 08 Oktober, 2021. https://www.katalon.com/resources-center/blog/regression-testing/
  • Statistics How To, “RMSE: Root Mean Square Error” Di akses pada 08 Oktober, 2021. https://www.statisticshowto.com/probability-and-statistics/regression-analysis/rmse-root-mean-square-error/
  • Moody, James, “What Does RMSE Really Mean?” Di akses pada 08 Oktober, 2021. https://towardsdatascience.com/what-does-rmse-really-mean-806b65f2e48e
  • Statistics How To, “Mean Squared Error: Definition And Example” Di akses pada 08 Oktober, 2021. https://www.statisticshowto.com/probability-and-statistics/statistics-definitions/mean-squared-error/
  • Statistics How To, “Absolute Error & Mean Absolute Error (MAE)” Di akses pada 08 Oktober, 2021. https://www.statisticshowto.com/absolute-error/
  • Statistics How To, “Mean Absolute Percentage Error (MAPE)” Di akses pada 08 Oktober, 2021. https://www.statisticshowto.com/mean-absolute-percentage-error-mape/
  • Yildirim, Soner, “How To Best Evaluate A Classification Model” Di akses pada 08 Oktober, 2021. https://towardsdatascience.com/how-to-best-evaluate-a-classification-model-2edb12bcc587
  • ScienceDirect, “Classification Performance” Di akses pada 08 Oktober, 2021. https://www.sciencedirect.com/topics/engineering/classification-performance
  • Zach, “What Is The Rand Index? (Definition & Examples)” Di akses pada 08 Oktober, 2021. https://www.statology.org/rand-index/
  • Wei, Haitian, “How To Measure Clustering Performances When There Are No Ground Truth?” Di akses pada 08 Oktober, 2021. https://medium.com/@haataa/how-to-measure-clustering-performances-when-there-are-no-ground-truth-db027e9a871c
  • USGS, “What Are The Differences Between Data, A Dataset, And A Database?” Di akses pada 08 Oktober, 2021. https://www.usgs.gov/faqs/what-are-differences-between-data-a-dataset-and-a-database?qt-news_science_products=0#qt-news_science_products
  • Aryal, Sagar, “Data And Its Types” Di akses pada 08 Oktober, 2021. https://microbenotes.com/data-and-its-types/
  • Byjus, “Data Sets” Di akses pada 08 Oktober, 2021. https://byjus.com/maths/data-sets/
  • Omnisci, “Data Quality” Di akses pada 08 Oktober, 2021. https://www.omnisci.com/technical-glossary/data-quality
  • MonkeyLearn, “What Is Data Preprocessing & What Are The Steps Involved?” Di akses pada 08 Oktober, 2021. https://monkeylearn.com/blog/data-preprocessing/
  • Purestorage, “What Is Data Reduction?” Di akses pada 08 Oktober, 2021. https://www.purestorage.com/knowledge/what-is-data-reduction.html
  • Takimoglu, Aysegul, “What Is Data Augmentation? Techniques, Benefit And Examples” Di akses pada 08 Oktober, 2021. https://research.aimultiple.com/data-augmentation/
  • Trifacta, “What Is Data Transformation?” Di akses pada 10 Oktober, 2021. https://www.trifacta.com/data-transformation/
  • Kerle, India, “What Is Data Public?” Di akses pada 10 Oktober, 2021. https://enigma.com/blog/post/what-is-public-data
  • Google Cloud, “BigQuery Public Datasets” Di akses pada 10 Oktober, 2021. https://cloud.google.com/bigquery/public-data
  • Brownlee, Jason, “Practice Machnine Learning With Datasets From The UCI Machine Learning Repository” Di akses pada 10 Oktober, 2021. https://machinelearningmastery.com/practice-machine-learning-with-small-in-memory-datasets-from-the-uci-machine-learning-repository/

Kesimpulan

Oke, di atas adalah Makalah tentang Pengujian Algoritma, Akuisisi dan Visualisasi Data serta Semantic Web Lengkap + Link Downloadnya dari berbagai sumber.

Seperti yang dapat kalian lihat di atas, ilmuan data secara umum minimal harus memahami istilah-istilah dan langkah-langkah di atas, khususnya dalam melakukan praktik pengolahan data.

Kalian tentunya dapat menggunakan makalah ini untuk keperluan belajar-mengajar kalian di sekolah, kampus atau universitas.

Terkait pembahasan ini, jika kalian ingin lebih mempelajari mengenai data science, saran Kami pribadi kalian dapat langsung mengunjungi Situs Towards Data Science.

Bagi kalian yang memerlukan file mentah makalah tentang pengujian algoritma, akuisisi dan visualisasi data serta semantik atau semantic web (original) tanpa gaya bahasa yang sudah disesuaikan dengan website Kami, berupa format dokumen Ms. Office Word, silahkan kalian download tanpa perlu copy-paste dengan menggunakan tombol di bawah ini:

Penutup

Demikianlah postingan artikel yang dapat Kami bagikan kali ini tentang Makalah tentang Pengujian Algoritma, Akuisisi dan Visualisasi Data serta Semantic Web Lengkap + Link Downloadnya.

Semoga apa yang sudah Kami coba sampaikan serta jelaskan di sini dapat bermanfaat dan juga dapat menambah wawasan dan pengetahuan kita semua terutama dalam bidang teknologi dan bisnis serta pengetahuan ilmiah terkait bisnis.

Silahkan bagikan artikel atau postingan Kami di sini kepada teman, kerabat serta rekan kerja dan bisnis kalian semua khususnya jika kalian temukan ini bermanfaat dan juga jangan lupa subscribe Blog dan YouTube Kami. Sekian dari Kami, Terima Kasih.

Postingan ini juga tersedia dalam versi:


Lihat Juga

rifqimulyawan.com menggunakan cookies untuk meningkatkan kebergunaan pengguna.