Mendapatkan data dengan benar adalah langkah pertama dalam proyek AI atau pembelajaran mesin apa pun -- dan seringkali lebih memakan waktu dan kompleks daripada membuat algoritme pembelajaran mesin itu sendiri. Perencanaan lanjutan untuk membantu merampingkan dan meningkatkan persiapan data dalam pembelajaran mesin dapat menghemat banyak pekerjaan di masa mendatang . Ini juga dapat menghasilkan algoritma yang lebih akurat dan mudah beradaptasi.

"Persiapan data adalah tindakan mengumpulkan data yang Anda butuhkan, mengolahnya menjadi format yang dapat dibaca dan dimengerti komputer, dan mengajukan pertanyaan sulit untuk memeriksa kelengkapan dan biasnya," kata Eli Finkelshteyn, pendiri dan CEO Konstruktor. io, yang membuat mesin pencari berbasis AI untuk situs web produk.

Sangat menggoda untuk hanya fokus pada data itu sendiri, tetapi sebaiknya pertimbangkan terlebih dahulu masalah yang ingin Anda pecahkan . Itu dapat membantu menyederhanakan pertimbangan tentang jenis data yang akan dikumpulkan, bagaimana memastikannya sesuai dengan tujuan yang diinginkan dan bagaimana mengubahnya ke dalam format yang sesuai untuk jenis algoritme tertentu.

Persiapan data yang baik dapat menghasilkan algoritme yang lebih akurat dan efisien , sekaligus mempermudah untuk beralih ke masalah analitik baru, beradaptasi saat akurasi model menurun, dan menghemat banyak waktu dan upaya para ilmuwan data dan pengguna bisnis.

Pentingnya persiapan data dalam pembelajaran mesin

"Menjadi ilmuwan data yang hebat seperti menjadi koki yang hebat," duga Donncha Carroll, mitra di konsultan Axiom Consulting Partners. "Untuk membuat makanan yang luar biasa, Anda harus membangun pemahaman yang mendetail tentang setiap bahan dan memikirkan bagaimana mereka akan saling melengkapi untuk menghasilkan hidangan yang seimbang dan mudah diingat. Untuk ilmuwan data, proses penemuan ini menciptakan pengetahuan yang dibutuhkan untuk memahami lebih lanjut. hubungan yang kompleks, apa yang penting dan apa yang tidak, dan bagaimana menyesuaikan pendekatan persiapan data yang diperlukan untuk meletakkan dasar bagi model ML yang hebat."

Manajer perlu menghargai cara data membentuk pengembangan aplikasi pembelajaran mesin secara berbeda dibandingkan dengan pengembangan aplikasi biasa . "Tidak seperti pemrograman berbasis aturan tradisional, pembelajaran mesin terdiri dari dua bagian yang membentuk algoritme akhir yang dapat dieksekusi -- algoritme ML itu sendiri dan data untuk dipelajari," jelas Felix Wick, wakil presiden perusahaan ilmu data di platform manajemen rantai pasokan. penyedia Blue Yonder. "Tetapi data mentah seringkali tidak siap untuk digunakan dalam model ML. Jadi, persiapan data adalah inti dari ML."


Langkah-langkah penting persiapan data

Persiapan data terdiri dari beberapa langkah, yang menghabiskan lebih banyak waktu daripada aspek lain dari pengembangan aplikasi pembelajaran mesin. Sebuah studi tahun 2021 oleh vendor platform ilmu data Anaconda menemukan bahwa ilmuwan data menghabiskan rata-rata 22% waktu mereka untuk persiapan data, yang lebih banyak daripada waktu rata-rata yang dihabiskan untuk tugas-tugas lain seperti menerapkan model, pelatihan model, dan membuat visualisasi data.

Meskipun merupakan proses yang memakan waktu, ilmuwan data harus memperhatikan berbagai pertimbangan saat menyiapkan data untuk pembelajaran mesin. Berikut adalah enam langkah kunci yang merupakan bagian dari proses.


1. Rumusan masalah

Persiapan data untuk membuat model pembelajaran mesin lebih dari sekadar membersihkan dan menyusun data. Dalam banyak kasus, akan sangat membantu untuk memulai dengan mundur dari data untuk memikirkan masalah mendasar yang ingin Anda pecahkan. "Untuk membangun model ML yang sukses," saran Carroll, "Anda harus mengembangkan pemahaman yang mendetail tentang masalah untuk menginformasikan apa yang Anda lakukan dan bagaimana Anda melakukannya."

Mulailah dengan menghabiskan waktu dengan orang-orang yang beroperasi dalam domain dan memiliki pemahaman yang baik tentang ruang masalah, mensintesis apa yang Anda pelajari melalui percakapan dengan mereka dan menggunakan pengalaman Anda untuk membuat serangkaian hipotesis yang menggambarkan faktor dan kekuatan yang terlibat. Langkah sederhana ini sering dilewati atau kurang diinvestasikan, kata Carroll, meskipun itu dapat membuat perbedaan yang signifikan dalam memutuskan data apa yang akan diambil. Ini juga dapat memberikan panduan yang berguna tentang bagaimana data harus diubah dan disiapkan untuk model pembelajaran mesin.

Klien hukum Axiom, misalnya, ingin mengetahui bagaimana berbagai elemen penyampaian layanan memengaruhi retensi dan pertumbuhan akun. Tim Carroll bekerja sama dengan para pengacara untuk mengembangkan hipotesis bahwa akun yang dilayani oleh profesional hukum yang berpengalaman dalam industri mereka cenderung lebih bahagia dan bertahan sebagai klien lebih lama. Untuk memberikan informasi tersebut sebagai masukan ke model pembelajaran mesin, mereka melihat kembali perjalanan karir masing-masing profesional dan menggunakan data penagihan untuk menentukan berapa banyak waktu yang mereka habiskan untuk melayani klien di industri tersebut.

"Pada akhirnya," Carroll menambahkan, "itu menjadi salah satu prediktor paling penting dari retensi klien dan sesuatu yang tidak akan pernah kami hitung tanpa menghabiskan waktu di muka untuk memahami apa yang penting dan bagaimana hal itu penting."


2. Pengumpulan dan penemuan data

Setelah tim ilmu data merumuskan masalah pembelajaran mesin yang harus dipecahkan, tim tersebut perlu menginventarisasi sumber data potensial di dalam perusahaan dan dari pihak ketiga eksternal. Proses pengumpulan data harus mempertimbangkan tidak hanya apa yang dimaksudkan untuk diwakili oleh data , tetapi juga mengapa data itu dikumpulkan dan apa artinya, terutama bila digunakan dalam konteks yang berbeda. Penting juga untuk mempertimbangkan faktor-faktor yang mungkin membuat data menjadi bias .

"Untuk mengurangi dan mengurangi bias dalam model pembelajaran mesin," kata Sophia Yang, ilmuwan data senior di Anaconda, "ilmuwan data perlu bertanya pada diri sendiri di mana dan bagaimana data dikumpulkan untuk menentukan apakah ada bias signifikan yang mungkin telah ditangkap. " Untuk melatih model pembelajaran mesin yang memprediksi perilaku pelanggan, misalnya, melihat data dan memastikan kumpulan data dikumpulkan dari beragam orang, wilayah geografis, dan perspektif.

"Langkah paling penting yang sering terlewatkan dalam persiapan data untuk pembelajaran mesin adalah mengajukan pertanyaan kritis tentang data yang secara teknis terlihat benar," kata Finkelshteyn. Selain menyelidiki bias, dia merekomendasikan untuk menentukan apakah ada alasan untuk percaya bahwa data penting yang hilang dapat mengarah pada gambaran parsial dari analisis yang dilakukan. Dalam beberapa kasus, tim analitik menggunakan data yang berfungsi secara teknis tetapi menghasilkan hasil yang tidak akurat atau tidak lengkap , dan orang yang menggunakan model yang dihasilkan membangun pembelajaran yang salah ini tanpa mengetahui ada yang salah.

Menyiapkan data untuk model pembelajaran mesin


3. Eksplorasi data

Ilmuwan data perlu sepenuhnya memahami data yang mereka kerjakan di awal proses untuk mengembangkan wawasan tentang makna dan penerapannya. "Kesalahan umum adalah meluncurkan ke pembuatan model tanpa meluangkan waktu untuk benar-benar memahami data yang Anda perdebatkan," kata Carroll.

Eksplorasi data berarti meninjau hal-hal seperti jenis dan distribusi data yang terkandung dalam setiap variabel, hubungan antar variabel dan bagaimana variasinya relatif terhadap hasil yang Anda prediksi atau ingin dicapai.

Langkah ini dapat menyoroti masalah seperti kolinearitas -- variabel yang bergerak bersama -- atau situasi di mana standarisasi kumpulan data dan transformasi data lainnya diperlukan. Ini juga dapat memunculkan peluang untuk meningkatkan kinerja model, seperti mengurangi dimensi kumpulan data.

Visualisasi data juga dapat membantu meningkatkan proses ini . "Ini mungkin tampak seperti langkah tambahan yang tidak diperlukan," tebak Yang, "tetapi otak kita hebat dalam mengenali pola bersama dengan data yang tidak cocok dengan pola itu." Ilmuwan data dapat dengan mudah melihat tren dan menjelajahi data dengan benar dengan membuat visualisasi yang sesuai sebelum menarik kesimpulan. Alat visualisasi data populer termasuk Tableau, Microsoft Power BI, D3.js dan perpustakaan Python seperti Matplotlib, Bokeh dan tumpukan HoloViz.


4. Pembersihan dan validasi data

Berbagai teknik pembersihan dan validasi data dapat membantu tim analitik mengidentifikasi dan memperbaiki inkonsistensi, outlier, anomali, data yang hilang, dan masalah lainnya. Nilai data yang hilang, misalnya, seringkali dapat diatasi dengan alat imputasi yang mengisi bidang kosong dengan pengganti yang relevan secara statistik.

Tetapi Blue Yonder's Wick memperingatkan bahwa makna semantik adalah aspek yang sering diabaikan dari data yang hilang. Dalam banyak kasus, membuat kategori khusus untuk menangkap pentingnya nilai yang hilang dapat membantu. Di tempat lain, tim dapat mempertimbangkan secara eksplisit menetapkan nilai yang hilang sebagai netral untuk meminimalkan dampaknya pada model pembelajaran mesin.

Berbagai macam alat komersial dan sumber terbuka dapat digunakan untuk membersihkan dan memvalidasi data untuk pembelajaran mesin dan memastikan kualitas data yang baik . Teknologi open source seperti Great Expectations dan Pandera, misalnya, dirancang untuk memvalidasi kerangka data yang biasa digunakan untuk mengatur data analitik ke dalam tabel dua dimensi. Alat yang memvalidasi kode dan alur kerja pemrosesan data juga tersedia. Salah satunya adalah pytest, yang, kata Yang, dapat digunakan ilmuwan data untuk menerapkan pola pikir pengujian unit pengembangan perangkat lunak dan menulis pengujian alur kerja mereka secara manual.


5. Penataan data

Setelah tim ilmu data puas dengan data mereka , mereka perlu mempertimbangkan algoritme pembelajaran mesin yang digunakan. Sebagian besar algoritme, misalnya, bekerja lebih baik saat data dipecah menjadi beberapa kategori, seperti rentang usia, daripada dibiarkan sebagai angka mentah.

Dua trik preprocessing data yang sering terlewatkan, kata Wick, adalah fitur data binning dan smoothing continuous. Metode regularisasi data ini dapat mengurangi varians model pembelajaran mesin dengan mencegahnya disesatkan oleh fluktuasi statistik kecil dalam kumpulan data.

Binning data ke dalam kelompok yang berbeda dapat dilakukan dengan cara yang sama, dengan "lebar" yang sama untuk setiap bin, atau metode equi-statistik, dengan jumlah sampel yang kira-kira sama di setiap bin. Ini juga dapat berfungsi sebagai prasyarat untuk pengoptimalan lokal data di setiap nampan untuk membantu menghasilkan model pembelajaran mesin dengan bias rendah .

Menghaluskan fitur berkelanjutan dapat membantu dalam "menghilangkan" data mentah. Ini juga dapat digunakan untuk memaksakan asumsi kausal tentang proses pembuatan data dengan mewakili hubungan dalam kumpulan data yang dipesan sebagai fungsi monoton yang mempertahankan urutan di antara elemen data.


Tindakan lain yang sering dilakukan ilmuwan data dalam menyusun data untuk pembelajaran mesin meliputi: reduksi data , melalui teknik seperti pengambilan sampel atribut atau rekaman dan agregasi data; normalisasi data, yang meliputi pengurangan dimensi dan penskalaan ulang data; dan membuat kumpulan data terpisah untuk pelatihan dan pengujian model pembelajaran mesin.


6. Rekayasa dan seleksi fitur

Tahap terakhir dalam persiapan data sebelum mengembangkan model pembelajaran mesin adalah rekayasa fitur dan pemilihan fitur. Wick mengatakan rekayasa fitur, yang melibatkan penambahan atau pembuatan variabel baru untuk meningkatkan keluaran model, adalah keahlian utama ilmuwan data dan hadir dalam berbagai bentuk . Contohnya termasuk mengekstraksi hari dalam seminggu atau variabel lain dari kumpulan data, menguraikan variabel menjadi fitur terpisah, menggabungkan variabel, dan mengubah fitur berdasarkan distribusi probabilitas.

Ilmuwan data juga harus menangani pemilihan fitur -- memilih fitur yang relevan untuk dianalisis dan menghilangkan fitur yang tidak relevan. Banyak fitur yang mungkin terlihat menjanjikan tetapi menimbulkan masalah seperti pelatihan model yang diperluas dan overfitting, yang membatasi kemampuan model untuk menganalisis data baru secara akurat. Metode seperti regresi laso dan penentuan relevansi otomatis dapat membantu pemilihan fitur.


sumber : https://searchbusinessanalytics-techtarget-com.

 Copyright stekom.ac.id 2018 All Right Reserved