Library Pandas
Dalam Pandas, dipelajari cara mengelola dan menganalisis data dengan DataFrame dan Series. Fokusnya meliputi: Membaca dan Menulis Data dari berbagai format seperti CSV, Excel, SQL, dll. Manipulasi Data seperti Filtering, grouping, merging, pivoting, dan reshaping. Pembersihan Data, Menangani missing values, duplikasi, dan format data. Analisis Statistik seperti Perhitungan deskriptif seperti mean, median, dan korelasi.
Cara Menginstall pandas
Pandas dapat diinstall dengan package manager pip. Jalankan perintah berikut di Terminal atau CMD untuk menginstal Pandas:
pip install pandas
Cara Menggunakan pandas
Numpy harus kita impor dulu agar bisa digunakan di dalam program. Contoh:
import pandas as pd
Library Pandas memiliki dua tipe struktur data untuk versi terbaru yaitu Series dan Data Frame serta satu deprecated struktur data yaitu Panel (deprecated).
Series diibaratkan sebagai array satu dimensi sama halnya dengan numpy array, hanya bedanya mempunyai index dan kita dapat mengontrol index dari setiap elemen tersebut. Sedangkan data frame merupakan array dua dimensi dengan baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data dalam bentuk tabel/data tabular.
Dapat disimpulkan, bahwa Pandas merupakan library analisis data yang diperlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang bisa untuk diolah.
Series diibaratkan sebagai array satu dimensi sama halnya dengan numpy array, hanya bedanya mempunyai index dan index tersebut dapat kita kontrol dari setiap elemen tersebut.
Parameter data, diisi dengan data yang akan dibuat series. Struktur data yang bisa ditampung berupa integer, float, dan juga string. parameter index, diisi dengan index dari series. Jumlah index harus sama dengan jumlah data. Jika kita tidak mengisi parameter index, maka series akan memiliki index integer seperti halnya array biasa. Parameter dtype, diisi dengan tipe data dari series, dan parameter copy untuk copy data, secara default akan bernilai false.
pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
Karena kesederhanaan dan kompatibilitasnya, file CSV menjadi pilihan ideal untuk bertukar data antar berbagai jenis software, aplikasi, dan database. Karena itu, penting bagi data analyst untuk menguasai cara mengolah file CSV, termasuk cara membacanya di Python. Dalam Python, file CSV bisa dibaca menggunakan library Pandas. Menggunakan Pandas Python untuk membaca file CSV, kita bisa mengimpor data besar sekaligus memahami pola dan tren dari data.
File CSV (Comma-Separated Values) adalah format file yang digunakan untuk menyimpan data tabular, seperti spreadsheet atau database. Struktur dasar dari file CSV terdiri dari baris, di mana setiap baris mewakili sebuah record atau entri. Setiap record dibagi menjadi bidang yang dipisahkan oleh koma. Baris pertama biasanya berfungsi sebagai header yang mencantumkan nama kolom.
Salah satu alasan mengapa file CSV menjadi pilihan populer di kalangan data analyst adalah karena efisiensi dan kesederhanaannya dalam menyimpan dan bertukar data tabular. File CSV mudah dibuka, dibaca, dan diedit dengan berbagai software, termasuk spreadsheet seperti
Microsoft Excel atau bahasa pemrograman seperti Python. Untuk membaca file dalam format CSV, terutama dalam konteks analisis data dan manipulasi data tabular, kamu dapat menggunakan Pandas dalam Python. Pandas adalah library open-source yang menyediakan struktur data dan alat analisis data secara fleksibel sekaligus efisien, termasuk dukungan bawaan untuk membaca dan menulis file CSV.
Berikut beberapa contoh situasi pentingnya membaca file CSV:
Mengimpor data dari spreadsheet: banyak perusahaan menyimpan data dalam spreadsheet. Dengan menggunakan Pandas Python, kamu dapat lebih mudah mengimpor data tersebut ke dalam environment pemrogramanmu. Proses ini memungkinkan kamu menggabungkan kekuatan analisis data Python dengan data yang sudah ada.
Migrasi data antara database: jika kamu perlu memindahkan data antara sistem database yang berbeda, format CSV sering kali menjadi pilihan universal yang dapat diterima oleh hampir semua sistem. Kamu dapat mengekspor data ke CSV dari sistem asal lalu membacanya dalam Pandas untuk memproses atau mengimpor ke sistem tujuan.
Pengolahan data dari sensor atau perangkat IoT: data dari sensor atau perangkat IoT juga sering disimpan dalam format CSV untuk analisis. Kamu dapat membaca file tersebut dalam Pandas untuk analisis real-time, pengolahan sinyal, atau pemodelan prediktif. Penggabungan data dari sumber berbeda: jika kamu memiliki data yang berasal dari sumber berbeda dan disimpan dalam format CSV, kamu dapat membaca semua file ini dan menggabungkannya menjadi satu set data yang kohesif untuk analisis.
Pra-pemrosesan untuk machine learning: dalam pembuatan model machine learning, diperlukan penggabungan, pembersihan, dan transformasi data dari berbagai sumber. Format CSV berguna untuk menyimpan data mentah dan dapat dibaca untuk melakukan pra-pemrosesan sebelum pelatihan model.
Visualisasi data: untuk membuat visualisasi data yang kompleks, kamu mungkin perlu mengakses data yang disimpan dalam file CSV. Pandas memudahkan pembacaan dan manipulasi data ini, sekaligus terintegrasi dengan library visualisasi seperti Matplotlib dan Seaborn.
Analisis data finansial: data pasar saham, transaksi finansial, atau data ekonomi lainnya sering tersedia dalam format CSV. Kamu dapat membaca data ini untuk analisis tren, analisis risiko, atau pembuatan strategi perdagangan.
Last updated