pandas – Catatan Cak Edy

Data Science 1: Data Manipulation

22/09/2023 / Leave a Comment

Kemarin membeli 2 Text BookData Science. Data Science From Stratch dan Data Science Hand Book. Menurut saya buku tetap penting walaupun saya sudah mengikuti kursus di Kodio.

Data Science Hand Book bisa menjadi semacam Kamus, yang bahkan bisa dibuka sambil leyeh-leyeh.

Memang ada beberapa tahap dalam serial data Science ini.

Manipulasi Data yang melibatkan library Numpy dan Pandas
Visualisasi data yang melibatkan library Matplotlib dan Seaborn
Machine Learning
Web Interface dg library Flask atau Django. Khusus terakhir ini saya tambahkan sendiri

Saya sudah mempelajari bagian manipulasi data sampai akhir dengan DataFrame. Sebenarnya mirip Query database tapi kelebihannya yang diquery adalah DataFrame yang dihasilkan diantaranya dengan pembacaan data dari CSV, jadi tidak harus dari table yang kaku itu.

Fungsi-fungsi dalam dataframe juga lebih luas. Bukan sekedar query, namun ditambah fungsi-fungsi statistik dan pengolahan data.

Kelemahannya query data tidak semudah SQL. Fungsi-fungsi dalam DataFrame terlalu buanyak. Kalau tidak sering digunakan pasti akan sulit untuk professional.

Tapi saya kesulitan menterjemahkan query data ke DataFrame. Tapi mendadak saya ingat bahwa ada engine cerdas yang bernama chatgpt. Saya coba bertanya:

“Terjemahkan perintah sql tersebut dibawah ini dengan fungsi pandas SELECT country, (count(country)) / 100 as percent FROM data GROUP BY country“

Dan dijawab:

import pandas as pd

# Mengimpor data ke dalam DataFrame
data = pd.read_csv('nama_file.csv')  # Gantilah 'nama_file.csv' dengan nama file yang sesuai

# Menghitung jumlah entri per negara
country_counts = data['country'].value_counts().reset_index()
country_counts.columns = ['country', 'count']

# Menghitung persentase
total_entries = len(data)
country_counts['percent'] = (country_counts['count'] / total_entries) * 100

print(country_counts)

Besuk-besuk kalau kesulitan bisa minta tolong ChatGPT hahaha