Belajar Data Science Lengkap
Disini kita akan belajar data science dasar, namun lengkap. mencakup
- import data
- penanganan data
- analisis
- visualisasi data
Ada keinginan apa yang ada di video ini akan saya buat ebook berbaghasa Indonesia.
Cekidot …
Disini kita akan belajar data science dasar, namun lengkap. mencakup
Ada keinginan apa yang ada di video ini akan saya buat ebook berbaghasa Indonesia.
Cekidot …
Saya mempunyai beberapa file markdown yang ingin saya satukan ke dalam satu file. Berikut skripnya:
import glob
read_files = glob.glob("*.md")
with open("result.md", "wb") as outfile:
for f in read_files:
with open(f, "rb") as infile:
outfile.write(infile.read())
Skrip Python ini menggunakan modul glob untuk mencari file-file dengan ekstensi .md dalam direktori kerja saat ini. Setelah itu, skrip membuka file dengan nama “result.txt” untuk menulis (mode “wb” atau write binary).
Selanjutnya, skrip menggunakan loop for untuk membaca setiap file yang telah ditemukan oleh glob dan menggabungkannya ke dalam file “result.md”. Ini dilakukan dengan membuka setiap file yang ditemukan dalam mode baca binary (“rb”) dan menuliskan isinya ke dalam file “result.md” menggunakan metode write() pada objek file keluaran.
Mari kita bahas baris per baris:
import glob: Mengimpor modul glob yang menyediakan fungsi untuk mencocokkan pola dan mencari file dalam direktori.read_files = glob.glob("*.md"): Menggunakan fungsi glob.glob() untuk mencocokkan semua file dengan ekstensi .md dalam direktori kerja saat ini. Hasilnya disimpan dalam variabel read_files, yang berisi daftar nama file yang sesuai.with open("result.md", "wb") as outfile:: Membuka file dengan nama “result.md” dalam mode write binary (“wb”). Ini digunakan untuk menulis data dalam mode biner.for f in read_files:: Memulai loop for untuk setiap file yang ditemukan.with open(f, "rb") as infile:: Membuka setiap file dalam mode read binary (“rb”). File ini akan dibaca.outfile.write(infile.read()): Membaca seluruh konten dari file yang dibuka (infile.read()) dan menulisnya ke dalam file “result.md” yang juga telah dibuka sebelumnya (outfile.write()).Dengan demikian, skrip ini menggabungkan isi semua file Markdown dengan ekstensi “.md” dalam direktori kerja ke dalam satu file yang disebut “result.md”.
Ketika pandas melakukan pembacaan data dari excel atau CSV, sering kali pada nama kolom dan data terdapat spasi atau karakter tak terlihat pada sebelum dan sesudahnya.
Dan ini sangat merepotkan data scientis, karena ketika memanggil df[‘nama’] ternyata data tidak muncul hanya karena spasi sehingga baru muncul ketika dipanggil dengan df[‘nama ‘]. Sangat mengganggu. Oleh sebab itu harus dilakukan 2 langkah untuk memebereskan hal ini.
# Import Library
import pandas as pd
# open file from excel to dataframe
file = "sample_data/STUDI KASUS - SIMULASI RETAIL.xlsx"
df = pd.read_excel(file, sheet_name=0)
# Membuang spasi sebelum dan sesudah nilai
# strip columns
df.rename(columns=lambda x: x.strip(), inplace=True)
# strip data value yang tipenya object/string
df_obj = df.select_dtypes(['object'])
df[df_obj.columns] = df_obj.apply(lambda x: x.str.strip())
# dari df[df['Tanggal_Pembelian '] == ' 2022-01-03 '] menjadi
df[df['Tanggal_Pembelian'] == '2022-01-03']
Masih seperti sebelumnya, ini adalah cara paling praktis untuk melakukan konversi Excel ke SQLite menggunakan google Collabs
# mount drive
from google.colab import drive
drive.mount('/content/drive')
#import library
import pandas as pd
import sqlite3
#open file from excel to dataframe
file = "/content/drive/MyDrive/Colab Notebooks/STUDI KASUS - SIMULASI RETAIL.xlsx"
df = pd.read_excel(file, sheet_name=0)
#create database and connect it
database = "/content/drive/MyDrive/Colab Notebooks/retail_fromxlsx.sqlite3"
conn = sqlite3.connect(database)
#save data to sqlite
df.to_sql(name='retail', con=conn)
conn.close()
Melihat kawan saya mendemonstrasikan konversi dari excel ke SQLite dengan bahasa R, membuat saya cukup iri. mestinya Python juga bisa. Dan ternyata bisa juga hanya dengan beberapa baris perintah.
Mekanismenya begini,
Excel -> Pandas -> SQLite
Hebatnya, kita hanya menentukan nama databasenya, nama tabelnya, lalu dia sendiri yang akan menentukan kolom-kolomnya dan memasukkan data ke tabel. Serba otomatis.
Begini skripnya
#import library
import pandas as pd
import sqlite3
#open file from excel to dataframe
file = "STUDI KASUS - DATA PENJUALAN_REV.xlsx"
df = pd.read_excel(file, sheet_name=0)
#create database and connect it
database = "penjualandb.sqlite3"
conn = sqlite3.connect(database)
#save data to sqlite
df.to_sql(name='penjualan', con=conn)
conn.close()