Belajar Data Science Lengkap
Disini kita akan belajar data science dasar, namun lengkap. mencakup
- import data
- penanganan data
- analisis
- visualisasi data
Ada keinginan apa yang ada di video ini akan saya buat ebook berbaghasa Indonesia.
Cekidot …
Disini kita akan belajar data science dasar, namun lengkap. mencakup
Ada keinginan apa yang ada di video ini akan saya buat ebook berbaghasa Indonesia.
Cekidot …
Saya mempunyai beberapa file markdown yang ingin saya satukan ke dalam satu file. Berikut skripnya:
1 2 3 4 5 6 | import glob read_files = glob.glob("*.md") with open("result.md", "wb") as outfile: for f in read_files: with open(f, "rb") as infile: outfile.write(infile.read()) |
Skrip Python ini menggunakan modul glob
untuk mencari file-file dengan ekstensi .md
dalam direktori kerja saat ini. Setelah itu, skrip membuka file dengan nama “result.txt” untuk menulis (mode “wb” atau write binary).
Selanjutnya, skrip menggunakan loop for
untuk membaca setiap file yang telah ditemukan oleh glob
dan menggabungkannya ke dalam file “result.md”. Ini dilakukan dengan membuka setiap file yang ditemukan dalam mode baca binary (“rb”) dan menuliskan isinya ke dalam file “result.md” menggunakan metode write()
pada objek file keluaran.
Mari kita bahas baris per baris:
import glob
: Mengimpor modul glob
yang menyediakan fungsi untuk mencocokkan pola dan mencari file dalam direktori.read_files = glob.glob("*.md")
: Menggunakan fungsi glob.glob()
untuk mencocokkan semua file dengan ekstensi .md
dalam direktori kerja saat ini. Hasilnya disimpan dalam variabel read_files
, yang berisi daftar nama file yang sesuai.with open("result.md", "wb") as outfile:
: Membuka file dengan nama “result.md” dalam mode write binary (“wb”). Ini digunakan untuk menulis data dalam mode biner.for f in read_files:
: Memulai loop for
untuk setiap file yang ditemukan.with open(f, "rb") as infile:
: Membuka setiap file dalam mode read binary (“rb”). File ini akan dibaca.outfile.write(infile.read())
: Membaca seluruh konten dari file yang dibuka (infile.read()
) dan menulisnya ke dalam file “result.md” yang juga telah dibuka sebelumnya (outfile.write()
).Dengan demikian, skrip ini menggabungkan isi semua file Markdown dengan ekstensi “.md” dalam direktori kerja ke dalam satu file yang disebut “result.md”.
Ketika pandas melakukan pembacaan data dari excel atau CSV, sering kali pada nama kolom dan data terdapat spasi atau karakter tak terlihat pada sebelum dan sesudahnya.
Dan ini sangat merepotkan data scientis, karena ketika memanggil df[‘nama’] ternyata data tidak muncul hanya karena spasi sehingga baru muncul ketika dipanggil dengan df[‘nama ‘]. Sangat mengganggu. Oleh sebab itu harus dilakukan 2 langkah untuk memebereskan hal ini.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 | # Import Library import pandas as pd # open file from excel to dataframe file = "sample_data/STUDI KASUS - SIMULASI RETAIL.xlsx" df = pd.read_excel(file, sheet_name=0) # Membuang spasi sebelum dan sesudah nilai # strip columns df.rename(columns=lambda x: x.strip(), inplace=True) # strip data value yang tipenya object/string df_obj = df.select_dtypes(['object']) df[df_obj.columns] = df_obj.apply(lambda x: x.str.strip()) # dari df[df['Tanggal_Pembelian '] == ' 2022-01-03 '] menjadi df[df['Tanggal_Pembelian'] == '2022-01-03'] |
Masih seperti sebelumnya, ini adalah cara paling praktis untuk melakukan konversi Excel ke SQLite menggunakan google Collabs
1 2 3 | # mount drive from google.colab import drive drive.mount('/content/drive') |
#import library import pandas as pd import sqlite3 #open file from excel to dataframe file = "/content/drive/MyDrive/Colab Notebooks/STUDI KASUS - SIMULASI RETAIL.xlsx" df = pd.read_excel(file, sheet_name=0) #create database and connect it database = "/content/drive/MyDrive/Colab Notebooks/retail_fromxlsx.sqlite3" conn = sqlite3.connect(database) #save data to sqlite df.to_sql(name='retail', con=conn) conn.close() |
Melihat kawan saya mendemonstrasikan konversi dari excel ke SQLite dengan bahasa R, membuat saya cukup iri. mestinya Python juga bisa. Dan ternyata bisa juga hanya dengan beberapa baris perintah.
Mekanismenya begini,
Excel -> Pandas -> SQLite
Hebatnya, kita hanya menentukan nama databasenya, nama tabelnya, lalu dia sendiri yang akan menentukan kolom-kolomnya dan memasukkan data ke tabel. Serba otomatis.
Begini skripnya
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #import library import pandas as pd import sqlite3 #open file from excel to dataframe file = "STUDI KASUS - DATA PENJUALAN_REV.xlsx" df = pd.read_excel(file, sheet_name=0) #create database and connect it database = "penjualandb.sqlite3" conn = sqlite3.connect(database) #save data to sqlite df.to_sql(name='penjualan', con=conn) conn.close() |