Ketika pandas melakukan pembacaan data dari excel atau CSV, sering kali pada nama kolom dan data terdapat spasi atau karakter tak terlihat pada sebelum dan sesudahnya.
Dan ini sangat merepotkan data scientis, karena ketika memanggil df[‘nama’] ternyata data tidak muncul hanya karena spasi sehingga baru muncul ketika dipanggil dengan df[‘nama ‘]. Sangat mengganggu. Oleh sebab itu harus dilakukan 2 langkah untuk memebereskan hal ini.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 | # Import Library import pandas as pd # open file from excel to dataframe file = "sample_data/STUDI KASUS - SIMULASI RETAIL.xlsx" df = pd.read_excel(file, sheet_name=0) # Membuang spasi sebelum dan sesudah nilai # strip columns df.rename(columns=lambda x: x.strip(), inplace=True) # strip data value yang tipenya object/string df_obj = df.select_dtypes(['object']) df[df_obj.columns] = df_obj.apply(lambda x: x.str.strip()) # dari df[df['Tanggal_Pembelian '] == ' 2022-01-03 '] menjadi df[df['Tanggal_Pembelian'] == '2022-01-03'] |