DataFrame Mahasiswa: Jurusan, Kota, Angkatan (Python)
Hey guys! Kali ini kita bakal ngobrolin cara bikin DataFrame mahasiswa di Python dengan spesifikasi kolom jurusan, kota, dan angkatan. DataFrame ini berguna banget buat menyimpan dan mengelola data mahasiswa dengan lebih terstruktur. Yuk, langsung aja kita bahas!
Membuat DataFrame dengan Pandas
Untuk membuat DataFrame, kita bakal menggunakan library Pandas. Pandas ini adalah library yang powerful banget di Python untuk manipulasi dan analisis data. Kalau belum install, install dulu ya:
pip install pandas
Setelah Pandas terinstall, kita bisa mulai membuat DataFrame sesuai dengan spesifikasi yang diminta.
Langkah 1: Import Library Pandas
Pertama-tama, kita import dulu library Pandas ke dalam script Python kita:
import pandas as pd
Langkah 2: Membuat Data
Selanjutnya, kita buat data untuk masing-masing kolom, yaitu jurusan, kota, dan angkatan. Data ini akan disimpan dalam bentuk list atau array.
jurusan = ['Statistika', 'Matematika', 'Fisika']
kota = ['Jakarta', 'Bandung', 'Surabaya']
angkatan = [2021, 2022, 2023, 2024]
Kita punya tiga jurusan, tiga kota, dan empat pilihan tahun angkatan. Nah, karena kita mau bikin DataFrame mahasiswa, kita perlu kombinasikan data ini. Misalnya, kita mau bikin 10 data mahasiswa dengan kombinasi jurusan, kota, dan angkatan yang berbeda.
data = {
'jurusan': ['Statistika', 'Matematika', 'Fisika', 'Statistika', 'Matematika',
'Fisika', 'Statistika', 'Matematika', 'Fisika', 'Statistika'],
'kota': ['Jakarta', 'Bandung', 'Surabaya', 'Jakarta', 'Bandung',
'Surabaya', 'Jakarta', 'Bandung', 'Surabaya', 'Jakarta'],
'angkatan': [2021, 2022, 2023, 2024, 2021, 2022, 2023, 2024, 2021, 2022]
}
Dalam contoh ini, kita buat dictionary data yang berisi list untuk setiap kolom. Pastikan jumlah elemen di setiap list sama, ya, biar DataFrame-nya terbentuk dengan benar.
Langkah 3: Membuat DataFrame
Setelah datanya siap, kita bisa membuat DataFrame menggunakan fungsi pd.DataFrame():
df = pd.DataFrame(data)
DataFrame df sekarang berisi data mahasiswa dengan kolom jurusan, kota, dan angkatan.
Langkah 4: Menampilkan DataFrame
Untuk menampilkan DataFrame, kita bisa menggunakan fungsi print() atau langsung menuliskan nama DataFrame di cell terakhir (kalau pakai Jupyter Notebook atau Google Colab):
print(df)
Atau:
df
Hasilnya akan seperti ini:
jurusan kota angkatan
0 Statistika Jakarta 2021
1 Matematika Bandung 2022
2 Fisika Surabaya 2023
3 Statistika Jakarta 2024
4 Matematika Bandung 2021
5 Fisika Surabaya 2022
6 Statistika Jakarta 2023
7 Matematika Bandung 2024
8 Fisika Surabaya 2021
9 Statistika Jakarta 2022
Lebih Dalam tentang DataFrame
DataFrame ini fleksibel banget, guys! Kita bisa melakukan berbagai macam operasi, seperti:
- Memfilter data: Misalnya, kita mau mencari semua mahasiswa jurusan Statistika.
- Mengurutkan data: Misalnya, kita mau mengurutkan data berdasarkan angkatan.
- Menambahkan kolom baru: Misalnya, kita mau menambahkan kolom nilai IPK.
- Mengelompokkan data: Misalnya, kita mau mengelompokkan data berdasarkan jurusan untuk mencari tahu rata-rata angkatan di setiap jurusan.
Memfilter Data
Untuk memfilter data, kita bisa menggunakan conditional filtering. Misalnya, untuk mencari semua mahasiswa jurusan Statistika:
df_statistika = df[df['jurusan'] == 'Statistika']
print(df_statistika)
Hasilnya:
jurusan kota angkatan
0 Statistika Jakarta 2021
3 Statistika Jakarta 2024
6 Statistika Jakarta 2023
9 Statistika Jakarta 2022
Mengurutkan Data
Untuk mengurutkan data, kita bisa menggunakan fungsi sort_values(). Misalnya, untuk mengurutkan data berdasarkan angkatan:
df_sorted = df.sort_values(by='angkatan')
print(df_sorted)
Hasilnya:
jurusan kota angkatan
0 Statistika Jakarta 2021
4 Matematika Bandung 2021
8 Fisika Surabaya 2021
1 Matematika Bandung 2022
5 Fisika Surabaya 2022
9 Statistika Jakarta 2022
2 Fisika Surabaya 2023
6 Statistika Jakarta 2023
3 Statistika Jakarta 2024
7 Matematika Bandung 2024
Menambahkan Kolom Baru
Untuk menambahkan kolom baru, kita bisa langsung menugaskan nilai ke kolom baru tersebut. Misalnya, kita mau menambahkan kolom 'IPK' dengan nilai acak:
import numpy as np
df['IPK'] = np.random.uniform(2.5, 4.0, size=len(df))
print(df)
Kita menggunakan numpy.random.uniform() untuk menghasilkan nilai IPK acak antara 2.5 dan 4.0.
Hasilnya:
jurusan kota angkatan IPK
0 Statistika Jakarta 2021 3.214567
1 Matematika Bandung 2022 3.876543
2 Fisika Surabaya 2023 2.987654
3 Statistika Jakarta 2024 3.543210
4 Matematika Bandung 2021 3.123456
5 Fisika Surabaya 2022 3.765432
6 Statistika Jakarta 2023 2.876543
7 Matematika Bandung 2024 3.432109
8 Fisika Surabaya 2021 3.012345
9 Statistika Jakarta 2022 3.654321
Mengelompokkan Data
Untuk mengelompokkan data, kita bisa menggunakan fungsi groupby(). Misalnya, kita mau mencari rata-rata angkatan di setiap jurusan:
df_grouped = df.groupby('jurusan')['angkatan'].mean()
print(df_grouped)
Hasilnya:
jurusan
Fisika 2022.0
Matematika 2022.333333
Statistika 2022.5
Name: angkatan, dtype: float64
Tips Tambahan
- Pastikan Data Konsisten: Sebelum membuat DataFrame, pastikan data yang akan dimasukkan konsisten. Misalnya, kalau ada data yang hilang (missing values), kita bisa mengisi dengan nilai default atau menghapusnya.
- Gunakan Nama Kolom yang Deskriptif: Nama kolom yang deskriptif akan memudahkan kita dan orang lain untuk memahami isi DataFrame. Hindari menggunakan nama kolom yang terlalu pendek atau ambigu.
- Eksplorasi Data: Setelah DataFrame terbentuk, jangan ragu untuk melakukan eksplorasi data. Gunakan fungsi-fungsi Pandas untuk mencari tahu informasi menarik dari data kita.
Kesimpulan
Membuat DataFrame mahasiswa dengan Pandas itu gampang banget kan, guys? Dengan DataFrame, kita bisa menyimpan dan mengelola data mahasiswa dengan lebih terstruktur dan efisien. Selain itu, kita juga bisa melakukan berbagai macam analisis data untuk mendapatkan informasi yang berguna. Selamat mencoba dan semoga bermanfaat!
Oh iya, jangan lupa buat terus eksplorasi dan belajar hal baru ya! Data Science itu luas banget, dan selalu ada hal baru yang bisa dipelajari. Semangat terus!