Apa itu dataset? (Dengan pengertian, jenis dan contohnya)
Dataset adalah alat yang efektif untuk melacak dan menganalisis informasi penting. Mengkompilasi informasi terkait ke dalam dataset juga dapat membantu merampingkan proses analisis dan evaluasi. Jika Anda tertarik untuk menjadi ilmuwan data, mengetahui lebih banyak tentang dataset dapat membantu Anda lebih memahami apa yang dilakukan oleh profesi ini.
Dalam artikel ini, kami membahas dataset, termasuk jenisnya yang berbeda, dan mengeksplorasi teknik dan dua contoh untuk membantu Anda meningkatkan metode analisis statistik Anda.
Apa itu dataset?
Dataset adalah kumpulan data yang terorganisir. Mereka umumnya dikaitkan dengan tubuh kerja yang unik dan biasanya mencakup satu topik pada satu waktu. Elemen informasi dalam dataset berhubungan satu sama lain, dan analis sering mengkategorikan jenis data untuk membuat dataset relevan yang mendukung proses bisnis penting, seperti metrik keuangan atau transaksi penjualan.
Dalam profesi ilmiah dan statistik, dataset dapat membantu para profesional seperti ahli biologi menganalisis informasi tentang lingkungan atau iklim suatu daerah. Di ritel, bisnis dapat menyimpan informasi yang terkait dengan pelanggan mereka dalam dataset untuk analisis. Para peneliti, ilmuwan, matematikawan, dan analis di bidang keuangan, ekonomi, penjualan, dan pemasaran sering menggunakan dataset secara teratur dalam pekerjaan mereka.
Perbedaan antara dataset dan basis data
Dataset berbeda dari database. Pada dasarnya, database adalah kumpulan set data. Oleh karena itu, database biasanya lebih besar dan berisi lebih banyak informasi daripada dataset. Basis data dapat mencakup rentang fokus yang lebih luas, sedangkan dataset biasanya hanya menyimpan informasi tentang satu topik. Untuk mengakses dan memanipulasi database, ilmuwan data mengandalkan sistem komputer yang canggih.
Apa saja jenis dataset?
Ada beberapa jenis dataset. Apa yang menentukan jenis dataset adalah informasi di dalamnya. Di bawah ini adalah jenis dataset yang mungkin Anda lihat:
Numerik
Dataset numerik adalah kumpulan yang semua datanya berupa angka. Anda juga dapat merujuk ke jenis ini sebagai dataset kuantitatif, karena nilai numerik dapat diterapkan pada perhitungan matematis bila diperlukan. Banyak proses analisis keuangan juga bergantung pada dataset numerik, karena nilai dalam kumpulan dapat mewakili angka dalam jumlah dolar. Contoh dataset numerik dapat mencakup:
- Jumlah kartu dalam satu dek.
- Pengukuran tinggi dan berat badan seseorang.
- Pengukuran ruang hidup interior.
- Jumlah halaman dalam sebuah buku.
Kategoris
Dataset kategoris berisi informasi yang berkaitan dengan karakteristik seseorang atau objek. Ilmuwan data juga menyebut dataset kategorikal sebagai dataset kualitatif karena berisi informasi yang berkaitan dengan kualitas suatu objek. Ada dua jenis dataset kategoris: dikotomis dan politomus.
Dalam dataset dikotomis, setiap variabel hanya dapat memiliki satu dari dua nilai. Misalnya, dataset yang berisi jawaban atas pertanyaan benar dan salah adalah dikotomis karena hanya memberikan satu hasil atau yang lain. Dalam dataset polytomous, bisa ada lebih dari dua kemungkinan nilai untuk setiap variabel. Misalnya, dataset yang berisi warna mata seseorang dapat memberi Anda banyak hasil.
Bivariat
Dataset dengan hanya dua variabel adalah dataset bivariat. Dalam jenis dataset ini, ilmuwan data melihat hubungan antara dua variabel. Oleh karena itu, dataset ini biasanya memiliki dua jenis data terkait. Misalnya, dataset yang berisi bobot dan kecepatan lari tim lari mewakili dua variabel terpisah, tempat Anda dapat mencari hubungan di antara keduanya.
Multivariasi
Tidak seperti dataset bivariat, dataset multivariat berisi lebih dari dua variabel. Misalnya, tinggi, lebar, panjang, dan berat paket yang Anda kirimkan melalui pos memerlukan lebih dari dua input variabel untuk membuat dataset. Karena setiap nilai unik, Anda dapat menggunakan variabel yang berbeda untuk mewakili masing-masing nilai. Untuk dimensi paket contoh, nilai untuk setiap pengukuran mewakili variabel.
Korelasi
Ketika ada hubungan antara variabel dalam dataset, itu menjadi dataset korelasi. Ini berarti bahwa nilai-nilai bergantung satu sama lain untuk menunjukkan perubahan. Misalnya, sebuah restoran mungkin menemukan korelasi antara jumlah es teh yang dibeli pelanggan dalam sehari dan suhu tinggi di luar. Korelasi bisa positif, negatif atau nol. Dalam korelasi positif, variabel terkait bergerak ke arah yang sama, sedangkan korelasi negatif menunjukkan variabel bergerak berlawanan arah. Korelasi nol menunjukkan tidak ada hubungan.
Teknik apa yang dapat digunakan untuk merepresentasikan dataset?
Memiliki informasi yang disimpan dalam dataset seringkali memudahkan untuk melakukan operasi dan analisis matematika. Berikut adalah beberapa teknik umum yang dapat Anda gunakan pada dataset untuk mempelajari lebih lanjut tentang data yang mendasarinya:
- Mean: Mean dari dataset adalah rata-rata dari semua pengamatan. Ini adalah rasio jumlah pengamatan dengan jumlah elemen.
- Median: Saat Anda membuat daftar data dalam urutan menaik, median adalah angka yang berada tepat di tengah dataset.
- Rentang: Rentang adalah perbedaan antara nilai tertinggi dan terendah dalam dataset, yang memberi tahu Anda lebih banyak tentang seberapa jauh dataset meluas.
- Penghitungan nilai unik: Penghitungan nilai unik memberi tahu Anda isi dataset dengan menghitung setiap item unik dalam kolom kategoris.
- Penghitungan frekuensi: Penghitungan frekuensi menjumlahkan jumlah pengamatan untuk setiap kategori yang Anda daftarkan dalam baris dataset.
- Histogram: Histogram adalah representasi grafis dari dataset yang menunjukkan jumlah frekuensi di seluruh rentang data.
Contoh dataset
Berikut adalah beberapa contoh yang dapat Anda tinjau untuk membantu Anda lebih memahami apa itu dataset dan bagaimana Anda dapat menganalisisnya:
Contoh dataset numerik
Berikut adalah contoh perusahaan yang mengumpulkan dataset numerik:
Tennent Industries ingin memahami panjang rata-rata halaman dari buku petunjuk instruksional yang berbeda yang membantu operator mesin mengoperasikan berbagai peralatan di fasilitas tersebut. Data ini dapat membantu mereka meningkatkan program pelatihan dan menguraikan harapan mereka untuk karyawan baru. Perusahaan mengumpulkan data numerik berikut yang mewakili total panjang manual instruksional perusahaan:
- Manual satu: 35 halaman
- Manual dua: 23 halaman
- Manual tiga: 46 halaman
- Manual empat: 12 halaman
- Manual lima: 10 halaman
Analis menyederhanakan dataset ini untuk mencerminkan hanya angka atau, 35, 23, 46, 12 dan 10. Kemudian mereka menambahkan item ini untuk menemukan rata-rata rata-rata dataset, atau 35+23+46+12+10, yang sama dengan 25.2. Artinya rata-rata panjang buku pedoman perusahaan adalah 25,2 atau 25 halaman.
Contoh dataset kategoris
Berikut adalah contoh perusahaan yang menggunakan dataset kategoris:
Crane dan Jenkins Manufacturing ingin lebih memahami kepuasan karyawan dan membuat survei dengan data kategoris untuk membantu mereka menilai kepuasan karyawan. Survei menanyakan tentang kepuasan mereka secara keseluruhan diikuti dengan:
- Sangat miskin
- Miskin
- Netral
- Bagus
- Sangat bagus
Karyawan hanya dapat memilih salah satu dari lima opsi ini, yang membuat data menjadi kategoris karena hanya ada sejumlah opsi yang dipilih. Setelah menyelesaikan survei, perusahaan menganalisis hasil akhir. Banyak karyawan yang menilai kepuasannya dalam peringkat baik atau sangat baik, dengan peringkat rata-rata dalam kategori baik.