Informasi statistik: pengumpulan, pemrosesan, analisis

2026 Pengarang: Angel Austin | [email protected]. Terakhir diubah: 2025-01-23 12:25:35

Sepanjang sejarah statistik, berbagai upaya telah dilakukan untuk membuat taksonomi tingkat pengukuran. Psikofisika Stanley Smith Stevens mendefinisikan skala nominal, ordinal, interval, dan proporsional.

Pengukuran nominal tidak memiliki urutan peringkat yang signifikan di antara nilai-nilai dan memungkinkan konversi satu-ke-satu.

Dimensi reguler memiliki perbedaan yang tidak tepat antara nilai berurutan, tetapi memiliki urutan tertentu dari nilai-nilai tersebut dan memungkinkan transformasi pelestarian urutan.

Pengukuran interval memiliki jarak yang berarti antar titik, tetapi nilai nolnya berubah-ubah (seperti dalam kasus pengukuran garis bujur dan suhu dalam Celcius atau Fahrenheit) dan memungkinkan transformasi linier apa pun.

Dimensi rasio memiliki nilai nol yang berarti dan jarak antara dimensi yang berbeda, dan memungkinkan transformasi penskalaan apa pun.

Variabel dan klasifikasi informasi

Karena variabelhanya sesuai dengan pengukuran nominal atau ordinal tidak dapat diukur secara numerik, dan kadang-kadang dikelompokkan sebagai variabel kategoris. Rasio dan pengukuran interval dikelompokkan sebagai variabel kuantitatif, yang dapat berupa diskrit atau kontinu karena sifat numeriknya. Pembedaan seperti itu sering dikaitkan secara longgar dengan tipe data dalam ilmu komputer, karena variabel kategorikal dikotomis dapat diwakili oleh nilai boolean, variabel kategoris politomus dengan bilangan bulat arbitrer dalam tipe data integral, dan variabel kontinu dengan komponen nyata yang melibatkan komputasi floating point. Namun tampilan tipe data informasi statistik tergantung pada klasifikasi yang diterapkan.

Klasifikasi lainnya

Klasifikasi lain dari data statistik (informasi) juga telah dibuat. Misalnya, Mosteller dan Tukey membedakan antara nilai, peringkat, bagian yang dihitung, hitungan, jumlah, dan saldo. Nelder pada satu waktu menggambarkan penghitungan berkelanjutan, rasio kontinu, korelasi penghitungan, dan cara kategoris untuk mengkomunikasikan data. Semua metode klasifikasi ini digunakan dalam pengumpulan informasi statistik.

Masalah

Pertanyaan apakah tepat untuk menerapkan berbagai jenis metode statistik pada data yang diperoleh melalui prosedur pengukuran (pengumpulan) yang berbeda diperumit oleh masalah yang berkaitan dengan konversi variabel dan interpretasi pertanyaan yang tepatriset. “Hubungan antara data dan apa yang digambarkannya hanya mencerminkan fakta bahwa jenis pernyataan statistik tertentu dapat memiliki nilai kebenaran yang tidak invarian dalam transformasi tertentu. Apakah transformasi tersebut layak dipertimbangkan tergantung pada pertanyaan yang Anda coba jawab.

Apa itu tipe data

Tipe data adalah komponen mendasar dari konten semantik variabel dan mengontrol jenis distribusi probabilitas apa yang dapat digunakan secara logis untuk menggambarkan variabel, operasi yang diizinkan padanya, jenis analisis regresi yang digunakan untuk memprediksinya, dll. Konsep tipe data serupa pada konsep tingkat pengukuran, tetapi lebih spesifik - misalnya, jumlah data memerlukan distribusi yang berbeda (Poisson atau binomial) daripada untuk nilai riil non-negatif, tetapi keduanya termasuk dalam kategori yang sama. tingkat pengukuran (skala koefisien).

Skala

Berbagai upaya telah dilakukan untuk membuat taksonomi tingkat pengukuran untuk memproses informasi statistik. Psikofisika Stanley Smith Stevens mendefinisikan skala nominal, ordinal, interval, dan proporsional. Pengukuran nominal tidak memiliki urutan peringkat yang signifikan di antara nilai-nilai dan memungkinkan konversi satu-ke-satu. Pengukuran biasa memiliki perbedaan yang tidak tepat antara nilai-nilai yang berurutan, tetapi berbeda dalam urutan signifikan dari nilai-nilai tersebut, dan memungkinkansetiap transformasi pelestarian pesanan. Pengukuran interval memiliki jarak yang berarti antara pengukuran, tetapi nilai nol bersifat arbitrer (seperti dalam kasus pengukuran bujur dan suhu dalam Celcius atau Fahrenheit) dan memungkinkan transformasi linier apa pun. Dimensi rasio memiliki nilai nol yang berarti dan jarak antara dimensi yang ditentukan berbeda, dan memungkinkan untuk transformasi penskalaan apa pun.

Data yang tidak dapat dideskripsikan menggunakan satu angka sering dimasukkan dalam vektor acak dari variabel acak nyata, meskipun ada tren yang berkembang untuk memprosesnya sendiri. Contoh-contoh tersebut akan dibahas di bawah ini.

Vektor acak

Elemen individu mungkin berkorelasi atau tidak. Contoh distribusi yang digunakan untuk menggambarkan vektor acak berkorelasi adalah distribusi normal multivariat dan distribusi t multivariat. Secara umum, mungkin ada korelasi arbitrer antara elemen apa pun, namun ini sering kali menjadi tidak terkendali di atas ukuran tertentu, yang membutuhkan batasan tambahan pada komponen yang berkorelasi.

Matriks acak

Matriks acak dapat disusun secara linier dan diperlakukan sebagai vektor acak, namun ini mungkin bukan cara yang efisien untuk merepresentasikan korelasi antara elemen yang berbeda. Beberapa distribusi probabilitas dirancang khusus untuk matriks acak, seperti matriks normaldistribusi dan distribusi Wishart.

Urutan Acak

Terkadang mereka dianggap sama dengan vektor acak, tetapi dalam kasus lain istilah ini diterapkan secara khusus untuk kasus di mana setiap variabel acak hanya berkorelasi dengan variabel terdekat (seperti dalam model Markov). Ini adalah kasus khusus dari jaringan Bayesian dan digunakan untuk urutan yang sangat panjang, seperti rantai gen atau dokumen teks yang panjang. Sejumlah model dirancang khusus untuk barisan seperti itu, seperti barisan Markov yang tersembunyi.

Proses acak

Mereka mirip dengan barisan acak, tetapi hanya jika panjang barisan tidak terbatas atau tidak terbatas, dan elemen dalam barisan diproses satu per satu. Ini sering digunakan untuk data yang dapat digambarkan sebagai deret waktu. Hal ini berlaku untuk, misalnya, harga saham keesokan harinya.

Kesimpulan

Analisis informasi statistik sepenuhnya bergantung pada kualitas pengumpulannya. Yang terakhir, pada gilirannya, sangat terkait dengan kemungkinan klasifikasinya. Tentu saja, ada banyak jenis klasifikasi informasi statistik, yang dapat dilihat sendiri oleh pembaca ketika membaca artikel ini. Namun demikian, kehadiran alat yang efektif dan penguasaan matematika yang baik, serta pengetahuan di bidang sosiologi, akan melakukan tugasnya, memungkinkan Anda untuk melakukan survei atau studi apa pun tanpa koreksi kesalahan yang signifikan. Sumber informasi statistik dalam bentukorang, organisasi, dan subjek sosiologi lainnya, untungnya, terwakili dalam jumlah besar. Dan tidak ada kesulitan yang dapat menghalangi seorang penjelajah sejati.