Asumsi yang terkandung dalam pemodelan statistik menggambarkan satu set distribusi probabilitas, beberapa di antaranya diasumsikan cukup mendekati distribusi. Satu set data tertentu dipilih dari definisi. Distribusi probabilitas yang melekat dalam pemodelan statistik adalah yang membedakan model statistik dari model matematika non-statistik lainnya.
Koneksi dengan matematika
Metode ilmiah ini berakar terutama pada matematika. Pemodelan statistik sistem biasanya diberikan oleh persamaan matematika yang menghubungkan satu atau lebih variabel acak dan mungkin variabel non-acak lainnya. Jadi, model statistik adalah "representasi formal dari sebuah teori" (Hermann Ader, mengutip Kenneth Bollen).
Semua uji hipotesis statistik dan semua perkiraan statistik diturunkan dari model statistik. Secara umum, model statistik adalah bagian dari dasar inferensi statistik.
Metode statistikpemodelan
Secara informal, model statistik dapat dianggap sebagai asumsi statistik (atau kumpulan asumsi statistik) dengan properti tertentu: asumsi ini memungkinkan kita untuk menghitung probabilitas suatu peristiwa. Sebagai contoh, perhatikan sepasang dadu biasa bersisi enam. Kita akan mempelajari dua asumsi statistik yang berbeda tentang tulang.
Asumsi statistik pertama merupakan model statistik, karena hanya dengan satu asumsi kita dapat menghitung probabilitas suatu kejadian. Asumsi statistik alternatif bukan merupakan model statistik, karena hanya dengan satu asumsi kita tidak dapat menghitung probabilitas setiap kejadian.
Dalam contoh di atas dengan asumsi pertama, mudah untuk menghitung probabilitas suatu peristiwa. Namun, dalam beberapa contoh lain, perhitungannya mungkin rumit atau bahkan tidak praktis (misalnya, mungkin memerlukan perhitungan jutaan tahun). Untuk asumsi yang merupakan model statistik, kesulitan ini dapat diterima: melakukan perhitungan tidak harus secara praktis layak, hanya mungkin secara teoritis.
Contoh model
Misalkan kita memiliki populasi anak sekolah dengan distribusi anak yang merata. Tinggi badan seorang anak akan berhubungan secara stokastik dengan usia: misalnya, ketika kita tahu bahwa seorang anak berusia 7 tahun, ini mempengaruhi kemungkinan tinggi anak tersebut adalah 5 kaki (sekitar 152 cm). Kita bisa memformalkan hubungan ini dalam model regresi linier, misalnya: pertumbuhan=b0 + b1agei+ i, di mana b0 adalah perpotongan, b1 adalah parameter di mana usia dikalikan saat memperoleh perkiraan pertumbuhan, i adalah istilah kesalahan. Ini menyiratkan bahwa tinggi diprediksi berdasarkan usia dengan beberapa kesalahan.
Model yang valid harus cocok dengan semua titik data. Jadi garis lurus (heighti=b0 + b1agei) tidak dapat menjadi persamaan untuk model data - kecuali jika cocok dengan semua titik data secara tepat, yaitu semua titik data terletak sempurna pada garis. Istilah kesalahan i harus dimasukkan dalam persamaan agar model cocok dengan semua titik data.
Untuk membuat inferensi statistik, pertama-tama kita perlu mengasumsikan beberapa distribusi probabilitas untuk i. Sebagai contoh, kita dapat mengasumsikan bahwa distribusi i adalah Gaussian, dengan rata-rata nol. Dalam hal ini, model akan memiliki 3 parameter: b0, b1 dan varians dari distribusi Gaussian.
Deskripsi Umum
Model statistik adalah kelas khusus dari model matematika. Yang membedakan model statistik dari model matematika lainnya adalah non-deterministik. Ini digunakan untuk memodelkan data statistik. Jadi, dalam model statistik yang didefinisikan dengan persamaan matematika, beberapa variabel tidak memiliki nilai spesifik, tetapi memiliki distribusi probabilitas; yaitu, beberapa variabel bersifat stokastik. Pada contoh di atas, adalah variabel stokastik; tanpa variabel ini, modelnya adalahakan menjadi deterministik.
Model statistik sering digunakan dalam analisis dan pemodelan statistik, meskipun proses fisik yang dimodelkan bersifat deterministik. Misalnya, melempar koin pada prinsipnya merupakan proses deterministik; namun biasanya dimodelkan sebagai stokastik (melalui proses Bernoulli).
Model parametrik
Model parametrik adalah model statistik yang paling umum digunakan. Mengenai model semi-parametrik dan non-parametrik, Sir David Cox mengatakan: "Mereka umumnya memasukkan lebih sedikit asumsi tentang struktur dan bentuk distribusi, tetapi biasanya mengandung asumsi independensi yang kuat." Seperti semua model lain yang disebutkan, mereka juga sering digunakan dalam metode statistik pemodelan matematika.
Model bertingkat
Model multilevel (juga dikenal sebagai model linier hierarkis, model data bersarang, model campuran, koefisien acak, model efek acak, model parameter acak, atau model terpartisi) adalah model parameter statistik yang bervariasi pada lebih dari satu tingkat. Contohnya adalah model prestasi siswa yang berisi metrik untuk siswa individu serta metrik untuk kelas di mana siswa dikelompokkan. Model-model ini dapat dianggap sebagai generalisasi model linier (khususnya, regresi linier), meskipun mereka juga dapat diperluas ke model non-linier. Model-model ini telah menjadijauh lebih populer setelah daya komputasi dan perangkat lunak yang memadai tersedia.
Model multilevel sangat cocok untuk proyek penelitian di mana data untuk peserta diatur di lebih dari satu level (yaitu, data bersarang). Unit analisis biasanya individu (pada tingkat yang lebih rendah) yang bersarang dalam konteks/unit agregat (pada tingkat yang lebih tinggi). Sementara tingkat data terendah dalam model bertingkat biasanya individu, pengukuran berulang individu juga dapat dipertimbangkan. Dengan demikian, model multilevel memberikan jenis analisis alternatif untuk analisis tindakan berulang univariat atau multivariat. Perbedaan individu dalam kurva pertumbuhan dapat dipertimbangkan. Selain itu, model multilevel dapat digunakan sebagai alternatif untuk ANCOVA, di mana skor variabel dependen disesuaikan untuk kovariat (misalnya, perbedaan individu) sebelum menguji perbedaan perlakuan. Model multilevel mampu menganalisis eksperimen ini tanpa asumsi kemiringan regresi seragam yang disyaratkan oleh ANCOVA.
Model multilevel dapat digunakan untuk data dengan banyak level, meskipun model dua level adalah yang paling umum dan sisa artikel ini berfokus pada ini. Variabel terikat harus diperiksa pada tingkat analisis terendah.
Pemilihan model
Pemilihan modeladalah tugas memilih dari sekumpulan calon model yang diberikan data, yang dilakukan dalam kerangka pemodelan statistik. Dalam kasus yang paling sederhana, kumpulan data yang sudah ada dipertimbangkan. Namun, tugas tersebut mungkin juga melibatkan perancangan eksperimen sehingga data yang dikumpulkan sesuai dengan tugas pemilihan model. Mengingat calon model dengan kekuatan prediktif atau penjelas yang serupa, model paling sederhana cenderung menjadi pilihan terbaik (pisau cukur Occam).
Konishi & Kitagawa berkata, "Sebagian besar masalah inferensi statistik dapat dianggap sebagai masalah yang terkait dengan pemodelan statistik." Serupa dengan itu, Cox berkata, “Bagaimana penerjemahan materi pelajaran ke dalam model statistik dilakukan seringkali merupakan bagian terpenting dari analisis.”
Pemilihan model juga dapat merujuk pada masalah pemilihan beberapa model representatif dari sekumpulan besar model komputasi untuk tujuan keputusan atau optimasi di bawah ketidakpastian.
Pola grafik
Model grafik, atau model grafik probabilistik, (PGM) atau model probabilistik terstruktur, adalah model probabilistik yang grafiknya menyatakan struktur hubungan bersyarat antara variabel acak. Mereka biasanya digunakan dalam teori probabilitas, statistik (terutama statistik Bayesian), dan pembelajaran mesin.
Model ekonometrik
Model ekonometrika adalah model statistik yang digunakan dalamekonometrika. Model ekonometrika mendefinisikan hubungan statistik yang diyakini ada antara berbagai besaran ekonomi yang terkait dengan fenomena ekonomi tertentu. Model ekonometrika dapat diturunkan dari model ekonomi deterministik yang memperhitungkan ketidakpastian, atau dari model ekonomi yang stokastik itu sendiri. Namun, model ekonometrika yang tidak terikat pada teori ekonomi tertentu juga dapat digunakan.