Model statistik adalah proyeksi matematis yang mewujudkan serangkaian asumsi berbeda tentang pembuatan beberapa data sampel. Istilah ini sering disajikan dalam bentuk yang sangat ideal.
Asumsi yang dinyatakan dalam model statistik menunjukkan serangkaian distribusi probabilitas. Banyak di antaranya dimaksudkan untuk secara tepat memperkirakan distribusi dari mana sekumpulan informasi tertentu diambil. Distribusi probabilitas yang melekat pada model statistik adalah yang membedakan proyeksi dari modifikasi matematika lainnya.
Proyeksi umum
Model matematis adalah deskripsi sistem dengan menggunakan konsep dan bahasa tertentu. Mereka berlaku untuk ilmu-ilmu alam (seperti fisika, biologi, ilmu bumi, kimia) dan disiplin ilmu teknik (seperti ilmu komputer, teknik elektro), serta ilmu-ilmu sosial (seperti ekonomi, psikologi, sosiologi, ilmu politik).
Model dapat membantu menjelaskan sistem danmempelajari pengaruh berbagai komponen, dan membuat prediksi perilaku.
Model matematika dapat mengambil banyak bentuk, termasuk sistem dinamis, proyeksi statistik, persamaan diferensial, atau parameter teori permainan. Jenis ini dan lainnya mungkin tumpang tindih, dan model ini mencakup banyak struktur abstrak. Secara umum, proyeksi matematika juga dapat mencakup komponen logis. Dalam banyak kasus, kualitas bidang ilmiah tergantung pada seberapa baik model matematika yang dikembangkan secara teoritis sesuai dengan hasil eksperimen berulang. Kurangnya kesepakatan antara proses teoritis dan pengukuran eksperimental sering mengarah pada kemajuan penting karena teori yang lebih baik dikembangkan.
Dalam ilmu fisika, model matematika tradisional mengandung sejumlah besar elemen berikut:
- Kontrol persamaan.
- Submodel tambahan.
- Tentukan persamaan.
- Persamaan konstituen.
- Asumsi dan batasan.
- Kondisi awal dan batas.
- Konstrain klasik dan persamaan kinematik.
Rumus
Sebuah model statistik, sebagai aturan, ditetapkan oleh persamaan matematika yang menggabungkan satu atau lebih variabel acak dan, mungkin, variabel alami lainnya. Demikian pula, proyeksi dianggap sebagai "konsep formal dari sebuah konsep."
Semua pengujian hipotesis statistik dan evaluasi statistik diperoleh dari model matematika.
Pengantar
Secara informal, model statistik dapat dilihat sebagai asumsi (atau serangkaian asumsi) dengan properti tertentu: model ini memungkinkan seseorang untuk menghitung probabilitas suatu peristiwa. Sebagai contoh, perhatikan sepasang dadu biasa bersisi enam. Dua asumsi statistik yang berbeda tentang tulang perlu dieksplorasi.
Asumsi pertama adalah:
Untuk setiap dadu, peluang terambilnya salah satu angka (1, 2, 3, 4, 5, dan 6) adalah: 1/6.
Dari asumsi ini, kita dapat menghitung peluang kedua dadu: 1:1/6×1/6=1/36.
Secara umum, Anda dapat menghitung probabilitas dari setiap kejadian. Namun, harus dipahami bahwa tidak mungkin menghitung probabilitas kejadian non-sepele lainnya.
Hanya pendapat pertama yang mengumpulkan model matematika statistik: karena fakta bahwa hanya dengan satu asumsi dimungkinkan untuk menentukan probabilitas setiap tindakan.
Dalam contoh di atas dengan izin awal, mudah untuk menentukan kemungkinan suatu peristiwa. Dengan beberapa contoh lain, perhitungannya mungkin sulit atau bahkan tidak realistis (misalnya, mungkin memerlukan perhitungan bertahun-tahun). Untuk seseorang yang merancang model analisis statistik, kompleksitas seperti itu dianggap tidak dapat diterima: implementasi perhitungan seharusnya tidak mustahil secara praktis dan secara teoritis tidak mungkin.
Definisi formal
Dalam istilah matematika, model statistik suatu sistem biasanya dianggap sebagai pasangan (S, P), di mana S adalahhimpunan kemungkinan pengamatan, yaitu ruang sampel, dan P adalah himpunan distribusi probabilitas pada S.
Intuisi dari definisi ini adalah sebagai berikut. Diasumsikan ada distribusi probabilitas "benar" yang disebabkan oleh proses yang menghasilkan data tertentu.
Set
Dialah yang menentukan parameter model. Parameterisasi umumnya membutuhkan nilai yang berbeda untuk menghasilkan distribusi yang berbeda, yaitu
must hold (dengan kata lain, harus injective). Parameterisasi yang memenuhi persyaratan dikatakan dapat diidentifikasi.
Contoh
Asumsikan bahwa ada beberapa siswa yang berbeda usia. Tinggi anak akan berhubungan secara stokastik dengan tahun lahir: misalnya, ketika anak sekolah berusia 7 tahun, ini mempengaruhi kemungkinan pertumbuhan, hanya saja orang tersebut akan lebih tinggi dari 3 sentimeter.
Anda dapat memformalkan pendekatan ini ke dalam model regresi garis lurus, misalnya, sebagai berikut: tinggi i=b 0 + b 1agei + i, di mana b 0 adalah perpotongan, b 1 adalah parameter umur berapa dikalikan saat mendapatkan pemantauan ketinggian. Ini adalah istilah kesalahan. Artinya, diasumsikan bahwa tinggi badan diprediksi oleh usia dengan kesalahan tertentu.
Formulir yang valid harus cocok dengan semua poin informasi. Dengan demikian, arah bujursangkar (level i=b 0 + b 1agei) tidak mampu menjadi persamaan untuk model data - jika tidak menjawab semua poin dengan jelas. Yaitutanpa kecuali, semua informasi terletak sempurna di telepon. Margin of error i harus dimasukkan ke dalam persamaan sehingga formulir benar-benar cocok dengan semua item informasi.
Untuk membuat inferensi statistik, pertama-tama kita perlu mengasumsikan beberapa distribusi probabilitas untuk i. Sebagai contoh, dapat diasumsikan bahwa distribusi i memiliki bentuk Gaussian dengan rata-rata nol. Dalam hal ini, model akan memiliki 3 parameter: b 0, b 1 dan varians dari distribusi Gaussian.
Anda dapat menentukan model secara formal sebagai (S, P).
Dalam contoh ini, model didefinisikan dengan menspesifikasikan S sehingga beberapa asumsi dapat dibuat tentang P. Ada dua pilihan:
Pertumbuhan ini dapat didekati dengan fungsi linier usia;
Bahwa kesalahan dalam aproksimasi didistribusikan seperti di dalam Gaussian.
Keterangan umum
Parameter statistik model adalah kelas khusus proyeksi matematika. Apa yang membuat satu spesies berbeda dari yang lain? Jadi model statistiknya adalah non-deterministik. Jadi, di dalamnya, tidak seperti persamaan matematika, variabel tertentu tidak memiliki nilai tertentu, tetapi memiliki distribusi kemungkinan. Artinya, variabel individu dianggap stokastik. Pada contoh di atas, adalah variabel stokastik. Tanpa itu, proyeksi akan menjadi deterministik.
Membangun model statistik sering digunakan, bahkan jika proses material dianggap deterministik. Misalnya, melempar koin, pada prinsipnya, adalah tindakan yang telah ditentukan sebelumnya. Namun, ini masih dalam banyak kasus dimodelkan sebagai stokastik (melalui proses Bernoulli).
Menurut Konishi dan Kitagawa, ada tiga tujuan untuk model statistik:
- Prediksi.
- Penambangan informasi.
- Deskripsi struktur stokastik.
Ukuran proyeksi
Asumsikan ada model prediksi statistik, Model disebut parametrik jika O memiliki dimensi berhingga. Dalam solusi, Anda harus menulis bahwa
di mana k adalah bilangan bulat positif (R singkatan dari sembarang bilangan real). Di sini k disebut dimensi model.
Sebagai contoh, kita dapat mengasumsikan bahwa semua data berasal dari distribusi Gaussian univariat:
Dalam contoh ini, dimensi k adalah 2.
Dan sebagai contoh lain, data dapat diasumsikan terdiri dari (x, y) titik, yang diasumsikan terdistribusi dalam garis lurus dengan residual Gaussian (dengan rata-rata nol). Maka dimensi model ekonomi statistika adalah sama dengan 3: perpotongan garis, kemiringannya dan varians dari distribusi residual. Perlu dicatat bahwa dalam geometri garis lurus memiliki dimensi 1.
Meskipun nilai di atas secara teknis merupakan satu-satunya parameter yang memiliki dimensi k, kadang-kadang dianggap mengandung k nilai yang berbeda. Misalnya, dengan distribusi Gaussian satu dimensi, O adalah satu-satunya parameter dengan ukuran 2, tetapi kadang-kadang dianggap mengandung duaparameter individu - nilai rata-rata dan simpangan baku.
Model proses statistik adalah non-parametrik jika himpunan nilai O berdimensi tak hingga. Ini juga semi-parametrik jika memiliki parameter dimensi hingga dan dimensi tak terbatas. Secara formal, jika k adalah dimensi dari O dan n adalah jumlah sampel, model semi-parametrik dan non-parametrik memiliki
maka modelnya semi parametrik. Jika tidak, proyeksinya adalah non-parametrik.
Model parametrik adalah statistik yang paling umum digunakan. Mengenai proyeksi semi parametrik dan non parametrik, Sir David Cox menyatakan:
"Biasanya, mereka melibatkan hipotesis paling sedikit tentang tekstur dan bentuk distribusi, tetapi mereka menyertakan teori yang kuat tentang swasembada."
Model bersarang
Jangan bingung dengan proyeksi bertingkat.
Dua model statistik bersarang jika yang pertama dapat dikonversi ke yang kedua dengan menerapkan batasan pada parameter yang pertama. Misalnya, himpunan semua distribusi Gaussian memiliki kumpulan distribusi rata-rata nol:
Artinya, Anda perlu membatasi mean dalam himpunan semua distribusi Gaussian untuk mendapatkan distribusi dengan mean nol. Sebagai contoh kedua, model kuadrat y=b 0 + b 1 x + b 2 x 2 +, ~N (0, σ 2) memiliki model linier tertanam y=b 0 + b 1 x +, ~ N (0,2) - yaitu parameter b2 sama dengan 0.
Dalam kedua contoh ini, model pertama memiliki dimensi yang lebih tinggi daripada model kedua. Ini sering terjadi, tetapi tidak selalu demikian. Contoh lain adalah himpunan distribusi Gaussian dengan mean positif yang berdimensi 2.
Perbandingan model
Diasumsikan bahwa ada distribusi probabilitas "benar" yang mendasari data yang diamati yang disebabkan oleh proses yang menghasilkannya.
Dan juga model dapat dibandingkan satu sama lain, menggunakan analisis eksplorasi atau konfirmasi. Dalam analisis eksplorasi, model yang berbeda dirumuskan dan penilaian dibuat tentang seberapa baik masing-masing model menggambarkan data. Dalam analisis konfirmasi, hipotesis yang dirumuskan sebelumnya dibandingkan dengan yang asli. Kriteria umum untuk ini termasuk P 2, faktor Bayesian dan probabilitas relatif.
Pemikiran Konishi dan Kitagawa
“Kebanyakan masalah dalam model matematika statistik dapat dianggap sebagai pertanyaan prediktif. Mereka biasanya dirumuskan sebagai perbandingan beberapa faktor.”
Selanjutnya, Sir David Cox berkata: "Sebagai terjemahan dari topik, masalah dalam model statistik seringkali merupakan bagian terpenting dari analisis."