Regresi logistik: model dan metode

2026 Pengarang: Angel Austin | austin@vogueindustry.com. Terakhir diubah: 2025-01-23 12:25:40

Metode regresi logistik dan analisis diskriminan digunakan bila perlu untuk membedakan responden secara jelas berdasarkan kategori sasaran. Dalam hal ini, grup itu sendiri diwakili oleh level dari satu parameter varian tunggal. Mari kita lihat lebih dekat model regresi logistik dan cari tahu mengapa itu diperlukan.

Informasi umum

Contoh masalah yang menggunakan regresi logistik adalah pengelompokan responden ke dalam kelompok yang membeli dan tidak membeli sawi. Diferensiasi dilakukan sesuai dengan karakteristik sosio-demografis. Ini termasuk, khususnya, usia, jenis kelamin, jumlah kerabat, pendapatan, dll. Dalam operasi, ada kriteria diferensiasi dan variabel. Yang terakhir mengkodekan kategori target di mana, pada kenyataannya, responden harus dibagi.

Nuansa

Harus dikatakan bahwa rentang kasus di mana regresi logistik diterapkan jauh lebih sempit daripada analisis diskriminan. Dalam hal ini, penggunaan yang terakhir sebagai metode diferensiasi universal dipertimbangkanlebih diutamakan. Selain itu, para ahli merekomendasikan untuk memulai studi klasifikasi dengan analisis diskriminan. Dan hanya dalam kasus ketidakpastian tentang hasilnya, Anda dapat menggunakan regresi logistik. Kebutuhan ini disebabkan oleh beberapa faktor. Regresi logistik digunakan ketika ada pemahaman yang jelas tentang jenis variabel independen dan dependen. Dengan demikian, salah satu dari 3 prosedur yang mungkin dipilih. Dalam analisis diskriminan, peneliti selalu berurusan dengan satu operasi statis. Ini melibatkan satu variabel kategoris dependen dan beberapa independen dengan semua jenis skala.

Tampilan

Tugas studi statistik yang menggunakan regresi logistik adalah untuk menentukan probabilitas bahwa responden tertentu akan ditugaskan ke kelompok tertentu. Diferensiasi dilakukan sesuai dengan parameter tertentu. Dalam praktiknya, menurut nilai satu atau lebih faktor independen, dimungkinkan untuk mengklasifikasikan responden menjadi dua kelompok. Dalam hal ini, regresi logistik biner terjadi. Juga, parameter yang ditentukan dapat digunakan saat membagi ke dalam kelompok lebih dari dua. Dalam situasi seperti itu, regresi logistik multinomial terjadi. Grup yang dihasilkan diekspresikan dalam level variabel tunggal.

Contoh

Misalkan ada jawaban responden atas pertanyaan apakah mereka tertarik dengan tawaran untuk membeli sebidang tanah di pinggiran kota Moskow. Pilihannya adalah "tidak"dan ya. Penting untuk mengetahui faktor-faktor mana yang memiliki pengaruh dominan terhadap keputusan pembeli potensial. Untuk melakukan ini, responden ditanyai pertanyaan tentang infrastruktur wilayah, jarak ke ibukota, luas situs, ada / tidaknya bangunan tempat tinggal, dll. Dengan menggunakan regresi biner, dimungkinkan untuk mendistribusikan responden menjadi dua kelompok. Yang pertama akan mencakup mereka yang tertarik dengan akuisisi - pembeli potensial, dan yang kedua, masing-masing, mereka yang tidak tertarik dengan penawaran semacam itu. Untuk setiap responden, selain itu, probabilitas untuk dimasukkan ke dalam satu atau beberapa kategori akan dihitung.

Karakteristik komparatif

Perbedaan dari kedua pilihan di atas adalah perbedaan jumlah kelompok dan jenis variabel terikat dan bebas. Dalam regresi biner, misalnya, ketergantungan faktor dikotomis pada satu atau lebih kondisi independen dipelajari. Selain itu, yang terakhir dapat memiliki semua jenis skala. Regresi multinomial dianggap sebagai variasi dari opsi klasifikasi ini. Di dalamnya, lebih dari 2 kelompok termasuk dalam variabel terikat. Faktor independen harus memiliki skala ordinal atau nominal.

Regresi logistik di spss

Dalam paket statistik 11-12, versi analisis baru diperkenalkan - ordinal. Metode ini digunakan ketika faktor dependen termasuk dalam skala nama (ordinal) yang sama. Dalam hal ini, variabel independen dipilih dari satu jenis tertentu. Mereka harus ordinal atau nominal. Klasifikasi ke dalam beberapa kategori dianggap yang palinguniversal. Metode ini dapat digunakan pada semua penelitian yang menggunakan regresi logistik. Namun, satu-satunya cara untuk meningkatkan kualitas model adalah dengan menggunakan ketiga teknik tersebut.

pemeriksaan kualitas yang memadai dan regresi logistik

Klasifikasi Ordinal

Harus dikatakan bahwa sebelumnya dalam paket statistik tidak ada kemungkinan khas untuk melakukan analisis khusus untuk faktor-faktor dependen dengan skala ordinal. Untuk semua variabel dengan lebih dari 2 kelompok, varian multinominal digunakan. Analisis ordinal yang relatif baru diperkenalkan memiliki sejumlah fitur. Mereka memperhitungkan spesifikasi skala. Sementara itu, dalam alat peraga, regresi logistik ordinal seringkali tidak dianggap sebagai teknik tersendiri. Hal ini disebabkan oleh hal-hal berikut: analisis ordinal tidak memiliki keunggulan yang signifikan dibandingkan multinomial. Peneliti mungkin menggunakan yang terakhir dengan adanya variabel dependen ordinal dan nominal. Pada saat yang sama, proses klasifikasi itu sendiri hampir tidak berbeda satu sama lain. Artinya melakukan analisis ordinal tidak akan menimbulkan kesulitan.

Opsi analisis

Mari kita pertimbangkan kasus sederhana - regresi biner. Misalkan, dalam proses riset pemasaran, permintaan lulusan universitas metropolitan tertentu dinilai. Dalam kuisioner tersebut, responden diberikan pertanyaan, antara lain:

Apakah Anda bekerja? (ql).
Masukkan tahun kelulusan (q 21).
Berapa rata-ratanyanilai kelulusan (rata-rata).
Jenis Kelamin (q22).

Regresi logistik akan mengevaluasi dampak faktor independen aver, q 21 dan q 22 pada variabel ql. Secara sederhana, tujuan dari analisis ini adalah untuk menentukan kemungkinan pekerjaan lulusan berdasarkan informasi tentang bidang, tahun kelulusan dan IPK.

Regresi Logistik

Untuk menyetel parameter menggunakan regresi biner, gunakan menu Analisis►Regresi►Logistik Biner. Di jendela Regresi Logistik, pilih faktor dependen dari daftar variabel yang tersedia di sebelah kiri. Ini adalah ql. Variabel ini harus ditempatkan di bidang Dependen. Setelah itu, perlu untuk memasukkan faktor independen ke dalam plot Kovariat - q 21, q 22, aver. Kemudian Anda harus memilih bagaimana memasukkannya ke dalam analisis Anda. Jika jumlah faktor independen lebih dari 2, maka metode pengenalan simultan semua variabel, yang ditetapkan secara default, digunakan, tetapi langkah demi langkah. Cara yang paling populer adalah Backward:LR. Dengan menggunakan tombol Pilih, Anda dapat memasukkan dalam penelitian tidak semua responden, tetapi hanya kategori target tertentu.

Define Categorical Variables

Tombol Kategoris harus digunakan ketika salah satu variabel bebas adalah nominal dengan lebih dari 2 kategori. Dalam situasi ini, di jendela Define Categorical Variables, parameter seperti itu ditempatkan pada bagian Categorical Covariates. Dalam contoh ini, tidak ada variabel seperti itu. Setelah itu, dalam daftar drop-down Kontras berikutpilih item Deviasi dan tekan tombol Ubah. Akibatnya, beberapa variabel dependen akan terbentuk dari setiap faktor nominal. Jumlah mereka sesuai dengan jumlah kategori dari kondisi awal.

Simpan Variabel Baru

Menggunakan tombol Simpan di kotak dialog utama penelitian, pembuatan parameter baru diatur. Mereka akan berisi indikator yang dihitung dalam proses regresi. Secara khusus, Anda dapat membuat variabel yang mendefinisikan:

Berasal dari kategori klasifikasi tertentu (Keanggotaan Grup).
Probabilitas menetapkan responden untuk setiap kelompok belajar (Probabilitas).

Saat menggunakan tombol Opsi, peneliti tidak mendapatkan opsi yang signifikan. Dengan demikian, itu dapat diabaikan. Setelah mengklik tombol "OK", hasil analisis akan ditampilkan di jendela utama.

Pemeriksaan kualitas untuk kecukupan dan regresi logistik

Perhatikan tabel Koefisien Model Uji Omnibus. Ini menampilkan hasil analisis kualitas aproksimasi model. Karena fakta bahwa opsi langkah demi langkah telah ditetapkan, Anda perlu melihat hasil dari tahap terakhir (Langkah2). Hasil positif akan dipertimbangkan jika peningkatan indikator Chi-kuadrat ditemukan ketika pindah ke tahap berikutnya pada tingkat signifikansi yang tinggi (Sig. < 0,05). Kualitas model dievaluasi dalam garis Model. Jika diperoleh nilai negatif, tetapi tidak dianggap signifikan dengan materialitas tinggi keseluruhan model, yang terakhirdapat dianggap cocok secara praktis.

Tabel

Ringkasan Model memungkinkan untuk memperkirakan indeks varians total, yang dijelaskan oleh model yang dibangun (indeks R Square). Disarankan untuk menggunakan nilai Nagelker. Parameter Nagelkerke R Square dapat dianggap sebagai indikator positif jika berada di atas 0,50. Setelah itu, hasil klasifikasi dievaluasi, di mana indikator aktual milik satu atau beberapa kategori yang diteliti dibandingkan dengan yang diprediksi berdasarkan model regresi. Untuk ini, Tabel Klasifikasi digunakan. Hal ini juga memungkinkan kita untuk menarik kesimpulan tentang kebenaran diferensiasi untuk setiap kelompok yang dipertimbangkan.

Tabel berikut memberikan kesempatan untuk mengetahui signifikansi statistik dari faktor-faktor independen yang dimasukkan ke dalam analisis, serta setiap koefisien regresi logistik yang tidak standar. Berdasarkan indikator-indikator ini, dimungkinkan untuk memprediksi kepemilikan setiap responden dalam sampel terhadap kelompok tertentu. Menggunakan tombol Simpan, Anda dapat memasukkan variabel baru. Mereka akan berisi informasi tentang termasuk dalam kategori klasifikasi tertentu (Predictedcategory) dan kemungkinan dimasukkan ke dalam grup ini (Predicted probability membership). Setelah mengklik "OK", hasil perhitungan akan muncul di jendela utama Regresi Logistik Multinomial.

Tabel pertama yang memuat indikator penting bagi peneliti adalah Model Fitting Information. Tingkat signifikansi statistik yang tinggi akan menunjukkan kualitas dankesesuaian penggunaan model dalam memecahkan masalah praktis. Tabel penting lainnya adalah Pseudo R-Square. Ini memungkinkan Anda untuk memperkirakan proporsi varians total dalam faktor dependen, yang ditentukan oleh variabel independen yang dipilih untuk analisis. Menurut tabel Tes Rasio Kemungkinan, kita dapat menarik kesimpulan tentang signifikansi statistik yang terakhir. Estimasi Parameter mencerminkan koefisien non-standar. Mereka digunakan dalam konstruksi persamaan. Selain itu, untuk setiap kombinasi variabel, signifikansi statistik dari dampaknya terhadap faktor dependen ditentukan. Sementara itu, dalam riset pemasaran, seringkali perlu untuk membedakan responden berdasarkan kategori tidak secara individual, tetapi sebagai bagian dari kelompok sasaran. Untuk ini, tabel Frekuensi yang Diamati dan Diprediksi digunakan.

Aplikasi praktis

Metode analisis yang dipertimbangkan banyak digunakan dalam pekerjaan para pedagang. Pada tahun 1991, indikator regresi sigmoid logistik dikembangkan. Ini adalah alat yang mudah digunakan dan efektif untuk memprediksi kemungkinan harga sebelum "terlalu panas". Indikator ditampilkan pada grafik sebagai saluran yang dibentuk oleh dua garis paralel. Mereka sama-sama berjarak dari tren. Lebar koridor hanya akan bergantung pada jangka waktu. Indikator ini digunakan saat bekerja dengan hampir semua aset - mulai dari pasangan mata uang hingga logam mulia.

Dalam praktiknya, 2 strategi utama untuk menggunakan instrumen telah dikembangkan: untuk breakout danuntuk giliran. Dalam kasus terakhir, pedagang akan fokus pada dinamika perubahan harga di dalam saluran. Saat nilainya mendekati garis support atau resistance, taruhan ditempatkan pada kemungkinan pergerakan akan dimulai dari arah yang berlawanan. Jika harga mendekati batas atas, maka Anda dapat menyingkirkan aset tersebut. Jika berada di batas bawah, maka Anda harus mempertimbangkan untuk membeli. Strategi breakout melibatkan penggunaan pesanan. Mereka dipasang di luar batas pada jarak yang relatif kecil. Mempertimbangkan bahwa harga dalam beberapa kasus melanggarnya untuk waktu yang singkat, Anda harus bermain aman dan mengatur stop loss. Pada saat yang sama, tentu saja, terlepas dari strategi yang dipilih, pedagang perlu memahami dan mengevaluasi situasi yang muncul di pasar setenang mungkin.

Kesimpulan

Dengan demikian, penggunaan regresi logistik memungkinkan Anda untuk dengan cepat dan mudah mengklasifikasikan responden ke dalam kategori sesuai dengan parameter yang diberikan. Saat menganalisis, Anda dapat menggunakan metode tertentu. Secara khusus, regresi multinomial bersifat universal. Namun, para ahli merekomendasikan untuk menggunakan semua metode yang dijelaskan di atas dalam kombinasi. Ini disebabkan oleh fakta bahwa dalam hal ini kualitas model akan jauh lebih tinggi. Ini, pada gilirannya, akan memperluas jangkauan aplikasinya.