Penskalaan multidimensi: definisi, tujuan, sasaran, dan contoh

Daftar Isi:

Penskalaan multidimensi: definisi, tujuan, sasaran, dan contoh
Penskalaan multidimensi: definisi, tujuan, sasaran, dan contoh
Anonim

Multivariate scaling (MDS) adalah alat untuk memvisualisasikan tingkat kesamaan kasus individual dalam kumpulan data. Ini mengacu pada seperangkat metode pentahbisan terkait yang digunakan dalam visualisasi informasi, khususnya untuk menampilkan informasi yang terkandung dalam matriks jarak. Ini adalah bentuk pengurangan dimensi non-linier. Algoritma MDS bertujuan untuk menempatkan setiap objek dalam ruang N-dimensi sedemikian rupa sehingga jarak antar objek dipertahankan sebaik mungkin. Setiap objek kemudian diberi koordinat di masing-masing N dimensi.

Jumlah dimensi grafik MDS dapat melebihi 2 dan ditentukan secara apriori. Memilih N=2 mengoptimalkan penempatan objek untuk scatterplot 2D. Anda dapat melihat contoh penskalaan multidimensi pada gambar di artikel. Contoh dengan simbol dalam bahasa Rusia sangat ilustratif.

Penskalaan multidimensi
Penskalaan multidimensi

Esensi

Metode penskalaan multidimensi (MMS,MDS) adalah seperangkat alat klasik yang diperluas yang menggeneralisasi prosedur optimasi untuk satu set fungsi kerugian dan matriks input dari jarak yang diketahui dengan bobot dan sebagainya. Dalam konteks ini, fungsi kerugian yang berguna disebut stres, yang sering diminimalkan dengan prosedur yang disebut mayorisasi stres.

Manual

Ada beberapa opsi untuk penskalaan multidimensi. Program MDS secara otomatis meminimalkan beban untuk mendapatkan solusi. Inti dari algoritma MDS nonmetrik adalah proses optimasi ganda. Pertama, transformasi kedekatan monotonik yang optimal harus ditemukan. Kedua, titik konfigurasi harus diposisikan secara optimal sehingga jaraknya sedekat mungkin dengan nilai kedekatan yang diskalakan.

Contoh penskalaan multidimensi
Contoh penskalaan multidimensi

Perluasan

Perpanjangan penskalaan multidimensi metrik dalam statistik di mana ruang target adalah ruang non-Euclidean mulus arbitrer. Dimana perbedaannya adalah jarak pada permukaan dan ruang target adalah permukaan yang berbeda. Program tematik memungkinkan Anda menemukan lampiran dengan distorsi minimal dari satu permukaan ke permukaan lainnya.

Langkah

Ada beberapa langkah dalam melakukan penelitian dengan menggunakan multivariate scaling:

  1. Perumusan masalah. Variabel apa yang ingin Anda bandingkan? Berapa banyak variabel yang ingin Anda bandingkan? Untuk tujuan apa penelitian ini akan digunakan?
  2. Mendapatkan data masukan. Responden diberikan serangkaian pertanyaan. Untuk setiap pasangan produk, mereka diminta untuk menilai kesamaan (biasanya pada skala Likert 7 poin dari sangat mirip hingga sangat tidak mirip). Pertanyaan pertama bisa untuk Coca-Cola/Pepsi, misalnya, berikutnya untuk bir, berikutnya untuk Dr. Pepper, dll. Jumlah pertanyaan tergantung pada jumlah merek.
Penskalaan jarak
Penskalaan jarak

Pendekatan alternatif

Ada dua pendekatan lain. Ada teknik yang disebut "Data Perceptual: Derived Approach" di mana produk didekomposisi menjadi atribut dan evaluasi dilakukan pada skala diferensial semantik. Metode lain adalah “pendekatan data preferensi”, di mana responden ditanya tentang preferensi daripada kesamaan.

Ini terdiri dari langkah-langkah berikut:

  1. Meluncurkan program statistik MDS. Perangkat lunak untuk melakukan prosedur tersedia dalam banyak paket perangkat lunak statistik. Seringkali ada pilihan antara MDS metrik (yang berhubungan dengan interval atau data tingkat rasio) dan MDS non-metrik (yang berhubungan dengan data ordinal).
  2. Menentukan jumlah pengukuran. Peneliti harus menentukan jumlah pengukuran yang ingin dia buat di komputer. Semakin banyak pengukuran, semakin baik kecocokan statistik, tetapi semakin sulit untuk menginterpretasikan hasilnya.
  3. Menampilkan hasil dan menentukan pengukuran - program statistik (atau modul terkait) akan menampilkan hasilnya. Peta akan menampilkan setiap produk (biasanya dalam 2D).ruang angkasa). Kedekatan produk satu sama lain menunjukkan kesamaan atau preferensi mereka, tergantung pada pendekatan yang digunakan. Namun, bagaimana pengukuran sebenarnya sesuai dengan pengukuran perilaku sistem tidak selalu jelas. Penilaian subjektif dari kesesuaian dapat dibuat di sini.
  4. Periksa hasil untuk reliabilitas dan validitas - hitung R-kuadrat untuk menentukan proporsi varians data berskala yang dapat diperhitungkan oleh prosedur MDS. Persegi R 0,6 dianggap sebagai tingkat minimum yang dapat diterima. R kuadrat 0,8 dianggap baik untuk penskalaan metrik, sedangkan 0,9 dianggap baik untuk penskalaan non-metrik.
Hasil penskalaan multivarian
Hasil penskalaan multivarian

Berbagai tes

Pengujian lain yang mungkin dilakukan adalah uji tegangan tipe Kruskal, uji data terpisah, uji stabilitas data, dan uji reliabilitas pengujian ulang. Tulis secara rinci tentang hasil dalam tes. Seiring dengan pemetaan, setidaknya ukuran jarak (misalnya indeks Sorenson, indeks Jaccard) dan keandalan (misalnya nilai tegangan) harus ditentukan.

Hal ini juga sangat diinginkan untuk memberikan algoritma (misalnya Kruskal, Mather) yang sering ditentukan oleh program yang digunakan (kadang-kadang mengganti laporan algoritma), jika Anda telah memberikan konfigurasi awal atau memiliki pilihan acak, nomor dari dimensi berjalan, hasil Monte Carlo, jumlah iterasi, skor stabilitas, dan varians proporsional setiap sumbu (r-kuadrat).

Informasi visual dan metode analisis datapenskalaan multidimensi

Visualisasi informasi adalah studi tentang representasi interaktif (visual) dari data abstrak untuk meningkatkan kognisi manusia. Data abstrak mencakup data numerik dan non-numerik seperti informasi tekstual dan geografis. Namun, visualisasi informasi berbeda dari visualisasi ilmiah: “itu adalah informasional (visualisasi informasi) ketika representasi spasial dipilih, dan scivis (visualisasi ilmiah) ketika representasi spasial diberikan.”

Bidang visualisasi informasi muncul dari penelitian dalam interaksi manusia-komputer, aplikasi ilmu komputer, grafik, desain visual, psikologi, dan metode bisnis. Ini semakin banyak digunakan sebagai komponen penting dalam penelitian ilmiah, perpustakaan digital, penambangan data, data keuangan, riset pasar, kontrol produksi, dan sebagainya.

Metode dan prinsip

Visualisasi informasi menunjukkan bahwa metode visualisasi dan interaksi memanfaatkan kekayaan persepsi manusia, memungkinkan pengguna untuk melihat, menjelajahi, dan memahami sejumlah besar informasi secara bersamaan. Visualisasi informasi bertujuan untuk menciptakan pendekatan untuk mengkomunikasikan data abstrak, informasi dengan cara yang intuitif.

Penskalaan multidimensi warna
Penskalaan multidimensi warna

Analisis data merupakan bagian integral dari semua penelitian terapan dan pemecahan masalah di industri. PalingPendekatan mendasar untuk analisis data adalah visualisasi (histogram, plot sebar, plot permukaan, peta pohon, plot koordinat paralel, dll.), statistik (pengujian hipotesis, regresi, PCA, dll.), analisis data (pencocokan, dll.)..d.) dan metode pembelajaran mesin (pengelompokan, klasifikasi, pohon keputusan, dll.).

Di antara pendekatan ini, visualisasi informasi atau analisis data visual adalah yang paling bergantung pada keterampilan kognitif staf analitis dan memungkinkan penemuan wawasan tidak terstruktur yang dapat ditindaklanjuti yang hanya dibatasi oleh imajinasi dan kreativitas manusia. Seorang analis tidak perlu mempelajari teknik yang rumit untuk dapat menginterpretasikan visualisasi data. Visualisasi informasi juga merupakan skema pembangkitan hipotesis yang dapat dan biasanya disertai dengan analisis yang lebih analitis atau formal seperti pengujian hipotesis statistik.

Belajar

Studi modern tentang visualisasi dimulai dengan grafik komputer, yang "sejak awal digunakan untuk mempelajari masalah ilmiah. Namun, pada tahun-tahun awal, kurangnya kekuatan grafik sering membatasi kegunaannya. Prioritas pada visualisasi dimulai berkembang pada tahun 1987, dengan dirilisnya perangkat lunak khusus untuk Grafik Komputer dan Visualisasi dalam Komputasi Ilmiah Sejak saat itu, telah ada beberapa konferensi dan lokakarya yang diselenggarakan bersama oleh IEEE Computer Society dan ACM SIGGRAPH".

Mereka membahas topik umum visualisasi data, visualisasi informasi dan visualisasi ilmiah,serta area yang lebih spesifik seperti rendering volume.

Penskalaan merek multidimensi
Penskalaan merek multidimensi

Ringkasan

Generalized Multidimensional Scaling (GMDS) adalah perluasan dari penskalaan multidimensi metrik di mana ruang target adalah non-Euclidean. Ketika perbedaannya adalah jarak pada suatu permukaan, dan ruang target adalah permukaan lain, GMDS memungkinkan Anda menemukan sarang dari satu permukaan ke permukaan lainnya dengan distorsi minimal.

GMDS adalah penelitian baru. Saat ini, aplikasi utama adalah pengenalan objek yang dapat dideformasi (misalnya, untuk pengenalan wajah 3D) dan pemetaan tekstur.

Tujuan penskalaan multidimensi adalah untuk merepresentasikan data multidimensi. Data multidimensi, yaitu data yang membutuhkan lebih dari dua atau tiga dimensi untuk direpresentasikan, bisa jadi sulit untuk diinterpretasikan. Salah satu pendekatan untuk penyederhanaan adalah dengan mengasumsikan bahwa data yang menarik terletak pada manifold non-linier yang tertanam dalam ruang dimensi tinggi. Jika kolektor memiliki dimensi yang cukup rendah, data dapat divisualisasikan dalam ruang berdimensi rendah.

Banyak metode reduksi dimensi non-linier terkait dengan metode linier. Metode nonlinier dapat secara luas diklasifikasikan menjadi dua kelompok: metode yang menyediakan pemetaan (baik dari ruang berdimensi tinggi ke penyisipan dimensi rendah, atau sebaliknya), dan metode yang hanya menyediakan visualisasi. Dalam konteks pembelajaran mesin, metode pemetaan dapat dilihat sebagaitahap awal ekstraksi fitur, setelah algoritma pengenalan pola diterapkan. Biasanya yang hanya memberikan visualisasi didasarkan pada data kedekatan - yaitu pengukuran jarak. Penskalaan multidimensi juga cukup umum dalam psikologi dan humaniora lainnya.

Penskalaan multidimensi diagonal
Penskalaan multidimensi diagonal

Jika jumlah atribut besar, maka ruang kemungkinan string unik juga besar secara eksponensial. Dengan demikian, semakin besar dimensinya, semakin sulit untuk menggambarkan ruang. Ini menyebabkan banyak masalah. Algoritma yang beroperasi pada data berdimensi tinggi cenderung memiliki kompleksitas waktu yang sangat tinggi. Mengurangi data ke dimensi yang lebih sedikit sering kali membuat algoritme analisis lebih efisien dan dapat membantu algoritme pembelajaran mesin membuat prediksi yang lebih akurat. Inilah mengapa penskalaan data multidimensi sangat populer.

Direkomendasikan: