Data Mining adalah Konsep, analisis algoritma, tujuan dan aplikasi

Daftar Isi:

Data Mining adalah Konsep, analisis algoritma, tujuan dan aplikasi
Data Mining adalah Konsep, analisis algoritma, tujuan dan aplikasi
Anonim

Perkembangan teknologi informasi membawa hasil yang praktis. Tetapi tugas-tugas seperti menemukan, menganalisis, dan menggunakan informasi belum menerima alat berkualitas tinggi yang efektif. Ada alat analitik dan kuantitatif, mereka benar-benar berfungsi. Namun revolusi kualitatif dalam penggunaan informasi belum terjadi.

Jauh sebelum munculnya teknologi komputer, seseorang perlu memproses sejumlah besar informasi dan mengatasinya dengan pengalaman terbaiknya dan kemampuan teknis yang tersedia.

Pengembangan pengetahuan dan keterampilan selalu memenuhi kebutuhan nyata dan sesuai dengan tugas saat ini. Data mining adalah nama kolektif yang digunakan untuk merujuk pada seperangkat metode untuk menemukan pengetahuan yang sebelumnya tidak diketahui, non-sepele, praktis berguna dan dapat diakses dalam data, yang diperlukan untuk membuat keputusan di berbagai bidang aktivitas manusia.

Manusia, kecerdasan, pemrograman

Seseorang selalu tahu bagaimana harus bertindak dalam situasi apa pun. Ketidaktahuan atau situasi yang tidak biasa tidak menghalanginya untuk mengambil keputusan. Objektivitas dan kewajaran dari setiap keputusan manusia dapat dipertanyakan, tetapi itu akan diterima.

Kecerdasan didasarkan pada: "mekanisme" turun-temurun, pengetahuan aktif yang diperoleh. Pengetahuan diterapkan untuk memecahkan masalah yang muncul di hadapan seseorang.

  1. Kecerdasan adalah seperangkat pengetahuan dan keterampilan yang unik: peluang dan landasan bagi kehidupan dan pekerjaan manusia.
  2. Kecerdasan terus berkembang, dan tindakan manusia berdampak pada orang lain.

Pemrograman adalah upaya pertama untuk memformalkan representasi data dan proses pembuatan algoritma.

Manusia, kecerdasan, pemrograman
Manusia, kecerdasan, pemrograman

Kecerdasan buatan (AI) adalah pemborosan waktu dan sumber daya, tetapi hasil dari upaya yang gagal dari abad terakhir di bidang AI tetap ada dalam ingatan, digunakan dalam berbagai sistem pakar (cerdas) dan diubah, khususnya, ke dalam algoritma (aturan) dan analisis data matematis (logis) dan Data Mining.

Informasi dan pencarian solusi yang biasa

Perpustakaan biasa adalah gudang pengetahuan, dan kata dan grafik yang dicetak belum menghasilkan teknologi komputer telapak tangan. Buku-buku tentang fisika, kimia, mekanika teoretis, desain, sejarah alam, filsafat, ilmu alam, botani, buku teks, monograf, karya ilmuwan, materi konferensi, laporan tentang pekerjaan pembangunan, dll. selalu relevan dan dapat diandalkan.

Perpustakaan adalah banyak sumber berbeda yang berbedabentuk penyajian materi, asal, struktur, isi, gaya penyajian, dll.

Perpustakaan: buku, majalah, dan barang cetakan lainnya
Perpustakaan: buku, majalah, dan barang cetakan lainnya

Secara lahiriah semuanya terlihat (dapat dibaca, dapat diakses) untuk dipahami dan digunakan. Anda dapat memecahkan masalah apa pun, mengatur tugas dengan benar, membenarkan solusi, menulis esai atau makalah, memilih materi untuk diploma, menganalisis sumber tentang topik disertasi atau laporan ilmiah dan analitis.

Masalah informasi apa pun dapat diselesaikan. Dengan ketekunan dan keterampilan, hasil yang akurat dan dapat diandalkan akan diperoleh. Dalam konteks ini, Data Mining adalah pendekatan yang sama sekali berbeda.

Selain hasil, seseorang menerima "tautan aktif" ke segala sesuatu yang dilihat dalam proses mencapai tujuan. Sumber yang ia gunakan dalam memecahkan masalah dapat dirujuk dan tidak ada yang akan membantah fakta keberadaan sumber. Ini bukan jaminan keaslian, tetapi ini adalah kesaksian pasti kepada siapa tanggung jawab atas keaslian "dihentikan". Dari sudut pandang ini, Data Mining berarti keraguan besar tentang keandalan dan tidak ada tautan "aktif".

Dengan memecahkan beberapa masalah, seseorang mendapatkan hasil dan mengembangkan potensi intelektualnya ke banyak "tautan aktif". Jika tugas baru "mengaktifkan" tautan yang sudah ada, orang tersebut akan tahu cara menyelesaikannya: tidak perlu mencari apa pun lagi.

"Tautan aktif" adalah asosiasi tetap: bagaimana dan apa yang harus dilakukan dalam kasus tertentu. Otak manusia secara otomatis mengingat segala sesuatu yang tampaknya berpotensi menarik, berguna.atau mungkin dibutuhkan di masa depan. Dalam banyak hal, ini terjadi pada tingkat bawah sadar, tetapi segera setelah tugas muncul yang dapat dikaitkan dengan "tautan aktif", itu langsung muncul di pikiran dan solusi akan diperoleh tanpa pencarian informasi tambahan. Data Mining selalu merupakan pengulangan dari algoritma pencarian dan algoritma ini tidak berubah.

Pencarian biasa: masalah "artistik"

Perpustakaan matematika dan mencari informasi di dalamnya adalah tugas yang relatif lemah. Menemukan satu atau lain cara untuk memecahkan integral, membangun matriks, atau melakukan operasi penjumlahan dua bilangan imajiner itu sulit, tetapi sederhana. Anda perlu memilah-milah sejumlah buku, banyak di antaranya ditulis dalam bahasa tertentu, menemukan teks yang tepat, mempelajarinya, dan mendapatkan solusi yang diperlukan.

Seiring waktu, enumerasi akan menjadi akrab, dan akumulasi pengalaman akan memungkinkan Anda untuk menavigasi informasi perpustakaan dan masalah matematika lainnya. Ini adalah ruang informasi pertanyaan dan jawaban yang terbatas. Fitur karakteristik: pencarian informasi semacam itu mengumpulkan pengetahuan untuk memecahkan masalah serupa. Pencarian informasi seseorang meninggalkan jejak ("tautan aktif") dalam ingatannya tentang kemungkinan solusi untuk masalah lain.

Dalam fiksi, temukan jawaban atas pertanyaan: "Bagaimana orang hidup pada Januari 1248?" sangat keras. Bahkan lebih sulit untuk menjawab pertanyaan tentang apa yang ada di rak-rak toko dan bagaimana perdagangan makanan diatur. Bahkan jika beberapa penulis secara jelas dan langsung menulis tentang ini dalam novelnya, jika nama penulis ini dapat ditemukan, maka keraguan tentangkeandalan data yang diterima akan tetap ada. Keandalan adalah karakteristik penting dari sejumlah informasi. Sumber, penulis dan bukti yang mengecualikan kepalsuan hasil adalah penting.

Keadaan objektif dari situasi tertentu

Manusia melihat, mendengar, merasakan. Beberapa spesialis fasih dalam perasaan unik - intuisi. Rumusan masalah membutuhkan informasi, proses pemecahan masalah paling sering disertai dengan penyempurnaan pernyataan masalah. Ini adalah masalah yang lebih kecil yang datang dengan memindahkan informasi ke dalam sistem komputer.

Informasi di ruang maya
Informasi di ruang maya

Perpustakaan dan rekan kerja adalah peserta tidak langsung dalam proses pengambilan keputusan. Desain buku (sumber), grafik dalam teks, fitur pemisahan informasi menjadi judul, catatan kaki dengan frasa, indeks subjek, daftar sumber utama - semuanya membangkitkan asosiasi dalam diri seseorang yang secara tidak langsung memengaruhi proses penyelesaian masalahnya.

Waktu dan tempat penyelesaian masalah sangat penting. Seseorang diatur sedemikian rupa sehingga dia tanpa sadar memperhatikan segala sesuatu yang mengelilinginya dalam proses penyelesaian suatu masalah. Itu bisa mengganggu, atau bisa merangsang. Data Mining tidak akan pernah "mengerti".

Informasi dalam ruang maya

Seseorang selalu tertarik hanya pada informasi yang dapat dipercaya tentang suatu peristiwa, fenomena, objek, algoritma untuk memecahkan masalah. Manusia selalu membayangkan dengan tepat bagaimana ia dapat mencapai tujuan yang diinginkan.

Tampilan komputer dan sistem informasi seharusnya membuat hidup seseorang lebih mudah, tetapi semuanya menjadi semakin rumit. Informasi bermigrasi ke perut sistem komputer dan menghilang dari pandangan. Untuk memilih data yang diperlukan, Anda perlu membuat algoritme yang benar atau merumuskan kueri ke database.

Data di dalam sistem informasi
Data di dalam sistem informasi

Pertanyaan harus benar. Hanya dengan begitu Anda bisa mendapatkan jawaban. Tetapi keraguan tentang keasliannya tetap ada. Dalam pengertian ini, Data Mining benar-benar "penggalian", itu adalah "ekstraksi informasi". Ini adalah bagaimana modis untuk menerjemahkan frasa ini. Versi Rusia adalah data mining atau teknologi data mining.

Dalam pekerjaan spesialis otoritatif, tugas Data Mining ditunjukkan sebagai berikut:

  • klasifikasi;
  • pengelompokan;
  • asosiasi;
  • urutan;
  • perkiraan.

Dari sudut pandang praktik yang memandu seseorang dalam pemrosesan informasi secara manual, semua posisi ini dapat diperdebatkan. Bagaimanapun, seseorang memproses informasi secara otomatis dan tidak berpikir tentang mengklasifikasikan data, menyusun kelompok tematik objek (pengelompokan), mencari pola temporal (urutan) atau memprediksi hasilnya.

Semua posisi ini dalam pikiran manusia diwakili oleh pengetahuan aktif, yang mencakup lebih banyak posisi dan secara dinamis menggunakan logika pemrosesan data awal. Alam bawah sadar seseorang memainkan peran penting, terutama ketika ia adalah seorang spesialis dalam bidang pengetahuan tertentu.

Contoh: Grosir peralatan komputer

Tugasnya sederhana. Ada beberapapuluhan pemasok peralatan komputer dan periferal. Masing-masing memiliki daftar harga dalam format xls (file Excel), yang dapat diunduh dari situs web resmi pemasok. Diperlukan untuk membuat sumber daya web yang membaca file Excel, mengubahnya menjadi tabel database dan memungkinkan pelanggan untuk memilih produk yang diinginkan dengan harga terendah.

Masalah segera muncul. Setiap pemasok menawarkan versi struktur dan konten file xlsnya sendiri. Anda bisa mendapatkan file dengan mendownloadnya dari website pemasok, memesannya melalui email, atau mendapatkan link download melalui akun pribadi Anda, yaitu dengan mendaftar secara resmi ke pemasok.

Toko Komputer Virtual
Toko Komputer Virtual

Pemecahan masalah (pada awalnya) secara teknologi sederhana. Memuat file (data awal), algoritma pengenalan file ditulis untuk setiap pemasok dan data ditempatkan dalam satu tabel besar data awal. Setelah semua data diterima, setelah mekanisme pertukaran terus menerus (harian, mingguan atau saat berubah) data baru telah ditetapkan:

  • ubah bermacam-macam;
  • perubahan harga;
  • klarifikasi jumlah stok;
  • penyesuaian ketentuan garansi, spesifikasi, dll.

Di sinilah masalah sebenarnya dimulai. Soalnya supplier bisa menulis:

  • notebook Acer;
  • notebook Asus;
  • laptop Dell.

Kita berbicara tentang produk yang sama, tetapi dari produsen yang berbeda. Bagaimana cara mencocokkan notebook=laptop atau cara menghapus Acer, Asus dan Dell dari lini produk?

Untukmanusia bukanlah masalah, tetapi bagaimana algoritme "memahami" bahwa Acer, Asus, Dell, Samsung, LG, HP, Sony adalah merek dagang atau pemasok? Bagaimana cara mencocokkan "printer" dan printer, "scanner" dan "MFP", "copier" dan "MFP", "headphone" dengan "headset", "aksesoris" dengan "aksesori"?

Membangun pohon kategori berdasarkan data sumber (file sumber) sudah menjadi masalah ketika Anda perlu mengatur semuanya ke otomatis.

Pengambilan sampel data: penggalian "baru dituangkan"

Tugas membuat database pemasok peralatan komputer telah diselesaikan. Pohon kategori telah dibangun, tabel umum dengan penawaran dari semua pemasok berfungsi.

Tugas Data Mining Tipikal dalam konteks contoh ini:

  • temukan produk dengan harga terendah;
  • pilih barang dengan biaya dan harga pengiriman terendah;
  • analisis produk: karakteristik dan harga berdasarkan kriteria.

Dalam pekerjaan nyata seorang manajer yang menggunakan data dari beberapa lusin pemasok, akan ada banyak variasi tugas ini, dan bahkan situasi yang lebih nyata.

Misalnya ada pemasok "A" yang menjual ASUS VivoBook S15: pembayaran di muka, pengiriman 5 hari setelah penerimaan uang yang sebenarnya. Ada pemasok "B" dari produk yang sama dengan model yang sama: pembayaran setelah diterima, pengiriman setelah kontrak selesai dalam sehari, harganya satu setengah kali lebih tinggi.

Data Mining dimulai - "penggalian". Ekspresi kiasan: "penggalian" atau "penambangan data" adalah sinonim. Ini tentang bagaimana mendapatkan alasan untuk mengambil keputusan.

Pemasok "A" dan "B" memiliki riwayat pengiriman. Nilaipembayaran di muka dalam kasus pertama terhadap pembayaran pada penerimaan dalam kasus kedua, dengan mempertimbangkan bahwa kegagalan pengiriman dalam kasus kedua adalah 65% lebih tinggi. Risiko pen alti dari klien lebih tinggi/rendah. Bagaimana dan apa yang harus ditentukan dan keputusan apa yang harus diambil?

Di sisi lain: database dibuat oleh programmer dan manajer. Jika programmer dan manajer telah berubah, bagaimana cara menentukan status database saat ini dan mempelajari cara menggunakannya dengan benar? Anda juga harus melakukan penambangan data. Data Mining menawarkan berbagai metode matematis dan logis yang tidak peduli jenis data apa yang sedang diteliti. Ini memberikan solusi yang benar dalam beberapa kasus, tetapi tidak semuanya.

Pindah ke virtualitas dan menemukan makna

Metode Data Mining menjadi bermakna segera setelah informasi ditulis ke dalam database dan menghilang dari "bidang pandang". Perdagangan peralatan komputer adalah tugas yang menarik, tetapi ini hanya bisnis. Seberapa baik dia diatur dalam perusahaan tergantung pada keberhasilannya.

Perubahan iklim di planet ini dan cuaca di kota tertentu menarik bagi semua orang, bukan hanya pakar iklim profesional. Ribuan sensor mengambil pembacaan angin, kelembaban, tekanan, data dari satelit Bumi buatan dan ada sejarah data selama bertahun-tahun.

Data cuaca bukan hanya tentang memutuskan apakah akan membawa payung ke tempat kerja atau tidak. Teknologi Data Mining adalah penerbangan pesawat yang aman, pengoperasian jalan raya yang stabil, dan pasokan produk minyak bumi yang andal melalui laut.

Data "mentah" dikirim ke informasisistem. Tugas Data Mining adalah mengubahnya menjadi sistem tabel yang sistematis, membuat tautan, menyoroti kelompok data yang homogen, dan mendeteksi pola.

Iklim, cuaca, dan data mentah
Iklim, cuaca, dan data mentah

Metode matematis dan logis sejak zaman analitik kuantitatif OLAP (On-line Analytical Processing) telah menunjukkan kepraktisannya. Di sini, teknologi memungkinkan Anda menemukan makna, dan tidak kehilangannya, seperti dalam contoh penjualan peralatan komputer.

Selain itu, dalam tugas global:

  • bisnis transnasional;
  • manajemen transportasi udara;
  • studi perut bumi atau masalah sosial (di tingkat negara);
  • studi efek obat pada organisme hidup;
  • memprediksi konsekuensi dari pembangunan perusahaan industri, dll.

Teknologi Data Mine dan mengubah data "tidak berarti" menjadi data nyata yang memungkinkan Anda membuat keputusan yang objektif adalah satu-satunya pilihan.

Kemungkinan manusia berakhir di mana ada sejumlah besar informasi mentah. Sistem data mining kehilangan kegunaannya ketika diperlukan untuk melihat, memahami, dan merasakan informasi.

Distribusi fungsi dan objektivitas yang wajar

Manusia dan komputer harus saling melengkapi - ini adalah aksioma. Menulis disertasi adalah prioritas bagi seseorang, dan sistem informasi adalah bantuan. Di sini, data yang dimiliki teknologi Data Mining adalah heuristik, aturan, algoritma.

Menyiapkan prakiraan cuaca mingguan adalah prioritas sistem informasi. Manusia mengelola data, tetapi mendasarkan keputusannya pada hasil perhitungan sistem. Ini menggabungkan metode Data Mining, klasifikasi data spesialis, kontrol manual penerapan algoritma, perbandingan otomatis data masa lalu, peramalan matematis dan banyak pengetahuan dan keterampilan orang-orang nyata yang terlibat dalam penerapan sistem informasi.

Manusia dan komputer
Manusia dan komputer

Teori probabilitas dan statistik matematika bukanlah bidang pengetahuan yang paling "favorit" dan dapat dipahami. Banyak spesialis sangat jauh dari mereka, tetapi metode yang dikembangkan di bidang ini memberikan hasil yang hampir 100% benar. Dengan menerapkan sistem berdasarkan ide, metode, dan algoritma Data Mining, solusi dapat diperoleh secara objektif dan andal. Jika tidak, tidak mungkin mendapatkan solusi.

Firaun dan misteri abad yang lalu

Sejarah secara berkala ditulis ulang:

  • negara - demi kepentingan strategis mereka;
  • ilmuwan otoritatif - demi keyakinan subjektif mereka.

Sulit membedakan mana yang benar dan mana yang salah. Penggunaan Data Mining memungkinkan kita untuk memecahkan masalah ini. Misalnya, teknologi membangun piramida dijelaskan oleh para penulis sejarah dan dipelajari oleh para ilmuwan di abad yang berbeda. Tidak semua materi ada di Internet, tidak semuanya unik di sini, dan banyak data mungkin tidak memiliki:

  • deskripsikan titik waktu;
  • waktu penulisan deskripsi;
  • tanggal di mana deskripsi didasarkan;
  • penulis, pendapat (tautan) diperhitungkan;
  • konfirmasi objektivitas.

Bperpustakaan, kuil, dan "tempat tak terduga" Anda dapat menemukan manuskrip dari berbagai abad dan bukti material masa lalu.

Tujuan menarik: menyatukan semuanya dan mengungkap "kebenaran". Fitur masalah: informasi dapat diperoleh dari deskripsi pertama oleh seorang penulis sejarah, selama masa hidup para firaun, hingga abad saat ini, di mana masalah ini diselesaikan dengan metode modern oleh banyak ilmuwan.

Alasan penggunaan Data Mining: tenaga kerja manual tidak memungkinkan. Terlalu banyak kuantitas:

  • sumber informasi;
  • bahasa representasi;
  • peneliti mendeskripsikan hal yang sama dengan cara yang berbeda;
  • tanggal, acara dan ketentuan;
  • masalah korelasi istilah;
  • analisis statistik berdasarkan kelompok data dari waktu ke waktu mungkin berbeda, dll.

Pada akhir abad terakhir, ketika kegagalan lain dari gagasan kecerdasan buatan menjadi jelas tidak hanya bagi orang awam, tetapi juga oleh spesialis yang canggih, gagasan itu muncul: "untuk menciptakan kembali kepribadian."

Misalnya, menurut karya Pushkin, Gogol, Chekhov, sistem aturan tertentu, logika perilaku dibentuk dan sistem informasi dibuat yang dapat menjawab pertanyaan tertentu seperti yang dilakukan seseorang: Pushkin, Gogol atau Chekhov. Secara teoritis, tugas seperti itu menarik, tetapi dalam praktiknya sangat sulit untuk diterapkan.

Namun, gagasan tugas semacam itu menunjukkan gagasan yang sangat praktis: "cara membuat pencarian informasi yang cerdas." Internet memiliki banyak sumber daya yang berkembang, basis data yang sangat besar, dan ini adalah peluang bagus untuk menerapkan Data Mining dalam kombinasi dengan manusialogika dalam format pengembangan bersama.

Mesin dan manusia bersama
Mesin dan manusia bersama

Sebuah mesin dan seorang pria yang dipasangkan adalah tugas yang sangat baik dan kesuksesan yang tidak diragukan lagi di bidang "arkeologi informasi", penggalian data dan hasil berkualitas tinggi yang akan meragukan sesuatu, tetapi tanpa keraguan akan memungkinkan Anda untuk menimba ilmu baru dan akan diminati di masyarakat.

Direkomendasikan: