Analisis teks frekuensi: fitur dan contoh

Daftar Isi:

Analisis teks frekuensi: fitur dan contoh
Analisis teks frekuensi: fitur dan contoh
Anonim

Anda telah bertemu konsep ini lebih dari sekali dalam hidup Anda jika Anda harus bekerja dengan teks. Secara khusus, Anda dapat beralih ke kalkulator online yang melakukan analisis frekuensi teks dengan tepat. Alat praktis ini menunjukkan berapa kali karakter atau huruf tertentu muncul di setiap bagian teks. Seringkali persentase juga ditampilkan. Mengapa ini dibutuhkan? Bagaimana analisis frekuensi teks berkontribusi pada "retak" sandi sederhana? Apa esensinya, siapa yang menciptakannya? Kami akan menjawab ini dan pertanyaan penting lainnya tentang topik ini selama artikel.

Definisi

Analisis frekuensi adalah salah satu jenis kriptanalisis. Hal ini didasarkan pada asumsi para ilmuwan tentang keberadaan distribusi statistik non-trivial karakter individu dan urutan regulernya baik dalam teks biasa maupun teks sandi.

Dipercaya bahwa distribusi seperti itu, hingga penggantian karakter individu, juga akan dipertahankan dalam proses enkripsi/dekripsi.

analisis frekuensi sistem
analisis frekuensi sistem

Karakteristik proses

Sekarang mari kita lihat analisis frekuensi secara sederhana. Ini menyiratkan bahwa jumlah kemunculan karakter alfabet yang sama dalam teks-teks yang cukup panjang adalah sama dalam teks-teks berbeda yang ditulis dalam bahasa yang sama.

Dan sekarang bagaimana dengan enkripsi monoalfabetik? Diasumsikan bahwa jika ada karakter dengan probabilitas kemunculan yang serupa di bagian dengan ciphertext, maka realistis untuk mengasumsikan bahwa itu adalah huruf yang di-cipher.

Pengikut analisis teks frekuensi menerapkan alasan yang sama untuk digram (urutan dua huruf). Trigram - ini untuk kasus sandi yang sudah polialfabet.

Sejarah metode

Analisis frekuensi kata bukanlah penemuan modernitas. Telah dikenal dunia ilmiah sejak abad ke-9. Penciptaannya dikaitkan dengan nama Al-Kindi.

Tetapi kasus-kasus penerapan metode analisis frekuensi yang diketahui berasal dari periode yang jauh kemudian. Contoh paling mencolok di sini adalah penguraian hieroglif Mesir, yang diproduksi pada tahun 1822 oleh J.-F. Champollion.

Jika kita beralih ke fiksi, kita dapat menemukan banyak referensi menarik untuk metode dekripsi ini:

  • Conan Doyle - "The Dancing Men".
  • Jules Verne - "Anak-anak Kapten Grant".
  • Edgar Poe - "Kutu Emas".

Namun, sejak pertengahan abad terakhir, sebagian besar algoritma yang digunakan dalam enkripsi telah dikembangkan dengan mempertimbangkan ketahanannya terhadap kriptanalisis frekuensi tersebut. Oleh karena ituhari ini mereka paling sering digunakan hanya untuk melatih kriptografer masa depan.

analisis frekuensi teks
analisis frekuensi teks

Metode dasar

Sekarang mari kita sajikan analisis respons frekuensi secara rinci. Analisis semacam ini secara langsung didasarkan pada fakta bahwa tes terdiri dari kata-kata, dan pada gilirannya, huruf. Jumlah huruf yang mengisi abjad nasional dibatasi. Surat dapat dengan mudah dicantumkan di sini.

Karakteristik terpenting dari teks semacam itu adalah pengulangan huruf, berbagai bigram, trigram dan n-gram, serta kompatibilitas berbagai huruf satu sama lain, pergantian konsonan / vokal dan lainnya variasi dari simbol-simbol ini.

Gagasan utama dari metode ini adalah menghitung kemunculan kemungkinan n-gram (dilambangkan dengan nm) dalam teks biasa cukup lama untuk analisis (dilambangkan dengan T=t1t2…tl) yang terdiri dari huruf-huruf alfabet nasional (dilambangkan dengan {a1, a2, …, an}). Semua hal di atas menyebabkan beberapa m-gram berurutan dari teks:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Jika ini adalah jumlah kemunculan m-gram ai1ai2…tujuan dalam teks T tertentu, dan L adalah jumlah total m-gram yang dianalisis oleh peneliti, maka dimungkinkan untuk menetapkan secara empiris bahwa untuk cukup besar L, frekuensi untuk m-gram seperti itu akan sedikit berbeda satu sama lain.

analisis frekuensi
analisis frekuensi

Huruf yang sering muncul dari alfabet Rusia

Tapi analisis frekuensi waktu, meskipun namanya mirip, tidak ada hubungannya dengan topik pembicaraan kita. Analisis semacam ini dilakukan untuksinyal dari stasiun radar low-observable menggunakan transformasi wavelet khusus.

Sekarang mari kita kembali ke topik utama. Saat melakukan analisis frekuensi, Anda dapat mengetahui huruf alfabet Rusia mana yang paling sering ditemukan dalam teks yang cukup banyak (persentase dari 0,062 hingga 0,018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

Bahkan aturan mnemonik khusus telah diperkenalkan, yang membantu mempelajari huruf paling umum dari alfabet Rusia. Untuk melakukan ini, cukup dengan mengingat satu kata - "hayloft".

Dalam kasus umum, frekuensi penggunaan huruf dalam persentase diatur secara sederhana: spesialis menghitung berapa kali huruf muncul dalam teks, kemudian membagi nilai yang dihasilkan dengan jumlah total karakter dalam teks. Dan untuk menyatakan nilai ini sebagai persentase, cukup dikalikan dengan 100.

Penting untuk mempertimbangkan bahwa frekuensi tidak hanya bergantung pada volume teks, tetapi juga pada sifatnya. Misalnya, dalam sumber teknis huruf "F" muncul lebih sering daripada dalam fiksi. Oleh karena itu, untuk hasil yang objektif, seorang spesialis harus mengetik teks dari berbagai sifat dan gaya untuk penelitian.

program analisis frekuensi teks
program analisis frekuensi teks

Bi-, tri-, empat gram

Dalam teks yang bermakna, Anda juga dapat menemukan yang paling umum (masing-masing, yang palingberulang) kombinasi dua huruf atau lebih. Spesialis juga telah menyusun beberapa tabel, yang menunjukkan frekuensi diagram serupa dari berbagai alfabet.

Adapun bahasa Rusia, analisis frekuensi sistem teks bermakna yang banyak memungkinkan untuk menetapkan bigram dan trigram yang paling umum:

  • EN.
  • ST.
  • TAPI.
  • TIDAK.
  • ON.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • BARU
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Hubungan surat yang disukai satu sama lain

Dan ini tidak semua kemungkinan yang dapat diberikan oleh analisis frekuensi kepada peneliti teks. Dengan mensistematisasikan informasi dari tabel bigram dan trigram yang serupa, dimungkinkan untuk mengekstrak data pada kombinasi huruf yang paling umum. Atau, dengan kata lain, hubungan yang mereka sukai satu sama lain.

Studi ekstensif semacam itu telah dilakukan oleh para ahli. Hasilnya adalah sebuah tabel di mana, bersama dengan setiap huruf alfabet, tetangganya ditunjukkan. Apalagi karakter-karakter yang sering ditemukan baik sebelum maupun sesudahnya. Huruf-huruf dalam tabel tidak dieja secara kebetulan. Lebih dekat ke simbol, tetangga yang paling sering ditunjukkan, lebih jauh - yang lebih jarang.

Perhatikan contoh:

  • Huruf "A". Koneksi pilihan berikut dibedakan di sini: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Dari sini kita melihat bahwa paling sering sebelum "A" dalam teks ada "H" ("NA"). Dan setelah "A" paling sering dalam teks dalam bahasa Rusia kita bisa bertemu "L"("AL").
  • Huruf "M". Para ahli telah mengidentifikasi koneksi pilihan seperti itu: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • Huruf "b". Koneksi yang disukai adalah sebagai berikut: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Surat "Sh". Koneksi yang dipilih: "e-b-a-i-u-Sch-e-i-a".
  • Huruf "P". Koneksi yang disukai dengan simbol alfabet Rusia ini: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
analisis waktu-frekuensi
analisis waktu-frekuensi

Apa yang mendefinisikan analisis?

Program analisis teks frekuensi modern membantu mempelajari volume besar berbagai artikel, esai, bagian, dan sebagainya. Informasi berikut diberikan kepada peneliti sebagai standar:

  • Total jumlah karakter dalam teks.
  • Jumlah spasi yang digunakan oleh penulis.
  • Jumlah digit.
  • Informasi tentang tanda baca yang digunakan - titik, koma, dll.
  • Jumlah huruf dalam setiap alfabet yang tersedia - Sirilik, Latin, dll.
  • Informasi tentang frekuensi penggunaan setiap huruf dan simbol dalam teks - jumlah penyebutan dan persentase dibandingkan dengan keseluruhan teks.

Berjuang melawan overoptimasi dan oversaturation

Mengapa analisis frekuensi teks dilakukan? Apakah hanya untuk tujuan keingintahuan - untuk menetapkan karakter mana dalam teks tertulis yang ternyata sering ditemui? Tidak, aplikasi utama dari analisis adalah praktis, dan itu terletak di tempat lain.

N-gram tidak hanya mencakup bigram dan trigram yang stabil. Untuk yang samakategori termasuk kata kunci (tag), kolokasi. Artinya, kombinasi stabil yang terdiri dari dua kata atau lebih. Mereka dibedakan oleh fakta bahwa komposisi seperti itu muncul bersama dalam teks dan pada saat yang sama membawa beban semantik tertentu.

Ini dimainkan oleh spesialis SEO yang tidak bermoral. Dalam pekerjaan mereka, mereka terkadang menyalahgunakan pengulangan tag dan kata kunci dalam teks untuk meningkatkan relevansi halaman web tertentu secara artifisial. Mereka mencoba menipu sistem dengan "trik" seperti itu: mengubah kombinasi alami dengan kombinasi kata yang biasa, tradisional untuk bahasa Rusia ("beli mantel bulu") menjadi kombinasi yang tidak konsisten. Yaitu, diperoleh dengan mengatur ulang kata-kata sedemikian N-gram alami ("beli mantel bulu").

Tetapi hari ini, algoritme pencarian telah belajar untuk mendeteksi optimasi berlebihan seefektif overspam - saturasi teks yang berlebihan dengan kata kunci, tag yang mempengaruhi peringkat hasil pada halaman pencarian. Halaman yang terlalu dioptimalkan sekarang, sebaliknya, berperingkat lebih rendah menurut kueri pengguna. Dan orang-orang itu sendiri tidak cenderung membaca tanpa arti, terlalu jenuh dengan teks tag, lebih memilih informasi yang berguna di sumber lain.

metode analisis frekuensi
metode analisis frekuensi

Membantu analisis pribadi untuk spesialis SEO

Jadi, filter teks mesin pencari modern saat ini memberikan preferensi ke halaman Internet tersebut, informasi yang tidak hanya mudah dibaca, tetapi juga berguna bagi pengunjung. Untuk mengoptimalkan pekerjaan mereka untuk standar baru, spesialis SEOdan beralih ke analisis frekuensi teks. Banyak layanan populer menyediakannya hari ini.

Analisis frekuensi membantu meninjau teks yang sedang disiapkan untuk publikasi agar informatif. Hilangkan redundansi tag dan frase kunci yang tidak perlu. Ini juga memungkinkan Anda untuk menarik perhatian penulis pada kombinasi kata yang tidak wajar yang menimbulkan kecurigaan di filter teks mesin telusur.

analisis respons frekuensi
analisis respons frekuensi

Analisis frekuensi teks membantu menentukan frekuensi penyebutan karakter tertentu dalam sumber. Metode ini digunakan saat ini untuk menilai kelebihan teks dengan tag, permutasi kata yang tidak wajar.

Direkomendasikan: