Apa itu linguistik korpus?

Daftar Isi:

Apa itu linguistik korpus?
Apa itu linguistik korpus?
Anonim

Beberapa dekade yang lalu, para ilmuwan hanya bisa bermimpi untuk mengotomatisasi penelitian linguistik. Pekerjaan dilakukan dengan tangan, sejumlah besar siswa terlibat di dalamnya, ada kemungkinan besar kesalahan "kurang perhatian", dan yang paling penting, semuanya membutuhkan banyak waktu.

Dengan perkembangan teknologi komputer, menjadi mungkin untuk melakukan penelitian lebih cepat, dan saat ini salah satu bidang yang menjanjikan dalam studi bahasa adalah linguistik korpus. Fitur utamanya adalah penggunaan sejumlah besar informasi tekstual, dikonsolidasikan ke dalam satu database, ditandai dengan cara khusus dan disebut corpus.

Saat ini, ada banyak korpora yang dibuat untuk tujuan yang berbeda, berdasarkan materi bahasa yang berbeda, mencakup dari jutaan hingga puluhan miliar unit leksikal. Arah ini diakui menjanjikan dan menunjukkan kemajuan yang signifikan dalam mencapai tujuan terapan dan penelitian. Profesional, dengan satu atau lain cara berurusan denganbahasa alami, disarankan agar Anda membiasakan diri dengan corpora teks setidaknya pada tingkat dasar.

Sejarah linguistik korpus

Pembentukan arah ini terkait dengan pembentukan Korps Coklat di AS pada awal 60-an abad terakhir. Kumpulan teks hanya terdiri dari 1 juta bentuk kata, dan hari ini kumpulan dengan volume seperti itu sama sekali tidak kompetitif. Hal ini sebagian besar disebabkan oleh laju perkembangan teknologi komputer, serta meningkatnya permintaan akan sumber daya penelitian baru.

Pada tahun 90-an, linguistik korpus dibentuk menjadi disiplin yang lengkap dan independen, kumpulan teks dikompilasi dan ditandai untuk beberapa lusin bahasa. Selama periode ini, misalnya, British National Corpus diciptakan untuk 100 juta penggunaan kata.

linguistik korpus
linguistik korpus

Seiring berkembangnya arah linguistik ini, volume teks menjadi lebih besar (dan mencapai miliaran unit kosa kata), dan markup menjadi semakin beragam. Hari ini, di ruang Internet, Anda dapat menemukan kumpulan pidato tertulis dan lisan, multibahasa dan pendidikan, berfokus pada fiksi atau literatur akademis, serta banyak varietas lainnya.

Kasus apa yang ada

Jenis korpus dalam linguistik korpus dapat direpresentasikan dalam beberapa cara. Secara intuitif jelas bahwa dasar untuk klasifikasi dapat berupa bahasa teks (Rusia, Jerman), mode akses (sumber terbuka, sumber tertutup, komersial), genre bahan sumber (fiksisastra, dokumenter, akademik, jurnalistik).

metode linguistik korpus
metode linguistik korpus

Dengan cara yang menarik, pembuatan materi yang mewakili pidato lisan dilakukan. Karena perekaman pidato semacam itu dengan sengaja akan menciptakan kondisi buatan bagi responden, dan materi yang dihasilkan tidak dapat disebut "spontan", linguistik korpus modern sebaliknya. Relawan dilengkapi dengan mikrofon, dan pada siang hari semua percakapan di mana dia berpartisipasi direkam. Masyarakat sekitar tentunya tidak dapat mengetahui bahwa dalam percakapan sehari-hari mereka turut andil dalam perkembangan ilmu pengetahuan.

Kemudian, rekaman audio yang diterima disimpan di bank data dan disertai dengan teks tercetak seperti transkrip. Dengan cara ini, markup yang diperlukan untuk membuat korpus ucapan sehari-hari menjadi mungkin.

Aplikasi

Di mana dimungkinkan untuk menggunakan bahasa, juga dimungkinkan untuk menggunakan corpora teks. Tujuan penggunaan metode corpus dalam linguistik dapat berupa:

  • Membuat program sentimen yang banyak digunakan dalam politik dan bisnis untuk melacak umpan balik positif dan negatif dari pemilih dan pelanggan, masing-masing.
  • Menghubungkan sistem informasi ke kamus dan penerjemah untuk meningkatkan kinerjanya.
  • Berbagai tugas penelitian yang berkontribusi pada pemahaman struktur bahasa, sejarah perkembangannya, dan prediksi perubahannya dalam waktu dekat.
  • Pengembangan sistem ekstraksi informasi berbasis morfologi,sintaksis, semantik, dan fitur lainnya.
  • Optimasi kerja berbagai sistem linguistik, dll.

Menggunakan cangkang

Antarmuka sumber daya mirip dengan mesin telusur biasa dan meminta pengguna memasukkan beberapa kata atau kombinasi kata untuk mencari basis info. Selain formulir permintaan yang tepat, Anda dapat menggunakan versi yang diperluas, yang memungkinkan Anda menemukan informasi tekstual dengan hampir semua kriteria linguistik.

linguistik komputer dan korpus
linguistik komputer dan korpus

Dasar pencarian bisa:

  • milik kelompok part of speech tertentu;
  • fitur tata bahasa;
  • semantik;
  • pewarnaan gaya dan emosional.

Juga, Anda dapat menggabungkan kriteria pencarian untuk urutan kata: misalnya, menemukan semua kemunculan kata kerja dalam bentuk sekarang, orang pertama, tunggal diikuti dengan preposisi "dalam" dan kata benda dalam kasus akusatif. Menyelesaikan tugas sederhana seperti itu membutuhkan waktu beberapa detik bagi pengguna dan hanya membutuhkan beberapa klik mouse di bidang yang diberikan.

Proses pembuatan

Pencarian itu sendiri dapat dilakukan baik di semua subkorpus, dan dalam satu, dipilih secara khusus, tergantung pada kebutuhan saat mencapai tujuan tertentu:

  1. Pertama-tama ditentukan teks mana yang akan menjadi dasar korpus. Untuk tujuan praktis, jurnalistik, materi surat kabar, komentar Internet sering digunakan. Dalam proyek penelitian, yang palingberbagai jenis corpora, tetapi teks harus dipilih atas dasar yang sama.
  2. Kumpulan teks yang dihasilkan diproses sebelumnya, kesalahan diperbaiki, jika ada, deskripsi teks bibliografi dan ekstralinguistik disiapkan.
  3. Semua informasi non-tekstual disaring: grafik, gambar, tabel dihapus.
  4. Token, biasanya berupa kata-kata, dialokasikan untuk diproses lebih lanjut.
  5. Akhirnya, morfologi, sintaksis, dan markup lain dari kumpulan elemen yang dihasilkan dilakukan.

Hasil dari semua operasi yang dilakukan adalah struktur sintaksis dengan satu set elemen yang didistribusikan di atasnya, untuk masing-masing bagian dari pidato, tata bahasa dan, dalam beberapa kasus, fitur semantik didefinisikan.

Kesulitan dalam membuat kasus

Penting untuk dipahami bahwa untuk mendapatkan korpus tidak cukup dengan menyusun banyak kata atau kalimat. Di satu sisi, kumpulan teks harus seimbang, yaitu menyajikan berbagai jenis teks dalam proporsi tertentu. Di sisi lain, isi kasing harus ditandai dengan cara khusus.

Linguistik korpus Zakharov
Linguistik korpus Zakharov

Masalah pertama diselesaikan dengan kesepakatan: misalnya, koleksi mencakup 60% teks fiksi, 20% dokumenter, proporsi tertentu diberikan untuk presentasi tertulis pidato lisan, undang-undang, karya ilmiah, dll. Resep ideal untuk korpus seimbang saat ini tidak ada.

Pertanyaan kedua tentang markup konten lebih sulit dipecahkan. Ada program dan algoritme khusus yang digunakan untuk markup teks otomatis, tetapi tidak memberikan hasil 100%, dapat menyebabkan kegagalan dan memerlukan penyempurnaan manual. Peluang dan masalah dalam memecahkan masalah ini dijelaskan secara rinci dalam karya V. P. Zakharov tentang linguistik korpus.

Markup teks dilakukan pada beberapa level, yang akan kami cantumkan di bawah ini.

Markup morfologi

Dari bangku sekolah, kami ingat bahwa dalam bahasa Rusia ada bagian-bagian pidato yang berbeda, dan masing-masing memiliki karakteristiknya sendiri. Misalnya, kata kerja memiliki kategori mood dan tense yang tidak dimiliki kata benda. Seorang penutur asli menolak kata benda dan mengkonjugasikan kata kerja tanpa ragu-ragu, tetapi kerja manual tidak cocok untuk menandai kumpulan 100 juta penggunaan kata. Semua operasi yang diperlukan dapat dilakukan oleh komputer, namun untuk ini perlu diajarkan.

Markup morfologis diperlukan komputer untuk "memahami" setiap kata sebagai bagian dari pidato yang memiliki fitur tata bahasa tertentu. Karena sejumlah aturan reguler berfungsi dalam bahasa Rusia (seperti dalam bahasa lainnya), dimungkinkan untuk membangun prosedur otomatis untuk analisis morfologi dengan memasukkan sejumlah algoritma ke dalam mesin. Namun, ada pengecualian untuk aturan tersebut, serta berbagai faktor rumit. Akibatnya, analisis komputer murni saat ini jauh dari ideal, dan bahkan 4% kesalahan memberikan nilai 4 juta kata dalam kumpulan 100 juta unit, membutuhkan penyempurnaan manual.

Masalah ini dijelaskan secara rinci oleh buku V. P. Zakharov "Corpus Linguistics".

Markup sintaksis

Analisis sintaksis atau parsing adalah prosedur yang menentukan hubungan kata dalam sebuah kalimat. Dengan bantuan satu set algoritma, menjadi mungkin untuk menentukan subjek, predikat, penambahan, dan berbagai pergantian bicara dalam teks. Dengan mencari tahu kata mana dalam urutan yang utama dan mana yang dependen, kita dapat mengekstrak informasi dari teks secara efisien dan melatih mesin untuk mengembalikan hanya informasi yang kita minati sebagai tanggapan atas permintaan pencarian.

laboratorium linguistik korpus di universitas-universitas Rusia
laboratorium linguistik korpus di universitas-universitas Rusia

Omong-omong, mesin pencari modern menggunakan ini untuk memberikan angka spesifik alih-alih teks panjang sebagai tanggapan atas pertanyaan yang relevan seperti: "berapa banyak kalori dalam sebuah apel" atau "jarak dari Moskow ke St. Petersburg". Namun, untuk memahami bahkan dasar-dasar dari proses yang dijelaskan, Anda perlu membiasakan diri dengan "Pengantar Linguistik Korpus" atau buku teks dasar lainnya.

Markup semantik

Semantik sebuah kata, secara sederhana, adalah maknanya. Pendekatan yang dapat diterapkan secara luas dalam analisis semantik adalah atribusi tag ke sebuah kata, yang mencerminkan kepemilikannya dalam serangkaian kategori dan subkategori semantik. Informasi tersebut berharga untuk mengoptimalkan algoritme analisis sentimen teks, referensi otomatis, dan melakukan tugas lain menggunakan metode linguistik korpus.

Ada sejumlah "akar" pohon, yang merupakan kata abstrak yang memilikisemantik yang sangat luas. Saat pohon ini bercabang, simpul terbentuk yang mengandung elemen leksikal yang lebih dan lebih spesifik. Misalnya, kata "makhluk" dapat dikaitkan dengan konsep seperti "manusia" dan "binatang". Kata pertama akan terus bercabang menjadi berbagai profesi, istilah kekerabatan, kebangsaan, dan yang kedua - menjadi kelas dan jenis hewan.

Penggunaan sistem pencarian informasi

Lingkungan penggunaan linguistik korpus mencakup berbagai bidang kegiatan. Corpora digunakan untuk menyusun dan mengoreksi kamus, membuat sistem terjemahan otomatis, meringkas, mengekstraksi fakta, menentukan sentimen, dan pemrosesan teks lainnya.

korpus linguistik jenis korpus
korpus linguistik jenis korpus

Selain itu, sumber daya tersebut digunakan secara aktif dalam studi bahasa dunia dan mekanisme fungsi bahasa secara keseluruhan. Akses ke sejumlah besar informasi yang telah disiapkan sebelumnya berkontribusi pada studi cepat dan komprehensif tentang tren dalam pengembangan bahasa, pembentukan neologisme dan pergantian bicara yang stabil, perubahan makna unit leksikal, dll.

Karena bekerja dengan volume data yang begitu besar memerlukan otomatisasi, saat ini ada interaksi yang erat antara komputer dan linguistik korpus.

Korpus Nasional Bahasa Rusia

Korpus ini (disingkat NKRC) mencakup sejumlah subkorpus yang memungkinkan penggunaan sumber daya untuk menyelesaikan berbagai macam tugas.

Materi dalam database NCRA dibagi menjadi:

  • pada publikasi di media tahun 90-an dan 2000-antahun, baik dalam maupun luar negeri;
  • rekaman pidato lisan;
  • teks yang ditandai secara aksen (yaitu dengan tanda aksen);
  • pidato dialek;
  • karya puisi;
  • materi dengan markup sintaksis, dll.

Sistem informasi juga mencakup subkorpus dengan terjemahan paralel karya dari Rusia ke Inggris, Jerman, Prancis, dan banyak bahasa lainnya (dan sebaliknya).

Juga, database memiliki bagian teks sejarah yang mewakili pidato tertulis dalam bahasa Rusia dalam berbagai periode perkembangannya. Ada juga korpus pelatihan yang bisa bermanfaat bagi warga negara asing dalam menguasai bahasa Rusia.

Korpus nasional bahasa Rusia mencakup 400 juta unit leksikal dan dalam banyak hal berada di depan bagian penting dari kumpulan bahasa-bahasa Eropa.

Prospek

Fakta yang mendukung pengakuan bidang ini sebagai hal yang menjanjikan adalah keberadaan laboratorium linguistik korpus di universitas-universitas Rusia, serta di universitas-universitas asing. Dengan penggunaan dan penelitian dalam kerangka sumber daya pencarian informasi yang dipertimbangkan, pengembangan beberapa bidang di bidang teknologi tinggi, sistem tanya-jawab dikaitkan, tetapi ini telah dibahas di atas.

sejarah linguistik korpus
sejarah linguistik korpus

Perkembangan linguistik korpus lebih lanjut diprediksi di semua tingkatan, dari teknis, dalam hal pengenalan algoritma baru yang mengoptimalkan proses pencarian dan pemrosesan informasi, memperluas kemampuan komputer, meningkatkan operasionalmemori, dan diakhiri dengan memori rumah tangga, karena pengguna menemukan lebih banyak cara untuk menggunakan jenis sumber daya ini dalam kehidupan sehari-hari dan di tempat kerja.

Kesimpulan

Di pertengahan abad terakhir, 2017 tampak seperti masa depan yang jauh, di mana pesawat ruang angkasa menjelajahi bentangan Semesta dan robot melakukan semua pekerjaan untuk manusia. Namun, pada kenyataannya, sains penuh dengan "titik kosong" dan berusaha mati-matian untuk menjawab pertanyaan yang telah mengganggu umat manusia selama berabad-abad. Pertanyaan tentang fungsi bahasa mendapat tempat di sini, dan korpus serta linguistik komputasional dapat membantu kita menjawabnya.

Memproses data dalam jumlah besar memungkinkan Anda mendeteksi pola yang sebelumnya tidak dapat diakses, memprediksi perkembangan fitur bahasa tertentu, melacak pembentukan kata hampir secara real time.

Pada tingkat global praktis, korpora dapat dianggap, misalnya, sebagai alat potensial untuk menilai sentimen publik - Internet adalah basis data yang terus diperbarui dari berbagai teks yang dibuat oleh pengguna nyata: ini adalah komentar, ulasan, artikel, dan banyak bentuk pidato lainnya.

Selain itu, bekerja dengan korpora berkontribusi pada pengembangan sarana teknis yang sama yang terlibat dalam pengambilan informasi, yang akrab bagi kami dari layanan Google atau Yandex, terjemahan mesin, kamus elektronik.

Dapat dikatakan bahwa linguistik korpus hanya membuat langkah pertama dan akan berkembang pesat dalam waktu dekat.

Direkomendasikan: