Лингвистический корпус ВепКар – «заповедник» прибалтийско-финских языков Карелии

Татьяна Петровна Бойко, Нина Григорьевна Зайцева, Наталья Борисовна Крижановская, Андрей Анатольевич Крижановский, Ирина Петровна Новак, Наталия Александровна Пеллинен, Александра Павловна Родионова, Елизавета Денисовна Трубина, Tatyana Boyko, Nina Zaitseva, Natalya Krizhanovskaya, Andrey Krizhanovsky, Irina Novak, Natalia Pellinen, Alexandra Rodionova, Elizaveta Trubina

Аннотация


The purpose of creating conservation areas is to protect endangered plant and animal species. Large, tagged linguistic corpora with a great variety of genres are used for the preservation and research of safe and endangered languages. The article describes the history, structure and development of the Open Corpus of the Veps and Karelian languages. The Veps language corpus was created in 2009 under the leadership of Nina Zaitseva. Three Karelian subcorpora (Karelian proper, Livvi and Ludian) were included in the linguistic corpus in 2016. The united linguistic platform was named “The Open Corpus of the Veps and Karelian languages” (VepKar). This linguistic corpus includes texts and dictionaries stored in a database, and a computer program (corpus manager) for searching and processing the data. This corpus manager was written in the PHP programming language in the Laravel framework. The data are stored in a MySQL database. Corpus and dictionaries data are available online (dictorpus.krc.karelia.ru). YouTube and Wikipedia are used by VepKar authors to popularize the corpus. Dictionaries and corpus texts are strongly interrelated. Multifunctional dictionaries of the Veps and Karelian languages contain definition, translation, dialect labels, semantic relations (synonyms, antonyms, etc.), examples of word usage with reference to texts, as well as complete inflectional paradigms. All texts are automatically marked up and there are references from words in the text to the corresponding meanings in the dictionary entries. The developers continue adding useful new features to the corpus manager to make the work of editors easier. For example, over the past three years, nominal and verbal inflection rules have been formulated and programmed for all dialects of the Veps language and its newly-written version, as well as for the Livvi-Karelian, North Karelian and Tver newly-written versions of the Karelian language. Thanks to this, 2.1 million word forms were generated in the VepKar system in a semi-automatic mode. The semantic markup in the corpus is 2.1 million links between words from the text and the meanings of lemmas in the dictionary. The grammatical markup was added, namely, 1.1 million links between words from the text and the grammatical features of word forms from the dictionary were automatically established. The multilingual VepKar corpus is divided into subcorpora according to languages and dialects, and the texts are also classified into styles and genres. The corpus has a sophisticated search system (with filtering of texts by language, style and dialect, by informant, collector or author, by year of recording or year of publication). It is possible to search for lemmas by dialects, parts of speech, grammatical features, and even by lexical-semantic categories. These categories appeared due to the integration of the data of the outstanding “Comparative and Onomasiological Dictionary of the Dialects of the Karelian, Veps and Sami Languages” into the vocabulary part of VepKar. In 2021, the Sanahelmi electronic dictionary was created on the basis of VepKar for Android phones. The development of mobile applications based on corpus data is our bright future.

Ключевые слова


карельский язык; вепсский язык; корпусная лингвистика; Открытый корпус вепсского и карельского языков; корпусный менеджер; словоизменительная парадигма

Полный текст:

PDF

Литература


Бойко Т. П., Маркианова Л. Ф. Большой русско-карельский словарь (ливвиковское наречие). 2-е издание, переработанное и дополненное. Петрозаводск: Периодика, 2016. 399 с.

Бойко Т. П. Большой карельско-русский словарь (ливвиковское наречие). Петрозаводск: Периодика, 2016. 352 с.

Зайцева Н. Г. Вепсские причитания в фокусе корпусной лингвистики и лингвофольклористики // Материалы XLI Международной филологической конференции. 26–31 марта 2012 г. Секция "Уралистика". СПб.: Филологический факультет СПбГУ, 2012. C. 16–26.

Зайцева Н. Г., Харитонова Е. Е.,. Жукова О. Ю. Орфографический словарь вепсского языка. Петрозаводск: Карельский научный центр, 2012. 432 с.

Зайцева Н. Г., Крижановская Н. Б. Корпусная лингвистика в прибалтийско-финском исследовательском пространстве (на материале Корпуса вепсского языка и Открытого корпуса вепсского и карельского языков) // Альманах североевропейских и балтийских исследований. Выпуск 3, 2018. C. 264–273. [Электронный ресурс]. URL: https://nbsr.petrsu.ru/journal/article.php?id=1062 (дата обращения: 2.3.2021).

Иншакова Е. С., Иомдин Л. Л., Митюшин Л. Г., Сизов В. Г., Фролова Т. И., Цинман Л. Л. СинТагРус сегодня // Труды Института русского языка им. В. В. Виноградова. М., 2019. Вып. 21., С. 14–40. [Электронный ресурс]. URL: http://ruslang.ru/doc/trudy/vol21/1-inshakova.pdf (дата обращения: 5.3.2021).

Кибрик, А. Е. Введение в науку о языке / под ред. О. В. Федорова и С. Г. Татевосов. М.: Буки Веди, 2019. 672 с. [Электронный ресурс]. URL: http://tipl.philol.msu.ru/application/files/9215/8507/9636/AEK_et_al_corrected_2020.pdf (дата обращения: 1.3.2021).

Крижановская Н. Б., Новак И. П., Пеллинен Н. А. Правила генерации глагольных словоформ по минимизированному шаблону для новописьменного севернокарельского варианта карельского языка // figshare. 2021. Препринт. [Электронный ресурс]. URL: https://doi.org/10.6084/m9.figshare.14237843.v6 (дата обращения: 19.3.2021).

Крижановская Н. Б., Новак И. П., Пеллинен Н. А., Бойко Т. П. Правила генерации именных словоформ по минимизированному шаблону для новописьменных вариантов собственно карельского и ливвиковского наречий // figshare. 2021. Препринт. [Электронный ресурс]. URL: https://doi.org/10.6084/m9.figshare.14241833.v1 (дата обращения: 14.3.2021).

Крижановский А. А., Крижановская Н. Б., Новак И. П. Представление диалектов в Открытом корпусе вепсского и карельского языков (ВепКар) // Труды международной конференции «Корпусная лингвистика ‒ 2019». СПб, 2019. C. 288–295.

Крижановский А. А., Крижановская Н. Б., Родионова А. П. Архитектура корпусного менеджера и разметка текстов корпуса ВепКар // II Международная научная конференция «Электронная письменность народов Российской Федерации: опыт, проблемы и перспективы. Материалы межд. науч. конференции (Уфа, 27–29 ноября 2019 г.), 2019. С. 19–23. [Электронный ресурс]. URL: http://resources.krc.karelia.ru/math/doc/publ/vepkar_ufa_2019_preprint.pdf (дата обращения: 11.3.2021).

Макаров Г. Н., Рягоев В. Д. Образцы карельской речи. Говоры ливвиковского диалекта карельского языка. Л.: Наука, 1969. 283 с.

Новак И. П., Крижановская Н. Б., Бойко Т. П., Пеллинен Н. А. Разработка правил генерации именных словоформ для новописьменных вариантов карельского языка // Вестник угроведения. 2020. № 4. С. 679–691.

Сопоставительно-ономасиологический словарь диалектов карельского, вепсского, саамского языков / Под общей редакцией Ю. С. Елисеева и Н. Г. Зайцевой. Петрозаводск, 2007. 346 с.

Arkhangelskiy, T., 2020. Web Corpora of Volga-Kama Uralic Languages // Finno-Ugric Languages and Linguistics. 2020. Vol. 9. No. 1–2. P. 58–66.

[Caruso et al., 2019] Caruso, V., Balbi, B., Monti, J. and Presta, R., 2019, October. How Can App Design Improve Lexicographic Outcomes? Examples from an Italian Idiom Dictionary // Electronic lexicography in the 21st century. Proceedings of the eLex 2019 conference. 1–3 October 2019, Sintra, Portugal. P. 374–396. [Электронный ресурс]. URL: https://elex.link/elex2019/wp-content/uploads/2019/09/eLex_2019_21.pdf (дата обращения: 14.3.2021).

Krizhanovskaya N. B., Krizhanovsky A. A. Semi-automatic methods for adding words to the dictionary of VepKar corpus based on inflectional rules extracted from Wiktionary // Corpora 2019 International Conference, June 24–28, 2019. Saint-Petersburg. P. 211–217. [Электронный ресурс].

URL:https://events.spbu.ru/eventsContent/events/2019/corpora/corp_sborn.pdf#page=211 (дата обращения: 9.3.2021).

Krizhanovsky A., Krizhanovskaya N., Novak I. Part of speech and gramset tagging algorithms for unknown words based on morphological dictionaries of the Veps and Karelian languages // Data Analytics and Management in Data Intensive Domains, October 13–16, 2020. Voronezh State University. 2020 (In press).

Rahimi M. and Miri S. S. The impact of mobile dictionary use on language learning. Procedia — Social and Behavioral Sciences. 2014. Vol. 98. P. 1469–1474. [Электронный ресурс]. URL: https://core.ac.uk/download/pdf/82156394.pdf (дата обращения: 18.3.2021).

Uz’ Zavet (Новый Завет на вепсском языке). Петрозаводск: Карелия, 2006. 622 с.

REFERENCES

Boyko T. P., Markianova L. F. Bol’shoj russko-karel’skij slovar’ [Large Karelian- Russian dictionary]. Petrozavodsk: Periodika Publ., 2016. 399 p. (In Russian)

Boyko T. P. Bol’shoj karel’sko-russkij slovar’ [Large Russian-Karelian dictionary]. Petrozavodsk: Periodika Publ., 2016. 352 p. (In Russian)

Zaiceva N. G. Vepsskie prichitaniya v fokuse korpusnoj lingvistiki i lingvofol’kloristiki [Vepsian lamentations in the focus of corpus linguistics and linguistic folkloristics]. Materialy XLI Mezhdunarodnoj filologicheskoj konferencii. 26–31 marta 2012 g. Sekciya "Uralistika" [Materials of the XLI International Philological Conference. March 26–31, 2012 Section "Uralistics"]. SPb.: Filologicheskij fakul’tet SPbGU, 2012. P. 16–26.

Zaiceva N. G., Kharitonova Ye. Ye.,. Zhukova O. Yu. Orfograficheskij slovar’ vepsskogo yazyka [Spelling dictionary of the Vepsian language]. Petrozavodsk: Karel’skij nauchnyj centr, 2012. 432 p.

Zaiceva N. G., Krizhanovskaya N. B. Korpusnaya lingvistika v pribaltijsko-finskom issledovatel’skom prostranstve (na materiale Korpusa vepsskogo yazyka i Otkrytogo korpusa vepsskogo i karel’skogo yazykov) [Corpus linguistics in the Baltic-Finnish research space (based on the Vepsian Language Corpus and the Veps and Karelian Open Corpus)] Al’manakh severoevropejskikh i baltijskikh issledovanij [Almanac of Northern European and Baltic Studies]. Issue 3, 2018. P. 264–273. URL: https://nbsr.petrsu.ru/journal/article.php?id=1062 (accessed:

3.2021).

Inshakova Ye. S., Iomdin L. L., Mityushin L. G., Sizov V. G., Frolova T. I., Cinman L. L. SinTagRus segodnya [SinTagRus today].Trudy Instituta russkogo yazyka im. V. V. Vinogradova [Transactions of the Institute of Russian Language. V. V. Vinogradov]. M., 2019. Vol. 21. P. 14–40. URL: http://ruslang.ru/doc/trudy/vol21/1-inshakova.pdf (accessed: 5.3.2021).

Kibrik A. Ye. Vvedenie v nauku o yazyke [Introduction to the science of language] Eds. O. V. Fedorova and S. G. Tatevosov. M.: Buki Vedi, 672 p. URL: http://tipl.philol.msu.ru/application/files/9215/8507/9636/AEK_et_al_corrected_2020.pdf (accessed: 1.3.2021).

Krizhanovskaya N. B., Novak I. P., Pellinen N. A. Pravila generacii glagol’nykh slovoform po minimizirovannomu shablonu dlya novopis’mennogo severnokarel’skogo varianta karel’skogo yazyka [Rules for generating verb word forms using a minimized template for the newly written North Karelian version of the Karelian language]. figshare. 2021. Preprint. URL: https://doi.org/10.6084/m9.figshare.14237843.v6 (accessed: 19.3.2021).

Krizhanovskaya N. B., Novak I. P., Pellinen N. A., Boyko T. P. Pravila generacii imennykh slovoform po minimizirovannomu shablonu dlya novopis’mennykh variantov sobstvenno karel’skogo i livvikovskogo narechij [Rules for generating nominal word forms from a minimized template for newly written variants of the Proper Karelian and Livvik dialects]. figshare. 2021. Preprint. URL: https://doi.org/10.6084/m9.figshare.14241833.v1 (accessed: 14.3.2021).

Krizhanovskij A. A., Krizhanovskaya N. B., Novak I. P. Predstavlenie dialektov v Otkrytom korpuse vepsskogo i karel’skogo yazykov (VepKar) [Representation of dialects in the Open Corpus of Veps and Karelian languages (VepKar)]. Trudy mezhdunarodnoj konferencii «Korpusnaya lingvistika ‒ 2019» [Transactions of the international conference "Corpus linguistics ‒ 2019"]. SPb, 2019. P. 288–295.

Krizhanovskij A. A., Krizhanovskaya N. B., Rodionova A. P. Arkhitektura korpusnogo menedzhera i razmetka tekstov korpusa VepKar [The architecture of the corpus manager and the layout of the texts of the VepCar corpus]. II Mezhdunarodnaya nauchnaya konferenciya «Elektronnaya pis’mennost’ narodov Rossijskoj Federacii: opyt, problemy i perspektivy. Materialy mezhd. nauch. konferencii (Ufa, 27–29 noyabrya 2019 g.) [II International Scientific Conference “Electronic Writing of the Peoples of the Russian Federation: Experience, Problems and Prospects”. Materials int. scientific conferences (Ufa, November 27–29, 2019)]. 2019. P. 19–23. URL: http://resources.krc.karelia.ru/math/doc/publ/vepkar_ufa_2019_preprint.pdf (accessed: 11.3.2021).

Makarov G. N., Ryagoev V. D. Obrazcy karel’skoj rechi. Govory livvikovskogo dialekta karel’skogo yazyka [Samples of Karelian speech. The dialects of the Livvik dialect of the Karelian]. L.: Nauka Publ., 1969. 283 p.

Novak I. P., Krizhanovskaya N. B., Boiko T. P., Pellinen N. A. Razrabotka pravil generacii imennykh slovoform dlya novopis’mennykh variantov karel’skogo yazyka [Development of rules of generation of nominal word forms for new-written variants of the Karelian language]. Vestnik ugrovedenia [Bulletin of Ugric Studies]. 2020. Vol. 10 (4). P. 679–691.

Sopostavitel’no-onomasiologicheskij slovar’ dialektov karel’skogo, vepsskogo, saamskogo yazykov [Comparative onomasiological dictionary of dialects of the Karelian, Veps, Samic languages]. Eds.. Eliseev Yu. S, Zaiceva N. G.. Petrozavodsk, 2007. 346 p.

Arkhangelskiy, T., 2020. Web Corpora of Volga-Kama Uralic Languages. Finno-Ugric Languages and Linguistics. 2020. Vol. 9. No. 1–2. P. 58–66.

Caruso, V., Balbi, B., Monti, J. and Presta, R., 2019, October. How Can App Design Improve Lexicographic Outcomes? Examples from an Italian Idiom Dictionary. Electronic lexicography in the 21st century. Proceedings of the eLex 2019 conference. 1–3 October 2019, Sintra, Portugal. P. 374–396. URL: https://elex.link/elex2019/wp-content/uploads/2019/09/eLex_2019_21.pdf (accessed: 14.3.2021).

Krizhanovskaya N. B., Krizhanovsky A. A. Semi-automatic methods for adding words to the dictionary of VepKar corpus based on inflectional rules extracted from Wiktionary. Corpora 2019 International Conference, June 24–28, 2019, Saint-Petersburg. P. 211–217. URL: https://events.spbu.ru/eventsContent/events/2019/corpora/corp_sborn.pdf#page=211 (accessed: 9.3.2021).

Krizhanovsky A., Krizhanovskaya N., Novak I. Part of speech and gramset tagging algorithms for unknown words based on morphological dictionaries of the Veps and Karelian languages. Data Analytics and Management in Data Intensive Domains, October 13–16, 2020, Voronezh State University. 2020 (In press).

Rahimi M. and Miri S. S. The impact of mobile dictionary use on language learning. Procedia-Social and Behavioral Sciences. 2014. Vol. 98. P. 1469–1474. URL: https://core.ac.uk/download/pdf/82156394.pdf (accessed: 18.3.2021).

Uz’ Zavet (Novyj Zavet na vepsskom yazyke) [New Testament in Veps language]. Petrozavodsk: Kareliya, 2006. 622 p.




DOI: http://dx.doi.org/10.17076/them1415

Ссылки

  • На текущий момент ссылки отсутствуют.


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.

© Труды КарНЦ РАН, 2014-2019