Поиск почти похожих текстов в лингвистическом корпусе ВепКар

Федор Юрьевич Быков, Андрей Анатольевич Крижановский, Fedor Bykov, Andrew Krizhanovsky

Аннотация


При построении лингвистических корпусов разработчикам требуется очищать корпусы от текстовых дубликатов. В статье представлен небольшой обзор способов поиска почти похожих текстов в различных корпусах. Разработан алгоритм и программа поиска почти похожих текстов на основе подсчёта числа общих биграмм. Проведены эксперименты на текстах Открытого корпуса вепсского и карельского языков ВепКар. Из 100 найденных программой пар наиболее похожих текстов эксперт подтвердил около половины случаев сходства. С помощью рангового расстояния Кендалла было подсчитано, какая из трёх рассмотренных метрик сходства текстов упорядочивает пары похожих текстов наиболее близко к эспертному. Разработанная программа и в дальнейшем будет использоваться в корпусе текстов ВепКар.

Ключевые слова


корпусная лингвистика; почти похожие тексты; ранговая корреляции Кендалла

Полный текст:

PDF

Литература


Ю. Г. Зеленков, И. В. Сегалович. 2007. Сравнительный анализ методов определения нечетких дубликатов для Web-документов // Труды 9-ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (с. 166–174). RCDL’2007, Переславль-Залесский.

Baroni M., Kilgarriff A. Large linguistically-processed web corpora for multiple languages. In EACL’06: Proceedings of the Eleventh Conference of the European Chapter of the Association for Computational Linguistics, 2006. April 5–6; Trento, Italy. P. 87–90.10.17586/2541-9781-2017-1-87-97. URL: https://www.dialog-21.ru/media/3985/kriukova.pdf.

Ferraresi A., Zanchetta E., Baroni M., Bernardini S. Introducing and evaluating ukWaC, a very large web-derived corpus of English // Proceedings of the 4th Web as Corpus Workshop (WAC-4) Can we beat Google. 2008. Pp. 47–54.9. Быков Ф. Ю. Почти похожие тексты в ВепКар 2023. Figshare. DOI: 10.6084/m9.figshare.22134422.v1. URL: https://doi.org/10.6084/m9.figshare.22134422.v1

Spoustová J., Spousta M. A High-Quality Web Corpus of Czech // LREC. 2012. Pp. 311–315.

Pomikalek J. Removing Boilerplate and Duplicate Content from Web Corpora. Ph.D. thesis, Masaryk University, Faculty of Informatics, Brno. 2011.

Erjavec T., Ljubešić N., Logar N. The slwac corpus of the sloveneweb. 2015. Informatica, 39 (1).

Крюкова А. В. Определение семантической близости текстов с использованием инструмента DKPro Similarity // Компьютерная лингвистика и вычислительные онтологии. Вып. 1 — СПб: Университет ИТМО, 2017. С. 87–97.

Broder A. Z. On the resemblance and containment of documents. In: Proceedings of the Compression and Complexity of Sequences. Pp. 21–29.

Lapata M. Automatic evaluation of information ordering: Kendall’s tau. 2006. Computational Linguistics, 32 (4). Pp. 471–484.

Abdi H. The Kendall rank correlation coefficient. Encyclopedia of Measurement and Statistics. Sage, Thousand Oaks, CA. 2007. 508–510.

Glen S. Kendall’s Tau (Kendall Rank Correlation Coefficient) // Elementary Statistics for the rest of us.




DOI: http://dx.doi.org/10.17076/mat1773

Ссылки

  • На текущий момент ссылки отсутствуют.


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.

© Труды КарНЦ РАН, 2014-2019