Поиск почти похожих текстов в лингвистическом корпусе ВепКар
Ключевые слова
Полный текст:
Ю. Г. Зеленков, И. В. Сегалович. 2007. Сравнительный анализ методов определения нечетких дубликатов для Web-документов // Труды 9-ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (с. 166–174). RCDL’2007, Переславль-Залесский.
Baroni M., Kilgarriff A. Large linguistically-processed web corpora for multiple languages. In EACL’06: Proceedings of the Eleventh Conference of the European Chapter of the Association for Computational Linguistics, 2006. April 5–6; Trento, Italy. P. 87–90.10.17586/2541-9781-2017-1-87-97. URL: https://www.dialog-21.ru/media/3985/kriukova.pdf.
Ferraresi A., Zanchetta E., Baroni M., Bernardini S. Introducing and evaluating ukWaC, a very large web-derived corpus of English // Proceedings of the 4th Web as Corpus Workshop (WAC-4) Can we beat Google. 2008. Pp. 47–54.9. Быков Ф. Ю. Почти похожие тексты в ВепКар 2023. Figshare. DOI: 10.6084/m9.figshare.22134422.v1. URL: https://doi.org/10.6084/m9.figshare.22134422.v1
Spoustová J., Spousta M. A High-Quality Web Corpus of Czech // LREC. 2012. Pp. 311–315.
Pomikalek J. Removing Boilerplate and Duplicate Content from Web Corpora. Ph.D. thesis, Masaryk University, Faculty of Informatics, Brno. 2011.
Erjavec T., Ljubešić N., Logar N. The slwac corpus of the sloveneweb. 2015. Informatica, 39 (1).
Крюкова А. В. Определение семантической близости текстов с использованием инструмента DKPro Similarity // Компьютерная лингвистика и вычислительные онтологии. Вып. 1 — СПб: Университет ИТМО, 2017. С. 87–97.
Broder A. Z. On the resemblance and containment of documents. In: Proceedings of the Compression and Complexity of Sequences. Pp. 21–29.
Lapata M. Automatic evaluation of information ordering: Kendall’s tau. 2006. Computational Linguistics, 32 (4). Pp. 471–484.
Abdi H. The Kendall rank correlation coefficient. Encyclopedia of Measurement and Statistics. Sage, Thousand Oaks, CA. 2007. 508–510.
Glen S. Kendall’s Tau (Kendall Rank Correlation Coefficient) // Elementary Statistics for the rest of us.
DOI: http://dx.doi.org/10.17076/mat1773
- На текущий момент ссылки отсутствуют.

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
© Труды КарНЦ РАН, 2014-2019