Similarity between the mean value of vectors of the sentence and the first synonym set is lower than the similarity with the second synset

Алгоритм решения WSD-задачи на основе нового способа вычисления близости контекстов с учётом эпсилон-фильтрации слов

Andrew Krizhanovsky, Alexander Kirillov, Natalia Krizhanovskaya

Аннотация


Рассмотрена задача разрешения лексической многозначности (WSD), а именно по данным наборам синонимов (синсеты) и предложений с этими синонимами требуется автоматически определить, в каком значении использовано слово в предложении.

Экспертами были размечены 1285 предложений, выбрано одно из заранее известных значений (синсетов).

Для решения WSD-задачи предложен алгоритм, основанный на новом способе вычисления близости контекстов. При этом для более высокой точности выполняется предварительная эпсилон-фильтрация слов, как в предложении, так и в наборе синонимов.

Проведена обширная программа экспериментов. Реализовано четыре алгоритма, включая предложенный. Эксперименты показали, что в ряде случаев новый алгоритм показывает лучшие результаты.

Разработанное программное обеспечение и размеченный корпус с открытой лицензией доступны онлайн. Использованы Викисловарь и Викитека.

Резюме работы в виде презентации доступно по ссылке https://goo.gl/9ak6Gt


Ключевые слова


синоним; синсет; нейронная сеть; корпусная лингвистика; word2vec; RusVectores; gensim; Русский Викисловарь

Полный текст:

PDF (English)

Литература


Arora S., Liang Y., Ma T. A simple but tough-to-beat baseline for sentence embeddings. In Proceedings of the ICLR, 2017. P. 1–16. URL: https://pdfs.semanticscholar.org/3fc9/7768dc0b36449ec377d6a4cad8827908d5b4.pdf

Chen X., Liu Z., Sun M. A unified model for word sense representation and disambiguation. In Proceedings of the EMNLP, 2014. P. 1025–1035. doi: 10.3115/v1/d14-1110. URL: http://www.aclweb.org/anthology/D14-1110

Choi S. S., Cha S. H., Tappert C. C. A survey of binary similarity and distance measures. Journal of Systemics, Cybernetics and Informatics. 2010. Vol. 8. no. 1. P. 43–48. URL: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.352.6123&rep=rep1&type=pdf

Haussler D. Convolution kernels on discrete structures. Technical report, Department of Computer Science, University of California at Santa Cruz. 1999. URL: https://www.soe.ucsc.edu/sites/default/files/technical-reports/UCSC-CRL-99-10.pdf

Jurczyk T., Deshmane A., Choi J. Analysis of Wikipedia-based corpora for question answering. arXiv preprint arXiv:1801.02073. 2018. URL: http://arxiv.org/abs/1801.02073

Krizhanovsky A., Kirillov A. Calculated attributes of synonym sets. arXiv preprint arXiv:1803.01580. 2018. URL: http://arxiv.org/abs/1803.01580

Krizhanovsky A., Kirillov A., Krizhanovskaya N. WCorpus mysql database with texts of 3 writers. figshare. 2018. URL: https://doi.org/10.6084/m9.figshare.5938150.v1

Krizhanovsky A., Kirillov A., Krizhanovskaya N. Assign senses to sentences of 3 writers. Google Sheets. 2018. URL: http://bit.ly/2I14QIT

Kutuzov A., Kuzmenko E. Texts in, meaning out: neural language models in semantic similarity task for Russian. arXiv preprint arXiv:1504.08183. 2015. URL: https://arxiv.org/abs/1504.08183

Lesot M-J., Rifqi M., Benhadda H. Similarity measures for binary and numerical data: a survey. International Journal of Knowledge Engineering and Soft Data Paradigms. 2009. Vol. 1. no. 1. P. 63–84. doi: 10.1504/ijkesdp.2009.021985. URL: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.212.6533&rep=rep1&type=pdf

Nielsen F. Linking ImageNet WordNet Synsets with Wikidata. In WWW ’18 Companion: The 2018 Web Conference Companion. 2018. URL: https://arxiv.org/pdf/1803.04349.pdf




DOI: http://dx.doi.org/10.17076/mat829

Ссылки



Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.

© Труды КарНЦ РАН, 2014-2019