Описание Kazakh Verb Dictionary
Документ описывает сервис в разработке, находящийся по адресуhttps://kazakhverb.khairulin.com/gc_landing_ru.html.
Мотивация
Доступные словарные данные понизят порог входа при создании новых сервисов и приложений для казахского языка.
Цель
Цель проекта — создать набор данных, покрывающий все слова казахского языка с переводами на русский и английский языки. Слова могут иметь дополнительную разметку, например, части речи. Набор данных должен быть общедоступным, свободным для использования и иметь механизм добавления и исправления данных.
Реализация
Сервис Kazakh Verb Dictionary позволяет пользователям регистрироваться и участвовать в добавлении и исправлении данных.
Модель данных
Слово
У каждого слова в базе данных сервиса размечены язык и часть речи, а для казахских глаголов также может быть отметка в случае особого спряжения. Для слов сохраняются авторы. К слову можно добавить комментарий, например, в случае омонимов. Изолированные слова не экспортируются и не видны пользователям, но могут предлагаться при добавлении переводов.
Перевод
Перевод — это связь между двумя словами разных языков. Подразумевается, что связь двунаправленная, т.е. связь{kk:алма, en:apple}означает, что "алма" переводится как "apple", а также "apple" переводится как "алма". Для перевода также сохраняется автор, добавивший его. У перевода можно указать источник. Перевод экспортируется и показывается пользователям как пара слов, которые он соединяет.
Пользователь
Сущность, которая хранит данные для регистрации и входа пользователей. В словах и переводах сохраняется указание на запись пользователя, как на автора.
Ревью
Чтобы поддерживать качество разметки, каждый добавленный перевод должен проходить ревью, т.е. проверку другими пользователями. Перевод считается проверенным, если как минимум заданное число других пользователей подтвердили его корректность. Сейчас требуется подтверждение как минимум от 2 пользователей. Также перевод может быть отклонён. Обработку отклонённых переводов ещё предстоит проработать более подробно.
![](/review_stages_ru.a908cb87.png)
Очередь ревью
Добавленные переводы попадают в общую очередь на ревью, которая отображается на сайте сервиса. Пользователи могут выбирать переводы и подтверждать или отклонять их. Чтобы ограничить рост очереди, при достижении предельного размера добавление новых переводов запрещается, пока очередь на ревью не уменьшится.
Геймификация
На основании участия в добавлении переводов и их ревью расчитывается вклад пользователей. На сайте отображается таблица участников с наибольшим вкладом за всё время и за неделю.
Экспорт
Приблизительно раз в месяц публикуется срез базы данных с подтверждёнными переводами в формате JSON Lines. Лицензия данных экспорта — CC-BY-4.0. При использовании данных желательна, но необязательна ссылка на проект Kazakh Verb Dictionary.
В случае закрытия проекта финальный экспорт будет опубликован врепозитории проектана Github.
Финансирование
Автор самостоятельно покрывает расходы на инфраструктуру проекта в пределах установленного месячного лимита.