Goudron 8 минут назад Новый русский орфографический словарь для Firefox, Thunderbird и CSpell: как он собирался Простой 9 мин 295 Firefox Open source * Браузеры Локализация продуктов * Natural Language Processing *...

Значимый прорыв формирует отрасль ИИ: Goudron 8 минут назад Новый русский орфографический словарь для Firefox, Thunderbird и CSpell: как он собирался Простой 9 мин 295 Firefox Open source * Браузеры Локализация продуктов * Natural Language Processing * Обзор Русская проверка орфографии в браузере — вещь почти невидимая. Пока она работает нормально, о ней не думаешь. Но стоит словарю начать подчёркивать обычные современные слова — и он сразу превращается из полезного инструмента в раздражитель.

Так случилось и с русским словарём для Firefox и Thunderbird. Текущий словарь много лет выполнял свою работу, но постепенно начал отставать от живого языка: технической лексики, интерфейсных слов, современной терминологии, слов из документации, ИБ, веба, разработки и повседневной цифровой среды. История проекта началась с бага 2040224 в Bugzilla: Evaluate new Russian dictionary.

Технические детали

В нём обсуждался вопрос, можно ли заменить старый русский словарь Mozilla на более новый словарь Александра Клюквина. На первый взгляд задача звучала просто: взять словарь поновее, положить его в Firefox/Thunderbird, закрыть баг. На практике быстро стало понятно, что так делать нельзя.

Орфографический словарь — это не просто список слов. Что было взято за основуЗа основу был взят текущий Mozilla-совместимый русский Hunspell-словарь, происходящий из линии словаря Александра Лебедева. Это важный момент: я не стал делать словарь «с нуля» и не стал механически склеивать все найденные русские словари.

Базовый словарь уже имеет понятную историю использования в Mozilla-продуктах, совместимый лицензионный контур и Hunspell-структуру:. dic — словарные записи;. aff — правила словоизменения.

Отраслевые последствия

На момент начала работы базовый словарь содержал 146 433 записи. Итоговый словарь в текущем пакете содержит 179 956 записей. Но большая часть работы была не в том, чтобы «добавить 33 тысячи строк».

Основная работа была в том, чтобы понять:какие слова действительно нужны;какие слова уже покрываются существующей морфологией;какие слова надо добавлять как базовые леммы с Hunspell-флагами;какие слова лучше добавлять только как exact-only (точные) формы;какие слова лучше не добавлять вообще;какие кандидаты являются опечатками, мусором корпуса, OCR-ошибками, фрагментами кода, никами или слишком рискованными формами. Кроме Hunspell-версии для Firefox и Thunderbird, был также собран CSpell-пакет. Для CSpell пришлось отдельно развернуть Hunspell-словарь в список слов в кодировке UTF-8: итоговый CSpell-словарь содержит около 1,79 млн словоформ.

Публичный репозиторий проекта: нельзя было просто взять другой словарьВ Bugzilla в качестве одного из кандидатов обсуждался словарь Александра Клюквина. Он действительно интересен как источник для сравнения: он больше старого словаря и исторически тоже связан с русскими Hunspell-словарями. Но его нельзя было просто взять и положить в Mozilla-словарь.

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

Новый русский орфографический словарь для Firefox, Thunderbird и CSpell: как он собирался

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News