
Как заставить xt850 совпадать с xt 850
ManticoreSearch 3 минуты назад Как заставить xt850 совпадать с xt 850 7 мин 50 Поисковая оптимизация * Поисковые технологии * Open source * SQL * Базы данных * КраткоВ Manticore, начиная с версии 23.0.0, можно настроить...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. ManticoreSearch 3 минуты назад Как заставить xt850 совпадать с xt 850 7 мин 50 Поисковая оптимизация * Поисковые технологии * Open source * SQL * Базы данных * КраткоВ Manticore, начиная с версии 23. 0, можно настроить поиск так, чтобы запрос xt850 находил xt 850. Для этого используется bigram_delimiter вместе с режимами bigram_index , которые умеют работать с цифрами.
Это помогает в типичной ситуации для товарного поиска: пользователь вводит модель без пробела, а в индексе она лежит как несколько отдельных токенов. Что стоит учесть в примерахВ примерах ниже мы исходим из таких условий:RT-таблицы созданы по SQL-примерам без изменений, именно в показанном видетокенизация остается стандартной, если в конкретном примере явно не задано другое поведениев названиях моделей используются ASCII‑цифры, потому что second_numeric и second_has_digit рассчитаны на цифры из диапазона 0-9Все SQL-примеры и ожидаемые результаты в этой статье мы проверили перед публикацией на реальном сервере Manticore версии 23. 0, используя новые таблицы, созданные с нуля для каждого сценария.
Технические детали
Проблема не только в xt850Представьте, что у вас есть каталог с такими товарами:xt 850 action cameraiphone 5se battery casecanon eos 80d bodythinkpad x1 carbonА теперь представьте, что пользователи ищут так:xt850iphone5seeos80dthinkpadx1С точки зрения пользователя такие запросы, конечно, должны совпадать. Для движка они часто не совпадают, потому что при индексации текст разбивается на отдельные термины. Обычно поисковые системы решают такое несоответствие одним из четырёх способов:индексация префиксов или инфиксовдобавление пользовательских правил нормализациидублирование контента в альтернативные нормализованные поляиндексация соседних пар токенов и при необходимости хранение склеенных вариантовНовые возможности Manticore для биграмм позволяют сделать четвёртый вариант проще и понятнее, не дублируя поля.
Начнём с простого: почему xt850 не срабатывает по умолчаниюВот как эта проблема выглядит в самом простом сценарии:DROP TABLE IF EXISTS bi_default_demo; CREATE TABLE bi_default_demo(title text); INSERT INTO bi_default_demo VALUES (1,'xt 850 action camera SELECT id, title FROM bi_default_demo WHERE MATCH('xt850 Ожидаемый результат:Empty set Почему это не работает? Причина в том, что при индексации документ превращается в два отдельных токена: xt и 850. Запрос же приходит одним токеном — xt850.
По умолчанию Manticore не предполагает, что:xt850 должен быть разбит на xt + 850или xt + 850 также должно быть доступно для поиска как xt850То есть это не проблема работы с опечатками и не проблема фразового поиска. Это несоответствие токенизации: индекс видит два токена, а запрос даёт один. Новые настройки биграмм помогают решить именно эту проблему.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





