Telegram-бот с RAG на Cloudflare Workers: база знаний без векторов и без базы данных
fakedreams 23 минуты назад Telegram-бот с RAG на Cloudflare Workers: база знаний без векторов и без базы данных Простой 12 мин 473 Искусственный интеллект JavaScript * TypeScript * Wiki-проекты * Кейс В предыдущей...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. fakedreams 23 минуты назад Telegram-бот с RAG на Cloudflare Workers: база знаний без векторов и без базы данных Простой 12 мин 473 Искусственный интеллект JavaScript * TypeScript * Wiki-проекты * Кейс В предыдущей статье разбирали, как собрать структурированную wiki из markdown-файлов на Astro/Starlight — на примере личного карьерного менеджера. В комментариях появились закономерный вопрос: «почему именно так? », «что за странный выбор стека?
», «а для чего ещё это можно использовать, кроме как для себя? Эта статья отвечает на него делом. Та же механика — wiki из markdown — но теперь с Telegram-ботом поверх.
Технические детали
Бот умеет искать по базе знаний и отвечать с цитатами и ссылками на источники. В качестве предметной области выбрана психология и философия: получился @pif_bbot — эмпатичный помощник, который работает на основе открытой базы знаний по НВО, Юнгу, Франклу и другим авторам. Весь код — в репозитории на GitHub, папка bot/.
Когда говорят «RAG», в голове сразу возникает: векторная БД, эмбеддинги, OpenAI API, Pinecone или pgvector. Кажется, что для минимального рабочего решения нужна приличная инфраструктура и немаленький бюджет. Если предметная область достаточно специализирована — психология, юриспруденция, техническая документация — обычный поиск по ключевым словам даёт результаты, сравнимые с семантическим.
В этой статье мы построим Telegram-бота, который:ищет по базе знаний с помощью алгоритма Jaccard — детерминированно и быстроцитирует источники со ссылками на конкретные статьи wikiпомнит историю диалога между сессиями через Cloudflare KVдеплоится одной командой на Cloudflare Workers — бесплатно при умеренной нагрузкеСтекTypeScript — единый язык и для бота, и для скриптов сборкиTelegraf — фреймворк для Telegram Bot APIGroq API — бесплатный LLM (Llama-3. 1-8b-instant, очень низкая латентность)Cloudflare Workers — serverless edge, cold start < 5ms, бесплатный tierCloudflare KV — хранение истории сессийАрхитектураWiki (Markdown) ──► build-knowledge. ts │ 256 чанков с предвычисленными ключевыми словами │ Telegram ──► CF Worker ──► Retriever ──────────┘ │ (Jaccard) ▼ Groq LLM ──► ответ с цитатами ▲ KV (история) Главная идея: база знаний встроена прямо в код.
Отраслевые последствия
При деплое knowledge. ts с 256 чанками загружается в память воркера — никаких запросов к БД, нулевая латентность поиска. Звучит немного безумно, но на практике работает отлично: 29 статей, ~620KB, поиск занимает единицы миллисекунд.
ПодготовкаНужно:Node. js 20+Аккаунт Cloudflare (бесплатный)Токен Telegram-бота — получить у @BotFatherAPI-ключ Groq (бесплатный tier)Структура проекта (wiki уже есть из предыдущей статьи, добавляем папку bot/):pif/ ├── src/content/docs/ # Wiki из предыдущей статьи │ ├── authors/ │ │ ├── jung/ │ │ │ └── shadow. md │ │ └── frankl/ │ │ └── logotherapy.
md │ └── practices/ │ └── nvc. md └── bot/ ├── src/ │ ├── index. ts # точка входа CF Workers │ ├── bot.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





