
ContentCombine: как я сделал мультинишевый контент-комбайн и запустил ежедневный SEO-дайджест
Staurus 29 минут назад ContentCombine: как я сделал мультинишевый контент-комбайн и запустил ежедневный SEO-дайджест Средний 24 мин 650 Python * Искусственный интеллект Natural Language Processing * Data Engineering *...
Anthropic — What company has the best second artificial intelligence model at the end of June?
Вот важная новость с фронта ИИ: Staurus 29 минут назад ContentCombine: как я сделал мультинишевый контент-комбайн и запустил ежедневный SEO-дайджест Средний 24 мин 650 Python * Искусственный интеллект Natural Language Processing * Data Engineering * Поисковая оптимизация * Кейс Визуализация комбайнаСтоит сказать «я сделал агрегатор новостей», как собеседник уже представляет RSS-читалку с кнопкой «обновить» и мысленно ставит тебе диагноз «изобрёл велосипед, причём квадратный». А потом обнаружил скучную правду: собрать ленту легко, невозможно по ней понять, что за сутки реально произошло в нише. Сто источников аккуратно превращаются в сто вкладок, и ты снова сидишь и читаешь всё руками, как в каменном веке до RSS.
ContentCombine вырос из желания убрать ровно одну операцию — чтение. Машина собирает материалы из разных источников, оценивает их, склеивает повторы в сюжеты, отделяет кейсы от проходных анонсов, переписывает отобранное под тон ниши и выкладывает в Telegram и Google Sheets. Я включаюсь там, где нужно редакторское решение, а не там, где нужно героически пролистать ещё двести заголовков и почувствовать себя занятым.
Технические детали
Сначала движок работал на игровых новостях. Потом я перенёс его на SEO и AI: заменил источники, словари и правила виральности, не переписывая ядро конвейера. А дальше началось самое интересное — новая ниша быстро показала, какие эвристики были универсальными, а какие только притворялись.
На этом движке и крутится ежедневный дайджест лучших новостей, кейсов и постов из Telegram-каналов. Как это устроено и где оно с удовольствием ломалось — дальше. Что такое ContentCombineЭто мультинишевый агрегатор и редакторский конвейер.
Путь от сырого источника до публикации выглядит так:источники → сбор → нормализация → скоринг → дедуп → сюжеты → кейсы → редакторская доска → публикацияНа этом пути система отвечает редактору на пять вопросов: что всплыло за сутки, какие темы повторяются у разных источников, где реальный тренд, а где одинокая публикация в пустоту, что сохранить в кейсы и что отправить в дайджест. Есть и шестой, служебный: какие источники сегодня сломались или начали тащить новости из 2019 года под видом свежих. Цель у меня была неприлично амбициозная для пет-проекта: оставить систему работать без няньки.
Отраслевые последствия
Звучит как слайд из питча, поэтому сразу обезврежу. В идеальном режиме человек правда только подтверждает итог. Но чтобы до этого идеального режима добраться, пришлось сделать гору совершенно нефотогеничных вещей: health-мониторинг источников, watchdog, circuit breaker, ретраи, фильтр свежести, карантин для сломанных фидов и ручную разметку кейсов.
Автономность — это не магия и не «одна гениальная функция», это длинный список занудной инфраструктурной работы, которую все обычно откладывают на «потом» и не делают никогда. Главный экран: лента новостей со скором и вкладки — Тренды, Кейсы, Здоровье источников. Почему это не RSS-читалкаОбычная читалка живёт в двух действиях: собрала ссылки, показала список.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





