
Работает ли Caveman? Тестируем модный скилл для экономии токенов
Indermove 45 минут назад Работает ли Caveman? Тестируем модный скилл для экономии токенов Простой 4 мин 2.2K Искусственный интеллект Open source * Программирование * GitHub * Аналитика Недавно копайлот перешёл на новую...
Anthropic — What company has the best second artificial intelligence model at the end of June?
Значимый прорыв формирует отрасль ИИ: Indermove 45 минут назад Работает ли Caveman? Тестируем модный скилл для экономии токенов Простой 4 мин 2. 2K Искусственный интеллект Open source * Программирование * GitHub * Аналитика Недавно копайлот перешёл на новую тарификацию, из-за которой я упёрся в месячные лимиты буквально за первую рабочую неделю.
В рабочих чатиках все стали искать способ экономить токены, и среди разных предложений стабильно мелькал скилл под названием Caveman. Идея простая — скилл указывает нейронке говорить, как пещерный человек, убирать артикли, говорить коротко и думать лаконично. На первых строках README обещается экономия до 75%.
Технические детали
При этом без потери качества! Кажется круто и интуитивно понятно — говоришь короче, значит, токенов тратится меньше. Но внутри меня засело сомнение.
Уж слишком это всё попахивает каким-то скамом. Будь это так просто, разработчики агентных систем уже бы, скорее всего, и сами включили что-то подобное. Ещё одна вещь, которая настораживает и раздражает меня в таких чудо-репозиториях, — это график звёздочек.
В целом, понятно желание автора попонтоваться, тем не менее, раньше популярные репозитории таких графиков не выставляли. Да и зачем это вообще нужно? У меня есть одно предположение, думаю, в конце статьи его выскажу.
Отраслевые последствия
А пока я решил протестировать этого caveman'а, потому что на удивление в интернете не оказалось бенчмарков. Только исследования самого автора и пара комментов на реддите, что мол всё работает. Как тестировалВообще довольно сложно придумать какой-то показательный тест.
Раньше, пока модельки были попроще, достаточно было попросить написать кусочек кода и оценить его. Но сейчас, в общем-то, это уже не показатель. Ещё в идеале запускать два разных варианта одного и того же промпта на одинаковых задачах.
И вот ещё что: мне показалось, что caveman просто обязан ухудшить качество размышлений моделей. А как следствие — ударить по качеству более абстрактных задач. Поэтому я придумал такой тестовый промпт:Сделай мне в новой папке игру про огромного робота с видом сверху, папку положи в папку games.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





