
Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой
kesh1987 10 минут назад Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой Средний 9 мин 288 Искусственный интеллект Машинное обучение * Go * Развитие стартапа Natural Language...
Anthropic — What company has the best second artificial intelligence model at the end of June?
Вот важная новость с фронта ИИ: kesh1987 10 минут назад Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой Средний 9 мин 288 Искусственный интеллект Машинное обучение * Go * Развитие стартапа Natural Language Processing * Кейс Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы это работало именно на русской еде — борщи, гречки, котлеты по-домашнему.
В какой-то момент стало некомфортно: я не знал, насколько модель вообще точна. «Кажется, работает нормально» — плохой ответ, если хочешь что-то улучшать. Решил померять нормально.
Технические детали
Расскажу, что и как мерил, что получил — и про неожиданный вывод в конце, ради которого, честно говоря, и стоило это всё делать. Три вещи, которые хотелось знатьСначала кажется, что нужна одна метрика — «точность». Но это зависит от того, что считать ошибкой.
«Борщ с говядиной» вместо «борщ» — не ошибка. Пользователь это залогирует без вопросов. А «гречка» вместо «пельмени» — катастрофа: человек закроет приложение и не вернётся.
Значит, нужно делить ошибки на те, что можно поправить за пару тапов, и те, после которых доверие уже не восстановить. Я ввёл три вердикта: correct (то же блюдо, гарниры и уточнения не считаются), wrong-but-close (другое, но похожее — той же категории или кухни, нужно переименовать), wrong (принципиально другое блюдо). Неисправимая ошибка — только wrong.
Отраслевые последствия
Если их доля ниже ~20%, доверие к продукту держится. Второе — калибровка уверенности. Gemini возвращает confidence от 0 до 1.
Я показываю предупреждение при значении ниже 0. Хотелось проверить, работает ли это вообще или просто висит для красоты. Третье — правдоподобие калорий.
Блюдо распознано правильно, но цифры разумные? Для каждого блюда в датасете задал референсный диапазон (борщ — 300–500 ккал на порцию, пельмени — 400–700) и проверял, попадает ли результат. ДатасетНужны фотографии с известным ответом.
Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.




