
Энтропия, которая измеряет порядок: IH-анализ находит закономерности в разнотипных данных
algol78 только что Энтропия, которая измеряет порядок: IH-анализ находит закономерности в разнотипных данных Средний 8 мин 0 C++ * Data Mining * Python * Математика * Машинное обучение * Аналитика Из песочницы Обычно...
Значимый прорыв формирует отрасль ИИ: algol78 только что Энтропия, которая измеряет порядок: IH-анализ находит закономерности в разнотипных данных Средний 8 мин 0 C++ * Data Mining * Python * Математика * Машинное обучение * Аналитика Из песочницы Обычно энтропия — мера хаоса. Но наш сегодняшний герой — IH-анализ (Information-Entropy analysis) — вычисляет информационную энтропию, чтобы измерить обратное: степень детерминированности связи между признаками и целевой переменной. Мы будем вычислять: насколько утверждение «если А, то Б, и, если не А, то и не Б» выполняется в наших данных устойчиво.
Одновременная работа с категориальными и количественными признаками нас не затруднит. Вы спросите: и что, твоя энтропия может справиться с такими проблемами:одни признаки количественные, связь с Y явно нелинейная, и гипотезы о виде функции нет, другие категориальные;более того — признаков много, измерены в разных шкалах: числа, названия категорий, интервалы, градации и т. Как их вообще собрать вместе, в одну компанию, чтобы измерить совместное влияние на Y?
Технические детали
«В одну телегу впрячь не можно коня и трепетную лань». А IH-анализ говорит: можем. И сейчас покажем как.
Подход IH-анализа к оценке взаимосвязи признаков: как с помощью меры хаоса — энтропии можно измерить степень взаимовлияния, упорядоченности и детерминированности связи X -> YФункциональная связь y = f(x) — это отображение множества значений x на множество значений y: x -> y, где каждому значению x соответствует единственное значение y. Для решения задач классификации, предсказания, управления, оптимизации нашей реальной системы мы стремимся найти закономерности, ей присущие, через анализ ее исторических данных. Эти данные лишь в той или иной степени отражают нашу систему, являются её некоторым слепком.
Сопоставляя значения x и y в датасете, мы обнаруживаем неопределённость: одному и тому же значению x соответствует несколько разных y, и наоборот — отображение x -> y является нечётким (размытым, fuzzy). Очень нечёткое отображение X → YВ качестве меры взаимосвязи признаков IH-анализ предлагает использовать степень отклонения связи x-y от функциональной — измерить степень нечёткости отображения x -> y. Идея нечёткого множества: элемент принадлежит множеству с некоторой степенью принадлежности.
Отраслевые последствия
Для нечётких отношений «если xi, то yj» в качестве меры принадлежности предлагаем использовать условную вероятность P(yj | xi) для каждой пары xi-yj. Если она близка к единице — связь почти детерминирована. Если к нулю — её почти нет.
Интегральная оценка для всего отображения X → Y. Здесь IH-анализ обращается к энтропии Шеннона. Три шага — и мера готова:H(Y) — полная неопределённость Y.
H(Y|X) — условная энтропия Y (остаточная неопределённость) после того, как мы узнали X. I(X;Y) = H(Y) − H(Y|X) — взаимная информация, неэнтропия (антихаос! Степень детерминированности, упорядоченности взаимосвязи X - Y.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





