Информационная энтропия как сверхсжатие составов

Числа имеют смысл! Одни долго не изменяются – стоят на месте, другие ползут, взлетают,  скачут и возвращаются. Одни говорят об однородности, равномерности, внутреннем согласии и вызывают доверие,  другие – свидетели большого разнообразия, и могут порождать как радость и восторг,  так и сомнение, подозрение, раздражение и страх, если представлены как результат сверхсжатия. Они могут быть лишены “мелочей”, в которых, как известно, дьявол. И в миллионе мелочей может быть утоплена искомая истина.  Мир сложен для знающих об этом и может быть простым для детей с  находящимися рядом – мамой и папой или слугами. Знания с трудом приобретаются в школе и обычно потом, и с бо`льшим трудом, осваивается понимание как совокупность связей между знаниями.  Понимающие многое и знающие о многом упрощают жизнь свою и для других, и это   кормит их,  обогащает, тянет к власти – каждому своё. Важнейшим средством упрощения охвата  знания о большом разнообразии чего-то – статистика, стоящая по известному выражению, рядом с наглой ложью. Чтобы статистику несколько отодвинуть от лжи, приведём высказывание Чарльза Уилона, автора дважды нескромно названной книги “Голая статистика: самая интересная книга о самой скучной науке” : “Статистика подобна мощному оружию, полезному в случае его правильного применения и потенциально разрушительному в неумелых руках”.

Среди основных, повсеместно использующихся,  средств статистики находится среднее – результат сжатия, или свёртки информации. При этом обычно остаётся неизвестным или труднодоступным набор исходных данных, будь-то химический анализ кварца, позиционно-химическая структура минерала, состав   руды, зарплата в школе, доля средств семьи на взращивание ребёнка , структура преступности в регионе-стране-конфессии-среди несовершеннолетних.

Энтропия, анэнтропия и толерантность, – все они – как средние “характеризации” (количественные характеристики)  на один компонент состава,  – зависят от двух параметров состава. Первый – распределение  частот (pi) событий при Σpi=1. Под термином “событие” может пониматься встреча атома данного элемента, молекулы конкретного вещества, птицы определённого вида,  единицы массы, мощности, длины и т.д. Второй – детальность состава – длина перечня компонентов  (n), включённых в расчёт.

И теперь  главное, что определяет напряжённость при оценке среднего. При малом разбросе значений pi средние значения мало отличаются от конкретных (исходных). При больших разбросах, когда различия между отдельными компонентами составов становятся большими и «ненормально» большими, средние являются сверхсжатыми характеризациями. Приведение таких   цифр может свидетельствовать как о небрежности при сборе материалов, так и о нелогичном, или намеренном  объединении составов в единую для расчётов группу.

На рисунке представлена диаграмма, на которой над осью энтропии приведены несколько модельных анализов, для иллюстрации того, что за одной величиной  информационной энтропии (кроме двух её крайних значений при минимуме и максимуме) для данного количества компонентов (в данном случае n=10), скрывается неопределённо большое количество возможных анализов. Следствием этого, как и показано,   может быть неразличение далёких от сходства составов,  имеющих одинаковые или близкие значения энтропии.

Расчёты проведены при минимальных значениях pi = 0.005.  Понятно, что при меньших  значениях  pi, обычных в химических анализах минералов, горных пород и других объектов, различия между не различаемыми  по энтропии составами ещё возрастёт.

Показанное – главный аргумент признания энтропии  как средства сверхупрощения – сверхсжатия – составов, влекущее как возможности ошибок, так и произвола при интерпретации  её величин. Это  обстоятельство приводит к признанию  необходимости выхода либо  на множественное представление средних данных, связанных в процессе или в рейтинге, гистограмме, диаграмме.

Снижение сверхсжатия информации о составе в описываемом  методе достигается использованием  анэнтропия и толерантность, использующие те же количественно-аналитические данные, что и при расчётах энтропии.

На приведённой диаграмме различия составов очевидно – по значениям содержаний “больших” компонентов. .  Но в  истории возникновения анэнтропии побуждение к поиску дополнения к энтропии было обнаружение составов минерала (мусковита) и горной породы (сланца) с неразличимыми значениями энтропии при высокой близости значений больших компонентов.

Влияние разной детальности на сверхсжатие  требует отдельного рассмотрения.

Вернуться на “Картинки И”