Сверхсжатие составов при использовании их средних величин

 

заголовок не точно ориентирует на собержание

Числа имеют смысл! Одни долго не изменяются – стоят на месте, другие ползут, взлетают,  скачут и возвращаются, исчезают, — почему? Одни говорят об однородности, равномерности, внутреннем согласии и вызывают доверие,  другие – свидетели большого разнообразия, и могут порождать как радость и восторг,  так и сомнение, подозрение, раздражение и страх, если представлены одним числом, когда требуется подкрепление его надёжности. Среди чисел обычны «средние».  При их расчётах они лишаются «мелочей», а в них,  как известно, дьявол. И в таких средних может быть утоплена простая истина – большое вырастает из незаметного малого. Знания с трудом приобретаются в школе, и обычно потом, и с ещё  бо`льшим трудом, осваивается понимание как совокупность связей между знаниями.   Важнейшим средством упрощения охвата  знания о большом разнообразии чего-то – статистика, стоящая по известному выражению, рядом с наглой ложью. Приведём высказывание Чарльза Уилана, автора книги «Голая статистика: самая интересная книга о самой скучной науке» : «Статистика подобна мощному оружию, полезному в случае его правильного применения и потенциально разрушительному в неумелых руках», добавим – в умелых – тем более…

Составы поликомпонентных объектов, которые нас интересуют, весьма могут сильно различаться по характерам распределений  значений исходных величин.  И, обратим внимание, — мы занимаемся средними  составами одного объекта, в отличие от обычного использования средних для многих объектов.  Среднее арифметическое состава одного объекта — это величина, равная частному от деления суммы анализа на количество компонентов — то есть это константа для данного количества компонентов в составе. (Примеры излишни.)

Среди основных, повсеместно использующихся,  средств статистики находится среднее – результат сжатия, или свёртки информации.  «Среднее«, вообще,  не заключает в себе ничего, кроме смысла быть между возможным максимумом и возможным минимумом.  Поэтому единичные средние,  как  пресловутые «средние по больнице», — внимательному  персонажу недостаточны и  могут восприниматься только тенью действительности — средняя зарплата по стране.

Энтропия, анэнтропия и толерантность, – все они – как средние «характеризации» (количественные характеристики)  на один компонент состава (по методу RHA),  – зависят от двух параметров состава. Первый – распределение  частот (pi) событий при Σpi=1. Под термином «событие» может пониматься встреча атома данного элемента, молекулы конкретного вещества, птицы определённого вида,  единицы массы, мощности, длины и т.д. Второй – детальность состава – длина перечня компонентов  (n), включённых в расчёт.

И теперь  главное, что вызывает сомнения при оценке среднего. При малом разбросе значений pi средние значения мало отличаются от конкретных (исходных). При больших разбросах, когда различия между отдельными компонентами составов становятся большими и «ненормально» большими, что обычно при детальных анализах, средние оказываются сверхсжатыми характеризациями, теряющими свою ценность.

На рисунке представлена диаграмма, на которой над осью энтропии приведены несколько модельных анализов, для иллюстрации того, что за одной величиной  информационной энтропии (кроме двух её крайних значений при минимуме и максимуме) для данного количества компонентов (в данном случае n=10), скрывается неопределённо большое количество возможных анализов. Следствием этого, как показано на рисунке,  является неразличение далёких от сходства составов,  имеющих одинаковые или близкие значения энтропии.

Рис. 1. Размахи содержаний «больших» компонентов, при равенстве значений энтропии. Условия проведения расчётов в тексте.

Расчёты проведены при минимальных значениях pi = 0.005.  Понятно, что при меньших  значениях  pi, обычных в химических анализах минералов, горных пород и других объектов, различия между не различаемыми  по энтропии составами ещё возрастёт.

Показанное — главный аргумент признания испоьзования  энтропии  как результата  сверхупрощения — сверхсжатия — составов, влекущее как возможности ошибок, так и произвола при интерпретации  её величин. Это  обстоятельство приводит к признанию  необходимости выхода либо  на множественное представление средних данных, связанных в процессе или в рейтинге, гистограмме, диаграмме.

Снижение сверхсжатия информации о составе в методе RHA достигается вынесением материалов на диаграмму энтропия-анэнтропии и энтропия-толерантность, для чего используются те же количественно-аналитические данные, что и при расчётах энтропии.

На приведённом нже рисунке (Рис.2) различия форм букв очевидны – значения площадей штамбов как  «больших» компонентов  – различаются существенно при равенстве значений энтропиии — колонка слева (справа — названия шрифтов). С каталогом коллекции шрифтов, насчитывающей 99 образцов, можено ознаомиться в статье [ ].

Рис.2 Равенство энтропий при явном различии соотношений площадей компонентов каркаса букв.

В  истории возникновения анэнтропии побуждение к поиску дополнения к энтропии было вызвано обнаружением составов минерала (мусковита) и горной породы (сланца) при высокой близости значений больших компонентов при практической неразличимости значений энтропии. Только гораздо позднее, при кодировании шрифтов, удалось сделать наглядными различия чисел энтропии.

 

Влияние разной детальности аналитических материалов на величины Н, А, Т , и сооьвеьтственно на  вид  диаграмм  требует отдельного рассмотрения.

Литература

Джини К, Средние величины и статистика. М.: Статистика, 1970. — 448 с.

Петров Т.Г. Метод RHA для кодирования, систематизации и отображения изменений возрастных составов населения. DOI: 10.13140/RG.2.1.3207.2166   

Уилан Ч. Голая статистика: самая интересная книга о самой скучной науке. М.: Манн, Иванов и Фербер. 2016 — 348 с.

Петрова Е.Т., Петров Т.Г., Чебанов С.В., Мошкин  С.В. Метод кодирования многокомпонентных объектов (RHA) и его применение для упорядочения шрифтов прямого начертания. // Научно-техническая информация НТИ сер 2, 2019 с.28-44 ; Eng. trans. Petrova E. T.Petrov T. G. , Chebanov S. V. , and Moshkin S. V. Method of Coding for Multicomponent Objects (RHA) and Its Application for Ordering  Roman  Fonts.  ISSN  0005-1055,  Automatic  Documentation  and Mathematical Linguistics, 2019, Vol. 53, No. 3, pp. 143–159. © Allerton Press, Inc., 2019. Russian Text © The Author(s), 2019, published in Nauchno-Tekhnicheskaya Informatsiya, Seriya 2: Informatsionnye Protsessy i Sistemy, 2019, No. 6, pp. 28–44. DOI: 10.3103/S0005105519030087

 

Вернуться на “Картинки И”

На главную

Блог Томаса Георгиевича Петрова