В статистике есть много инструментов для анализа упорядоченных и неупорядоченных данных. Если большой объем числовой информации нужно свести к одному показательному числу, чаще всего используются 3 взаимосвязанных инструмента: среднее арифметическое, медиана и мода. Ниже мы расскажем, как и зачем их находить.
Начнем с самого простого – со среднего арифметического. Например, у нас есть небольшая компания, создающая сайты под ключ для заказчиков. Мы решили посмотреть, сколько проектов выполнялось ежемесячно за последние 10 месяцев, и получили такой набор данных, стянув его из базы: [4, 8, 6, 5, 3, 8, 7, 8, 6, 5].
Чтобы найти среднее арифметическое, нам нужно сложить все значения, а затем поделить эту сумму на количество значений. (4 + 8 + 6 + 5 + 3 + 8 + 7 + 8 + 6 + 5) / 10 = 60 / 10 = 6. Итого – в среднем компания за месяц делает 4 заказа.
Медиана – это число, наиболее близкое к центральному значению в упорядоченном массиве. Для начала упорядочим наш массив выше, получим: [3, 4, 5, 5, 6, 6, 7, 8, 8, 8]. Теперь нужно найти саму медиану, алгоритм вычисления зависит от четности количества значений в массиве:
Мода – это число, встречающееся в массиве данных самое большое количество раз. В массиве [3, 4, 5, 5, 6, 6, 7, 8, 8, 9] мода – 8, потому что оно встречается 3 раза, в то время как 5 и 6 встречаются по 2 раза – не дотягивают. Если бы наш массив данных выглядел как [3, 4, 5, 5, 6, 6, 7, 8, 8, 9], то числа 5, 6 и 8 встречались бы по 2 раза – это была бы мультимода.
Со средним арифметическим ситуация довольно сложная, потому что оно показывает все и ничего одновременно. Обычно среднее арифметическое используют тогда, когда нужно максимально просто и широко что-либо оценить – количество постов за промежуток времени, среднюю годовую выплату и так далее. Среднее арифметическое удобно использовать там, где встречается нормальное распределение, то есть присутствует очерченная центральная часть и нет выбросов (отдельных значений, существенно выбивающимся из общей картины) по краям – нормальное распределение в бизнес-статистике встречается редко, поэтому и среднее арифметическое как основной инструмент используется нечасто.
Медиана дает более точную общую картину даже в том случае, если в датасете присутствуют выбросы, поскольку единичный выброс пододвигает медиану влево/вправо только на 0.5 позиции – поэтому их так часто и используют. Медианы полезны тогда, когда у нас есть «нормализованный» датасет, в котором ожидаются эти самые выбросы – например, если мы ищем среднюю цену на товар у конкурентов, при этом пара конкурентов цену демпингует или необоснованно завышает. Медианы неприменимы тогда, когда важны эти самые выбросы – если мы ищем среднюю прибыль компании для годовой отчетности, например.
Сама по себе мода может указать на какое-то выходящее из привычных рамок событие – внезапный репост от канала с большим количеством подписчиков, рост продаж в черную пятницу и так далее. Как единственный инструмент аналитики мода используется крайне редко, а вот как дополнительный – часто. Применять моду можно в том числе для анализа выбросов. Подсказка – вместо конкретного числа при поиске моды вы можете указать узкий диапазон, что позволит захватить релевантные события при больших числах, например: если обычный охват ваших постов – 5 000 человек, но вы увидели выброс на 18 500 человек, стоит захватить в моду промежуток от 18 000 до 18 500 человек, чтобы не упустить какой-нибудь выброс чуть поменьше, на 18 350 человек к примеру.