Дата-журналистика

Блог

Чек-лист: популярные ошибки

Собираю распространённые ошибки при работе со статистикой. Сверьтесь с этим списком, когда готовите текст на основе данных.

1. Не сходятся суммы. Если вы раскладываете что-то общее на частности и называете цифры, проверяйте, что сумма соответствует слагаемым:
«Всего в 2017 году в Москве появились на свет 134 572 младенца. (...) При этом 62 692 ребенка стали первыми у матерей, 49 190 детей — вторыми. Третьим и более по счету ребенком в московских семьях стали 21 998 детей»
62692 + 49190 + 21998 = 133880, а не 134572.

2. Средние неправдоподобны. Если называете среднее или медиану, убедитесь, что они не выходят за пределы частностей. Например, если  утверждаете, что средняя продолжительность жизни мужчин — 65 лет, а женщин — 76, то общий показатель должен быть где-то между ними, но никак не 63 и не 79.

Список пополняется. Последнее обновление: 9 ноября 2018.

Аффинити: как измерить характерность

Есть у вас задача: изучить структуру в каком-то срезе. Например, интерес к разным фильмам у мужчин и женщин.

Если просто взять топ фильмов по числу зрителей (данные вымышлены), рискуем получить одинаковые результаты: и у мужчин, и у женщин на первых местах окажутся одни и те же просто очень популярные фильмы. Как же увидеть различия в интересе к кино?


Один из путей — аффинити-индекс. Он покажет, насколько объект (в нашем случае фильм) характерен выбранной группе. Поэтому аффинити-индекс ещё называют индексом характерности, соответствия или интереса. Считается аффинити как отношение показателя в группе к базовому.

Мы будем сравнивать показатель в группе со средним между группами. Но сначала нужно определиться с самим показателем.

Число зрителей не подходит. Обратите внимание: мужчин у нас в целом учтено больше, поэтому у каждого фильма зрителей-мужчин больше. Переведём число зрителей (абсолюты) в доли от всех зрителей соответствующего пола, чтобы оба топа оказались на одной шкале. Порядок позиций в топах не поменялся, потому что в каждом мы разделили все значения на одно и то же число.


Теперь посчитаем афиинити: разделим каждую долю (показатель в группе) на среднюю долю для фильма, к которому она относится (базовый показатель). Например, «Суперсемейку 2» посмотрели 37% мужчин и 71% женщин, средняя доля 54%, на неё и делим.

Сортируем по убыванию аффинити и получаем для каждой группы топ характерных фильмов: тех, которые люди этого пола смотрят чаще, чем в среднем (в нашем случае можно сказать даже точнее: чаще, чем представители другого пола, потому что групп всего две, и повышенный аффинити в одной группе автоматически означает пониженный в другой).


Ссылка на таблицу с данными и расчётами — для тех, кто хочет покопаться.

Ещё одно преимущество аффинити-индекса в том, что он скрывает исходные значения, по нему нельзя восстановить ни абсолюты, ни доли. Пригодится, если по какой-то причине вы не желаете их называть.

С помощью аффинити можно изучать любой интересующий вас срез: не только пол, но и возраст, географию, уровень образования и дохода — любые группы, на которые можно разделить ваши данные.

Среднее или медиана

Пожалуй, самая популярная операция над данными — поиск среднего, одного числа, которое описывает весь датасет. Средняя цена товаров показывает, сколько примерно стоит каждый. И если у товаров другой марки среднее выше, то в целом они дороже. Просто и удобно.

Всех учили считать среднее арифметическое: складываем все значения в наборе и делим на их количество. Если у нас три товара стоимостью 1200, 1300 и 1700 рублей, среднее будет равно (1200 + 1300 + 1700) / 3 = 1400 рублей. Но среднее арифметическое — не единственная мера центральной тенденции (так называют числа, служащие для описания целого набора значений).

Второй по популярности показатель — медиана. Это значение среднего наблюдения, если их отсортировать. Для примера выше медиана будет равна 1300 — значение посередине между 1200 и 1700.

Что лучше? Однозначного ответа, как это обычно и бывает, нет. Зависит от задачи: какие у вас данные и что хотите показать. Из моего опыта — почти всегда лучше медиана. Её главное преимущество в устойчивости к выбросам — аномально большим или малым значениям.

Например, если бы самый дорогой товар стоил не 1700, а 17 000 рублей (кто-то опечалился, когда вносил в базу), медиана бы не изменилась. Чего не скажешь о среднем: (1200 + 1300 + 17 000) / 3 = 6500. Увы, в больших наборах данных такие ошибки и выбросы почти неизбежны.

Другой пример: если в большой в группе людей есть несколько сверхбогатых, средний доход не будет отражать состояние дел никого из представителей (для богачей будет занижен, для остальных — завышен). А медиана будет близка к уровню доходов большинства людей.

Главное преимущество среднего — его гораздо проще объяснить. Этот термин знаком всем, а медиана пугает научностью и в материале для массовой аудитории требует пояснений, которые никто не станет читать.

Ещё среднее бывает удобно, когда у нас мало наблюдений и учесть выбросы нам как раз важно. Например, если нас интересует средний доход членов семьи, в которой один человек зарабатывает гораздо больше других. Или если важна возможность восстановить сумму по среднему (по медиане суммарный доход семьи не посчитаешь, а среднее для этого достаточно умножить на число членов семьи). На самом деле в такой ситуации лучше вообще не искать меру центральной тенденции, а как раз оперировать суммарным показателем (доход семьи). Но это не всегда возможно, например, если нужно сравнить со справочным значением, которое выражено средним (средняя зарплата по стране по данным Росстата).

Так что выбирайте показатель под задачу. И не забывайте про медиану, она почти всегда лучше.

Ещё статьи