Дата-журналистика

Аффинити: как измерить характерность

Есть у вас задача: изучить структуру в каком-то срезе. Например, интерес к разным фильмам у мужчин и женщин.

Если просто взять топ фильмов по числу зрителей (данные вымышлены), рискуем получить одинаковые результаты: и у мужчин, и у женщин на первых местах окажутся одни и те же просто очень популярные фильмы. Как же увидеть различия в интересе к кино?


Один из путей — аффинити-индекс. Он покажет, насколько объект (в нашем случае фильм) характерен выбранной группе. Поэтому аффинити-индекс ещё называют индексом характерности, соответствия или интереса. Считается аффинити как отношение показателя в группе к базовому.

Мы будем сравнивать показатель в группе со средним между группами. Но сначала нужно определиться с самим показателем.

Число зрителей не подходит. Обратите внимание: мужчин у нас в целом учтено больше, поэтому у каждого фильма зрителей-мужчин больше. Переведём число зрителей (абсолюты) в доли от всех зрителей соответствующего пола, чтобы оба топа оказались на одной шкале. Порядок позиций в топах не поменялся, потому что в каждом мы разделили все значения на одно и то же число.


Теперь посчитаем афиинити: разделим каждую долю (показатель в группе) на среднюю долю для фильма, к которому она относится (базовый показатель). Например, «Суперсемейку 2» посмотрели 37% мужчин и 71% женщин, средняя доля 54%, на неё и делим.

Сортируем по убыванию аффинити и получаем для каждой группы топ характерных фильмов: тех, которые люди этого пола смотрят чаще, чем в среднем (в нашем случае можно сказать даже точнее: чаще, чем представители другого пола, потому что групп всего две, и повышенный аффинити в одной группе автоматически означает пониженный в другой).


Ссылка на таблицу с данными и расчётами — для тех, кто хочет покопаться.

Ещё одно преимущество аффинити-индекса в том, что он скрывает исходные значения, по нему нельзя восстановить ни абсолюты, ни доли. Пригодится, если по какой-то причине вы не желаете их называть.

С помощью аффинити можно изучать любой интересующий вас срез: не только пол, но и возраст, географию, уровень образования и дохода — любые группы, на которые можно разделить ваши данные.

Читайте также:Как придумать идею [3 способа]Среднее или медианаОткрытые данные — 17 любопытных источников