Парадокс Симпсона

28 Мая 2020

Когда на диаграмме данных кроме новых созвездий находится нечто похожее на зависимость - это всегда радует исследователя. В таком случае мы строим модель, которая хорошо объясняет связь между двумя переменными. Но учёный должен понимать не только, как работать с данными, но и какая история из реального мира за ними лежит. В противном случае легко сделать ошибку.

Парадокс Симпсона (также Парадокс Юла—Симпсона или «парадокс объединения») — явление в статистике, когда при наличии двух групп данных, в каждой из которых наблюдается одинаково направленная зависимость, при объединении этих групп направление зависимости меняется на противоположное.

Это явление было описано Эдвардом Симпсоном в 1951 году и Удни Юлом в 1903 году. Название «парадокс Симпсона» впервые предложил Колин Блайт в 1972 году. Однако, так как Симпсон не был первооткрывателем этого эффекта, некоторые авторы используют безличные названия, например, «парадокс объединения».

Для иллюстрации посмотрим на две условные переменные X и Y.

Иллюстрация парадокса Симпсона

Построив диаграмму, мы увидим облако, явно вытянутое из левого нижнего угла в правый верхний, как на рисунке выше. В такую картинку идеально вписывается линейная регрессия, которая с относительно низкой ошибкой поможет нам предсказать значения: чем больше X, тем больше Y. Задача выполнена. На первый взгляд.

Более опытный коллега порекомендует нам добавить на диаграмму разбиение по когортам: например, по странам. Последовав его совету, мы увидим, что связь действительно есть, но она диаметрально противоположная — в рамках отдельно взятой страны чем больше X, тем меньше Y. Это и есть парадокс Симпсона.

Что делать?

В анализе данных необходимо понимать, какая история за ними лежит: что происходит в реальном мире, как его измерили и перевели в вид данных. Поэтому исследователь данных в отделе маркетинга должен знать основы маркетинга, а в нефтегазовой отрасли — что-то о добыче полезных ископаемых. Это поможет избежать большого количества потенциальных ошибок, не последней из которых является ошибка агрегации, вызываемая парадоксом Симпсона.

К возникновению парадокса Симпсона обычно приводят следующие характеристики данных:

Наличие значимых когорт, которые могут влиять на значения зависимой (Y) и независимой (X) переменных;
Несбалансированность когорт.

В каждом случае нужен индивидуальный подход. Считать, что все данные всегда необходимо разбивать на когорты — тоже неверный подход, ведь зачастую именно агрегированные данные позволяют построить самую точную модель. Кроме того, любые данные можно разбить так, чтобы получить взаимосвязь, которую нам бы хотелось получить. Правда, это не будет иметь никакого практического применения — когорты должны быть обоснованы.