Ложные корреляции: очищение эффекта (на примере текучести персонала)

Не любителям теории рекомендую пропустить вводную часть, перейти сразу вниз к кейсу.
«Фанаты» моих исследований полюбили новый «контраргумент» результатов моих исследований — «ложные корреляции». Пишу «контраргумент» в кавычках, поскольку те, кто используют его, не понимают сути ложности корреляции. Чаще всего их понимание сводится к тому, что корреляции можно найти всегда, если постараться: между размеров обуви мужчин племени Папуа и количеством опечаток в журнале «Наука и Жизнь» на 1963 год.Мне даже не хочется останавливаться на такой ерунде, я обозначу то, что меня интересует в ложных корреляциях.Часто происходит так, что мы выявили связь между факторами X и Y, но эта связь обусловлена неким третьим фактором G, который находится в причинно следственных отношениях с Y. Мы при этом принимаем X за «чистую» монету и получаем некорректную модель.А именно: ложная корреляция не позволяет нам прогнозировать / принимать правильные управленческие решения. В регрессионных моделях преодолеть эту проблему позволяет кросс валидация, но в более простых кейсах я бы предложил включать голову.В моих исследованиях уже были такие примеры.
- Связь между социальной сетью, в которой кандидат проявляет активность, и текучестью персонала (см. Как социальные сети можно использовать в аналитике для рекрутеров). Связь эта опосредована возрастом. А возраст нам не позволяет прогнозировать стаж работы в компании
- Связь домена электронной почты и текучести персонала. Анализ влияния домена личной почты сотрудника на текучесть персонала. По той же самой причине: gmail пользуются более молодые люди. Но они, молодые люди, не более склонны к увольнению, просто они еще не успели наработать столько, сколько немолодые.
- Вчера я выяснил, что ложной корреляцией является корреляция между стажем и тем, как человек добирается на работу: на машине или общественном транспорте — эта связь тоже опосредована возрастом.
- В Кейсе по оценке эффективности очного и дистанционного обучения мы выявили значимость различий результатов теста очников и дистанционников, но это не позволяет говорить нам, что очное обучение эффективнее дистанционного, поскольку мы не учли влияние других факторов: например, того, что очники изначально были более подготовлены.
Сегодня покажу, как я «очищал» эффект влияния отрасли на текучесть HR специалистов
Кейс
Бенчмаркинг: текучесть HR специалистов по отраслям — я выяснил интересный факт, что банковские HR-ы склонны значимо реже покидать компанию, чем HR-ы производственных и IT компаний. В этом месте мы можем принять версию: в банках HR-ам работать более комфортно. И успокоиться. Но я не зря привел внизу диаграмму удовлетворенности спецов по отраслям: IT отрасль лидирует с отрывом. Т.е. получается забавная картина: в IT отрасли жить хорошо, но спецы оттуда бегут быстрее, чем из банков. Тогда можно либо усомнить корреляцию между текучестью и отраслью, либо сказать, что между удовлетворенностью и текучестью корреляция не такая уж выдающаяся.Можно предположить, что связь между отраслью и текучестью опосредуется не собственно отраслью, а какими то третьими факторами. Итого у меня родилось две гипотезы:
- IT отрасль просто моложе как отрасль, поэтому там показатели стажа будут более низкими. Хотел сначала читателям дать эту гипотезу на подумать: как можно проверить, но потом нарыл данных и решил не мучить вас. Проверить гипотезу просто: посмотреть значимость различий в годах приема на работу специалистов различных отраслей. Либо, как вариант, HR в банках просто раньше родился как таковой.
- Все тот же возраст. Мы можем проверить гипотезу, что в IT просто идут работать более молодые люди. Это уже знакомая до боли гипотеза)))
Более «молодая» отрасль
Показываю боксплот распределения дат устройства на работу по отраслям

по оси Х у нас отрасли, по оси Y — год трудоустройства. Медианные значения практически на одном уровне, а первый квартиль IT отрасли даже ниже, чем у банкиров и производственников. Т.е. IT HR даже чуть раньше приходили в компании, чем другие отрасли.Но Краскел Уолисс нам показывает следующееdata: date by otrKruskal-Wallis chi-squared = 3.5911, df = 2, p-value = 0.166Т.е. различия не значимые, и мы не можем подтвердить гипотезу о том, что IT отрасль более молодая, что HR в банках появился раньше.
«Возрастная» версия
Давайте проверим гипотезу, что в банках сидят старые пердуны, а в IT рвутся молодые и свежие силы HR

По оси X — отрасль, по оси Y — год рождения HR — респондентов опроса ключевые факторы текучести персонала по отраслям.Правда, отличается от предыдущей картинки? Устраиваются в одно время примерно, но разного возраста, да? Явно, что производственники самые опытные, а айтишные ХР-ы самые молодые. Их медиана уперлась в третий квартиль банковских HR.Краскал Уоллис говорит нам следующееKruskal-Wallis rank sum test
data: gr by otrKruskal-Wallis chi-squared = 19.2368, df = 2, p-value = 6.649e-05
Хотя в данном случае распределение практически нормальное, поэтому можно было применить дисперсионный анализ. Попарное сравнение отраслей показало
- Значимые различия между производством и IT (средние 1977.103 и 1981.464, p-value = 1.999e-05)
- Значимые различия между банками и IT (средние 1977.922 и 1981.464, p-value = 0.002138)
- Незначимые между банками и производством (средние 1977.922 и 1977.103, p-value = 0.4822)
Я думаю, post Hoc анализ можно сделать на глазок: значимость с учетом Бонферони не вылезет за 0, 05.
Результаты
давайте признаемся, интересные. Мы почти нашли объяснение, что разница в стаже между банковскими HR и HR IT объясняется тем, что в IT идут более молодые специалисты. Я написал «почти» потому, что разница в возрасте еще сама по себе не доказывает отсутствие влияние отрасли на стаж. Для этого нам нужно сделать регрессионный анализ с двумя переменными: возраст и отрасль. Добьем пример до конца?)И самое интересное: допустим, мы объясним различие между банками и IT, но разница в текучести персонала HR в банках и на производстве не объясняется возрастом. И следовательно там зарыты другие факторы. А текучесть в производстве и IT примерно одинакова (незначимо отличается), но там тоже действует какой то фактор, поскольку есть значимые различия.
Источник : edwvb.blogspot.com