Results not found

По вашему запросу ничего не найдено

Попробуйте отредактировать запрос и поискать снова

HR-советы

Ложные корреляции: очищение эффекта (на примере текучести персонала)

Article Thumbnail

Не любителям теории рекомендую пропустить вводную часть, перейти сразу вниз к кейсу.
«Фанаты» моих исследований полюбили новый «контраргумент» результатов моих исследований — «ложные корреляции». Пишу «контраргумент» в кавычках, поскольку те, кто используют его, не понимают сути ложности корреляции. Чаще всего их понимание сводится к тому, что корреляции можно найти всегда, если постараться: между размеров обуви мужчин племени Папуа и количеством опечаток в журнале «Наука и Жизнь» на 1963 год.Мне даже не хочется останавливаться на такой ерунде, я обозначу то, что меня интересует в ложных корреляциях.Часто происходит так, что мы выявили связь между факторами X и Y, но эта связь обусловлена неким третьим фактором G, который находится в причинно следственных отношениях с Y. Мы при этом принимаем X за «чистую» монету и получаем некорректную модель.А именно: ложная корреляция не позволяет нам прогнозировать / принимать правильные управленческие решения. В регрессионных моделях преодолеть эту проблему позволяет кросс валидация, но в более простых кейсах я бы предложил включать голову.В моих исследованиях уже были такие примеры. 

  1. Связь между социальной сетью, в которой кандидат проявляет активность, и текучестью персонала (см. Как социальные сети можно использовать в аналитике для рекрутеров). Связь эта опосредована возрастом. А возраст нам не позволяет прогнозировать стаж работы в компании
  2. Связь домена электронной почты и текучести персонала. Анализ влияния домена личной почты сотрудника на текучесть персонала. По той же самой причине: gmail пользуются более молодые люди. Но они, молодые люди, не более склонны к увольнению, просто они еще не успели наработать столько, сколько немолодые. 
  3. Вчера я выяснил, что ложной корреляцией является корреляция между стажем и тем, как человек добирается на работу: на машине или общественном транспорте — эта связь тоже опосредована возрастом. 
  4. В Кейсе по оценке эффективности очного и дистанционного обучения мы выявили значимость различий результатов теста очников и дистанционников, но это не позволяет говорить нам, что очное обучение эффективнее дистанционного, поскольку мы не учли влияние других факторов: например, того, что очники изначально были более подготовлены.

Сегодня покажу, как я «очищал» эффект влияния отрасли на текучесть HR специалистов

Кейс

Бенчмаркинг: текучесть HR специалистов по отраслям — я выяснил интересный факт, что банковские HR-ы склонны значимо реже покидать компанию, чем HR-ы производственных и IT компаний. В этом месте мы можем принять версию: в банках HR-ам работать более комфортно. И успокоиться. Но я не зря привел внизу диаграмму удовлетворенности спецов по отраслям: IT отрасль лидирует с отрывом. Т.е. получается забавная картина: в IT отрасли жить хорошо, но спецы оттуда бегут быстрее, чем из банков. Тогда можно либо усомнить корреляцию между текучестью и отраслью, либо сказать, что между удовлетворенностью и текучестью корреляция не такая уж выдающаяся.Можно предположить, что связь между отраслью и текучестью опосредуется не собственно отраслью, а какими то третьими факторами. Итого у меня родилось две гипотезы:

  1. IT отрасль просто моложе как отрасль, поэтому там показатели стажа будут более низкими. Хотел сначала читателям дать эту гипотезу на подумать: как можно проверить, но потом нарыл данных и решил не мучить вас. Проверить гипотезу просто: посмотреть значимость различий в годах приема на работу специалистов различных отраслей. Либо, как вариант, HR в банках просто раньше родился как таковой.
  2. Все тот же возраст. Мы можем проверить гипотезу, что в IT просто идут работать более молодые люди. Это уже знакомая до боли гипотеза))) 

Более «молодая» отрасль 

Показываю боксплот распределения дат устройства на работу по отраслям 

по оси Х   у нас отрасли, по оси Y — год трудоустройства. Медианные значения практически на одном уровне, а первый квартиль IT отрасли даже ниже, чем у банкиров и производственников. Т.е. IT HR даже чуть раньше приходили в компании, чем другие отрасли.Но Краскел Уолисс нам показывает следующееdata:  date by otrKruskal-Wallis chi-squared = 3.5911, df = 2, p-value = 0.166Т.е. различия не значимые, и мы не можем подтвердить гипотезу о том, что IT отрасль более молодая, что HR  в банках появился раньше.

«Возрастная» версия 

Давайте проверим гипотезу, что в банках сидят старые пердуны, а в IT рвутся молодые и свежие силы HR

По оси X — отрасль, по оси Y — год рождения HR — респондентов опроса ключевые факторы текучести персонала по отраслям.Правда, отличается от предыдущей картинки? Устраиваются в одно время примерно, но разного возраста, да? Явно, что производственники самые опытные, а айтишные ХР-ы самые молодые. Их медиана уперлась в третий квартиль банковских HR.Краскал Уоллис говорит нам следующееKruskal-Wallis rank sum test
data:  gr by otrKruskal-Wallis chi-squared = 19.2368, df = 2, p-value = 6.649e-05
Хотя в данном случае распределение практически нормальное, поэтому можно было применить дисперсионный анализ. Попарное сравнение отраслей показало 

  • Значимые различия между производством и IT (средние 1977.103 и 1981.464, p-value = 1.999e-05)     
  • Значимые различия между банками и IT (средние  1977.922  и  1981.464, p-value = 0.002138)
  • Незначимые между банками и производством (средние  1977.922  и 1977.103, p-value = 0.4822)

Я думаю, post Hoc анализ можно сделать на глазок: значимость с учетом Бонферони не вылезет за 0, 05.

Результаты

давайте признаемся, интересные. Мы почти нашли объяснение, что разница в стаже между банковскими HR и HR IT объясняется тем, что в IT идут более молодые специалисты. Я написал «почти» потому, что разница в возрасте еще сама по себе не доказывает отсутствие влияние отрасли на стаж. Для этого нам нужно сделать регрессионный анализ с двумя переменными: возраст и отрасль. Добьем пример до конца?)И самое интересное: допустим, мы объясним различие между банками и IT, но разница в текучести персонала HR  в банках и на производстве не объясняется возрастом. И следовательно там зарыты другие факторы. А текучесть в производстве и IT примерно одинакова (незначимо отличается), но там тоже действует какой то фактор, поскольку есть значимые различия. 


Источник : edwvb.blogspot.com