HR PRO

Интерпретабельность HR-аналитики

Короткий, но важный пост. Копия моего пост с фейсбука и представляет собой тезисы. Написан практически в соавторстве с Александр Вечерин.
В HR-аналитике (да и в любой аналитике) нам важны не просто показатели качества модели, а интерпретируемость результатов. Т.е. если мы создали модель приема на работу, в которой принимаем / отклоняем кандидатов, то мы должны понимать не просто качество модели — с какой вероятностью мы можем неверно взять или неверно отклонить Васю Иванова, но нам еще хотелось бы понимать, почему мы Васю отклонили — какие в нем данные «не те», на основании чего мы его отклоняем. Причем, прошу не путать божий дар в яичницей: это не та ситуация, когда в компании создана модель компетенций, а кандидата отклоняют на основе того, что у него недоразвита компетенция «клиентоориентированность». Это полная лажа, потому что построено это на основе глюков консалтеров, не подкрепленных данными. Я говорю о математической модели, за которой стоит тяжкий труд по сбору данных и анализу. Далее я коснусь математических аспектов интерпретации модели (прошу прощения у неподготовленной публики — переходите сразу в пункту 7 — из песни слова не выкинешь — приходите ко мне на семинар, чтобы быть в теме).

Аспекты интпретации можно описать следующими пунктами.
линейная регрессия замечательна тем, что там есть коэффициенты, которые легко интепретируемы: «с увеличением x на 1 единицу, Y увеличивается на коэффициент ….»
засада возникает в тот момент, когда нам приходится а) логарифмировать, б) стандартизировать переменные или в) регуляризировать — в этот момент пропадает ясность.
если с логарифмированием и стандартизацией как то еще можно разобраться, у нас вместо абсолютных значений появляются %, а стандартизованные значения мы можем обратно трансормировать, то с регуляризацией все хуже: перестает быть понятен физический смысл коэффициентов
но совсем плохо с непараметрическими моделями, потому что все, что у нас там есть — фиче импортанс — важность факторов. И мы ничего не можем сказать про конкретного Васю Иванова, которого не взяли на работу, потому что его СКОР (от англ score) показал низкие значения.
вот эта ситуация в аналитике (см. п 5) называется ситуацией «черного ящика», когда мы не понимаем, что внутри. Кстати говоря, тема «черного ящика» обсуждалась на западных HR-аналитических конференциях.
но совсем недавно появились пакеты типа LIME, которые говорят, да нет, ребята, мы можем сказать, почему Вася был отклонен.
в посте по ссылке Про деструкторы в отношениях с руководителем. И о том, как правильно их измерять я описываю одну из возможных ситуаций: в качестве модели я беру прогноз психологической совместимости подчиненный руководитель и показываю не просто прогноз того, насколько совместимы они между собой, а какие факторы у конкретно данного Васи Иванова способствуют совместимости или препятствуют.


Источник : edwvb.blogspot.com