На осенней конференции «Оценка персонала» журнала «Штат» генеральный директор Formatta Евгений Куприянов выступал с докладом о валидности оценки. Мы публикуем текст его выступления. Это не научный доклад, а статья-обзор для заказчиков оценки: на простых и понятных примерах вы узнаете, что такое валидность и при каком показателе валидности оценка экономически оправдана.
Тема валидности становится всё популярнее в HR-сообществе. В 90-е, когда российские компании только начинали привлекать оценку персонала для решения бизнес-задач, акцент делали на разработке инструментов и методов, а их валидность интересовала далеко не всех заказчиков. Затем стало модно говорить о валидности, и многие провайдеры, пользуясь тем, что заказчики недостаточно разбирались в теме, предъявляли мифические 0,95 как показатель валидности своих инструментов.
Сегодня мы наблюдаем другую тенденцию: академический подход к измерению валидности проник в бизнес. Всё меньше компаний доверяют мифическим показателям и всё чаще требуют от провайдера результатов исследования валидности оценочного инструмента.
Какие значения может принимать валидность
Валидность — это коэффициент корреляции между результатами оценки и независимым критерием: мы выбираем внешний критерий и смотрим,
насколько результаты оценки ему соответствуют и насколько мы можем доверять прогнозу, который делаем по итогам оценки.
Этот коэффициент принимает значения от минус единицы до единицы. Чем выше валидность, тем выше точность прогноза. Если валидность равна нулю, значит, взаимосвязи между результатами оценки и выбранным критерием нет: количество ошибок и точных прогнозов примерно одинаково. Бывает отрицательная валидность: в этом случае прогноз по итогам оценки будет оправдываться «наоборот».
Валидность бывает нескольких видов — это зависит от внешнего критерия,
с которым сравнивают результаты проведённой оценки. Остановимся подробнее на каждом виде валидности и критериях её измерения.
Виды валидности и критерии
для её измерения
Конструктная валидность — внешним критерием становятся результаты другого инструмента оценки, который измеряет те же характеристики. К примеру, мы хотим измерить конструктную валидность мотивационного опросника: находим инструмент, которые оценивает те же факторы мотивации, и сравниваем результаты двух инструментов. Конструктная валидность показывает, насколько они соотносятся между собой.
Конкурентная валидность — сравниваем результаты оценки выбранного инструмента с показателями текущей или прошлой эффективности. Это может быть балл в системе performance management, результаты обучения, показатели продаж, коэффициент удовлетворённости клиента сервисом.
Прогностическая валидность показывает, насколько соотносятся результаты оценки и показатели будущей эффективности сотрудника. Это самые интересные для компании данные: они говорят, насколько себя оправдает прогноз по результатам оценки. Но прогностическую валидность труднее всего измерить
из-за ограничения выборки. К примеру, мы оценили 100 продавцов, у 15 из них показатели продаж оказались низкие, скорее всего, мы не сможем оценить их в следующем цикле: их уволят.
Инкрементная валидность — сравниваем, насколько повысилась корреляция
при добавлении нового инструмента в уже существующую оценочную процедуру.
Провайдеры, как правило, считают валидность так, как им удобно и выгодно.
Если из всех видов валидности инструмента самые высокие показатели у конструктной, в маркетинговых материалах укажут именно эту цифру.
Поэтому всегда уточняйте, о каком виде валидности говорит провайдер,
когда приводит показатель валидности.
Что означают показатели валидности на практике
На практике почти не встречается валидность выше 0,7. Если провайдер заявляет
эту цифру, уточните, о каком виде валидности идёт речь и как она рассчитывалась. Показатель 0,7 может быть только в том случае, если провайдер измерял валидность комбинацией разных оценочных инструментов.
Валидность | Если выбрать 20% лучших сотрудников по итогам оценки | |
---|---|---|
Нет валидности | 0 | 4 из 20 будут в числе лучших |
Средняя валидность | 0,3 | 7 из 20 будут в числе лучших |
Высокая валидность | 0,6 | 10 из 20 будут в числе лучших |
Валидность | Если выбрать 20% лучших сотрудников по итогам оценки | |
---|---|---|
Нет валидности | 0 | 1 из 5 будет в числе худших |
Средняя валидность | 0,3 | 1 из 10 будет в числе худших |
Высокая валидность | 0,6 | 1 из 50 будет в числе худших |
Посмотрим, что означают эти цифры на практике: к примеру, вы оценили 100 сотрудников и выбрали 20 лучших по итогам оценки. Если вы использовали инструмент со средней валидностью, то из выбранных 20 участников только семеро будут в числе лучших 20%.
Если же вы оценивали 100 сотрудников инструментом с высокой валидностью, то в числе 20% лучших окажутся десять из выбранных двадцати по итогам оценки. При этом результаты выше среднего покажут 17 из этих 20 сотрудников.
Если вы знаете валидность инструмента, вы можете посчитать точность прогноза, который сделаете по результатам оценки. К примеру, вы используете инструмент с валидностью 0,3. Разделите этот показатель на 2 и прибавьте 50% — получится 65%. С такой вероятностью прогноз по итогам оценки окажется достоверным,
если за 50% принять случайное угадывание.
3 уровня проверки валидности
Если вы используете инструмент оценки, у вас есть три уровня проверки
его валидности:
Во-первых, вы можете посмотреть, насколько велика валидность метода оценки. К примеру, вы покупаете у провайдера тесты способностей. Чтобы оценить их валидность, используйте мета-анализы — эта процедура объединяет показатели валидности, полученные на разных инструментах и выборках от нескольких исследователей. С их помощью вы определите среднюю валидность тестов
как метода оценки. Классическим считается мета-анализ Шмидта и Хантера 1998 года.
Во-вторых, вы можете узнать валидность инструмента — тех конкретных тестов способностей, которые вы покупаете. Эти данные вам должен предоставить провайдер.
Наконец, вы можете посмотреть, насколько конкретный инструмент валиден
для ваших задач. Чтобы посчитать валидность инструмента на ваших данных:
1. Оцените при помощи инструмента не менее 200 сотрудников одной группы должностей — это минимальная выборка. Чем больше человек вы оцените,
тем более надёжные цифры получите.
2. Выберите критерий, относительно которого будете проверять валидность. Например, оценка результативности руководителем.
3. Оцените надёжность этого критерия. Критерием могут быть объективные данные — например, показатели производительности. В этом случае его можно считать надёжным. Оценка эффективности руководителем — субъективные данные, надёжность этого критерия будет низкой.
4. Посмотрите, нет ли у вас ограничения выборки. Например, если вы используете тесты при подборе, кандидаты с низкими результатами обычно просто не попадают на работу.
5. Проверьте свои данные: насколько они полные, корректные и однородные. Если в качестве внешнего критерия вы выбрали показатели продаж, проверьте, что все данные по продажам соответствуют тому менеджеру, который продавал. Это поможет избавиться от некорректных данных: к примеру, сотрудник в отпуске, а на него записаны продажи другого.
6. Посчитайте сам показатель валидности: обычно это коэффициент корреляции или регрессии, с учётом тех поправок, которые мы упомянули выше. Для начала можно воспользоваться самыми простыми показателями. Например, коэффициентом корреляции Спирмена — его можно посчитать даже в MS Excel.
У вас получился показатель валидности конкретного инструмента на ваших данных. Он показывает, насколько достоверным будет прогноз, который вы сделаете по результатам оценки при помощи этого инструмента.
Источник: formatta.ru