Отличаем по функционалу HR и IT
В предыдущих постах я по разному обыгрываю кластерный анализ: пытаюсь сметчить кластеры, полученные на основе кластеризации функционала и тестов, и посмотреть, как кластеры бьются с позицией.В этом посте я хочу решить стандартную задачу по машинному обучению: есть новости, которые размечены как определенные темы (спорт, политика и т.п..), задача специалиста по машинному обучению выделить кластеры / темы из текста так, чтобы потом по этим кластерам / темам новостное сообщение можно было отнести к своему разделу. Вопрос не такой простой: например, новость про допинг и не допуск россйсиких спортсменов к олимпиаде машина может в авной степени отнести к политике и спорту. В нашем случае задача может показаться проще: в нашем исследовании факторов текучести и эффективности персонала (исследование активно и ждет вашего участия) респонденты указывают сферу своей деятельности (HR, IT, продажи, маркетинг и т.п..) и пишут свой функционал словами.Задача сводится к тому чтобы выделить в функционале кластеры, а потом сметчить полученные кластеры со сферой деятельности и посмотреть, насколько точно кластеры совпадают со сферой деятельности.Заранее предупреждаю и обращаюсь к вам: я не копал глубоко, выдаю практически первое решение, потому сам завален работой и не имею особо времени копать, поэтому, если вы изъявите желание, я поделюсь датасетом и буду ждать вашего решения. Думаю, что основной ресурс зарыт в предобработке текста, начиная с простых вещей: кто то пишет ИТ, кто то IT.
Решение
Я взял только HR и IT спецов, количество такое:HR — 1864IT — 518 В итоге выделил 20 кластеров.
Здесь показаны описания кластеров и пространственное размещение кластеров относительно друг друга. Кластеры совсем рядом расположены, но IT кластеры (а к таким я отношу 2, 11, 13, 15) ближе друг другу. А 9-й кластер это IT рекрутер, поэтому он трется возле IT специалистов.
Что с точностью
кластер | HR % | IT % | HR | IT | ||
0 | организация работа компания корпоративный разработка | 96.1 | 3.9 | 124 | 5 | |
1 | hr компания бизнес процесс проект | 98.1 | 1.9 | 156 | 3 | |
2 | разработка система web внедрение java | 29.7 | 70.3 | 41 | 97 | |
3 | рекрутмент адаптация оценка разработка поиск | 50.0 | 50.0 | 86 | 86 | |
4 | компенсация льгота hr кадровый развитие | 100 | 0.0 | 113 | 0 | |
5 | компания работа поиск сотрудник проведение | 64.4 | 35.6 | 112 | 62 | |
6 | обучение развитие подбор оценка менеджер | 97.4 | 2.6 | 150 | 4 | |
7 | адаптация подбор мотивация обучение поиск | 100 | 0.0 | 108 | 0 | |
8 | подбор поиск работа массовый специалист | 100 | 0.0 | 122 | 0 | |
9 | it проект специалист подбор hr | 56.9 | 43.1 | 62 | 47 | |
10 | generalist hr компания сотрудник мотивация | 100 | 0.0 | 62 | 0 | |
11 | developer java android разработчик web | 5.1 | 94.9 | 4 | 74 | |
12 | рекрутинг адаптация кадровый делопроизводство hr | 98.9 | 1.1 | 93 | 1 | |
13 | программист it системный отдел компания | 3.3 | 96.7 | 2 | 59 | |
14 | оценка подбор обучение развитие адаптация | 100 | 0.0 | 101 | 0 | |
15 | разработчик c с разработка внедрение | 6.5 | 93.5 | 4 | 58 | |
16 | корпоративный организация культура подбор адаптация | 99.2 | 0.8 | 127 | 1 | |
17 | отдел руководитель руководство работа подбор | 86.0 | 14.0 | 104 | 17 | |
18 | кадровый делопроизводство подбор адаптация ведение | 99.5 | 0.5 | 189 | 1 | |
19 | директор hr компания полный работа | 97.2 | 2.8 | 104 | 3 | |
1864 | 518 | 2382 | ||||
1813 | 288 | 2101 | ||||
0.97 | 0.56 | 0.88 |
- В этой таблице обозначены кластеры, желтым я выделил те, что на мой взгляд относятся к IT спецам, остальные HR кластеры.
- Столбцы HR % и IT %, показывают распределение реальных HR и IT по кластеру, т.е. второй кластер «разработка система web внедрение java» состоит на 70 % из IT и на 30 % из HR. Видимо, это как раз IT рекрутеры.
- Столбцы HR и IT показывают абсолютные значения попадания HR и IT в кластеры.
Ну и самое важное — точность попадания. Если принять мое деление на IT кластеры (желтые) и HR кластеры (остальные), то мы получаем такую картину:
По принадлежности к кластеру мы с 97 % точностью мы можем определить HR-а, и всего с 56 % процентной точностью можем угадать IT специалиста.
Сразу навскидку понял, как стоит усложнить задачу: я удалил в стоп слова выражение «управление персоналом», а надо еще удалить слова «hr» и «it», и попробовать сделать анализ так.
Источник : edwvb.blogspot.com