В предыдущих постах я по разному обыгрываю кластерный анализ: пытаюсь сметчить кластеры, полученные на основе кластеризации функционала и тестов, и посмотреть, как кластеры бьются с позицией.В этом посте я хочу решить стандартную задачу по машинному обучению: есть новости, которые размечены как определенные темы (спорт, политика и т.п..), задача специалиста по машинному обучению выделить кластеры / темы из текста так, чтобы потом по этим кластерам / темам новостное сообщение можно было отнести к своему разделу. Вопрос не такой простой: например, новость про допинг и не допуск россйсиких спортсменов к олимпиаде машина может в авной степени отнести к политике и спорту. В нашем случае задача может показаться проще: в нашем исследовании факторов текучести и эффективности персонала (исследование активно и ждет вашего участия) респонденты указывают сферу своей деятельности (HR, IT, продажи, маркетинг и т.п..) и пишут свой функционал словами.Задача сводится к тому чтобы выделить в функционале кластеры, а потом сметчить полученные кластеры со сферой деятельности и посмотреть, насколько точно кластеры совпадают со сферой деятельности.Заранее предупреждаю и обращаюсь к вам: я не копал глубоко, выдаю практически первое решение, потому сам завален работой и не имею особо времени копать, поэтому, если вы изъявите желание, я поделюсь датасетом и буду ждать вашего решения. Думаю, что основной ресурс зарыт в предобработке текста, начиная с простых вещей: кто то пишет ИТ, кто то IT.

Решение

Я взял только HR и IT спецов, количество такое:HR — 1864IT — 518 В итоге выделил 20 кластеров. 

Здесь показаны описания кластеров и пространственное размещение кластеров относительно друг друга. Кластеры совсем рядом расположены, но IT кластеры (а к таким я отношу 2, 11, 13, 15) ближе друг другу. А 9-й кластер это IT рекрутер, поэтому он трется возле IT специалистов.

Что с точностью

кластерHR %IT %HRIT
0организация работа компания корпоративный разработка96.13.91245
1hr компания бизнес процесс проект98.11.91563
2разработка система web внедрение java29.770.34197
3рекрутмент адаптация оценка разработка поиск50.050.08686
4компенсация льгота hr кадровый развитие1000.01130
5компания работа поиск сотрудник проведение64.435.611262
6обучение развитие подбор оценка менеджер97.42.61504
7адаптация подбор мотивация обучение поиск1000.01080
8подбор поиск работа массовый специалист1000.01220
9it проект специалист подбор hr56.943.16247
10generalist hr компания сотрудник мотивация1000.0620
11developer java android разработчик web5.194.9474
12рекрутинг адаптация кадровый делопроизводство hr98.91.1931
13программист it системный отдел компания3.396.7259
14оценка подбор обучение развитие адаптация1000.01010
15разработчик c с разработка внедрение6.593.5458
16корпоративный организация культура подбор адаптация99.20.81271
17отдел руководитель руководство работа подбор86.014.010417
18кадровый делопроизводство подбор адаптация ведение99.50.51891
19директор hr компания полный работа97.22.81043
18645182382
18132882101
0.970.560.88
  • В этой таблице обозначены кластеры, желтым я выделил те, что на мой взгляд относятся к IT спецам, остальные HR кластеры. 
  • Столбцы HR % и IT %, показывают распределение реальных HR и IT по кластеру, т.е. второй кластер «разработка система web внедрение java» состоит на 70 % из IT и на 30 % из HR. Видимо, это как раз IT рекрутеры.
  • Столбцы HR и IT показывают абсолютные значения попадания HR и IT  в кластеры. 

Ну и самое важное — точность попадания. Если принять мое деление на IT кластеры (желтые) и HR кластеры (остальные), то мы получаем такую картину:
По принадлежности к кластеру мы с 97 % точностью мы можем определить HR-а, и всего с 56 % процентной точностью можем угадать IT специалиста.
Сразу навскидку понял, как стоит усложнить задачу: я удалил в стоп слова выражение «управление персоналом», а надо еще удалить слова «hr» и «it», и попробовать сделать анализ так.


Источник : edwvb.blogspot.com

Похожая запись