сделать домашней  добавить в избранное  карта сайта RSS
 

Вебинары HRM.RU

Прогноз эффективности кандидатов на основе тестов
Начало 26.05.2017 12.00 (по московскому времени)

Полный список вебинаров

События

полный список

Последние обсуждения

  26.09.2019 16:41:06
Новый уровень безопасности дыхания
  30.08.2019 14:26:41
Worldskills International и 3М запускают новый совместный проект «Образование во имя будущего»
  30.08.2019 11:33:40
Молодые профессионалы за устойчивое будущее
  24.08.2019 14:36:18
Научные эксперименты, продуктовые тесты и мировые технологии для молодых профессионалов
  09.08.2019 16:18:31
Только оригинальные СИЗ обеспечивают гарантированную защиту


Опросы
  Актуальные направления работы HR вашей организации 2017
Все опросы


Крыштановский. Анализ социологических данных. Глава 5. Исследование структуры данных 5.2 Кластерный анализ

      Тематические разделы:
      Психология, теории HR
      Психология, теории HR : Социальная психология
      Общий менеджмент : Аналитика
      Книги

      Дата публикации: 07.08.2017






      5.2

      Кластерный анализ

      Если процедура факторного анализа сжимает матрицу признаков в

      матрицу с меньшим числом переменных, кластерный анализ дает нам

      Глава 5. Исследование структуры данных

      • Евклидово расстояние (Euclidian distance) —

      • Квадрат евклидова расстояния (Squared Euclidian distance) -

      Евклидово расстояние и его квадрат разумно применять для ана

      лиза количественных данных.

      • Мера близости — коэффициент корреляции

      — компоненты стандар

      тизованных векторов X и Y. Эту меру целесообразно использоват

      для выявления кластеров переменных, а не объектов.

      Стандартизация. Непосредственное использование переменны

      в анализе может привести к тому, что классификацию будут опреде

      лять переменные, имеющие наибольший разброс значений. Поэтом

      применяются следующие виды стандартизации.

      • Z-стандартизация (Z-Scores). Из значений переменных вычита

      ется их среднее, и эти значения делятся на стандартное отклонение.

      • Разброс от -1 до 1. Линейным преобразованием переменны

      добиваются разброса значений от -1 до 1.

      • Разброс от 0 до 1. Линейным преобразованием переменны

      добиваются разброса значений от 0 до 1.

      • Максимум 1. Значения переменных делятся на их максимум.

      • Среднее 1. Значения переменных делятся на их среднее.

      • Стандартное отклонение 1. Значения переменных делятся н

      стандартное отклонение.

      • Возможны преобразования самих расстояний, в частности,

      можно расстояния заменить их абсолютными значениями, это актуально

      для коэффициентов корреляции. Можно также все расстояния

      преобразовать так, чтобы они изменялись от 0 до 1.

      5.2. Кластерный анализ

      Puc. 5.7. Вызов команды иерархического кластерного анализа

      Puc. 5.8. Главное меню команды иерархического кластерного анализа

      Выполнение иерархического кластерного анализа. На рис. 5.7

      показано меню вызова команды иерархического кластерного анализа.

      Главное меню команды иерархического кластерного анализа представлено

      на рис. 5.8.

      Глава 5. Исследование структуры данных

      Приведенный пример (см. рис. 5.8) решает задачу классификации

      единиц анализа, в качестве которых выступают несколько городов

      России. В каждом из городов респондентам задавали вопросы о

      размерах доходов их семей, полученных из различных источников:

      пенсий, стипендий, алиментов, возврата ранее одолженных денег,

      продажи имущества2. Далее были рассчитаны средние значения этих

      доходов среди респондентов, проживающих в городах опроса. Целью

      кластерного анализа в данном случае является получение нескольких

      групп городов, население которых достаточно сходно по размеру доходов,

      полученных из перечисленных источников.

      По результатам работы иерархического кластерного анализа составили

      протокол объединения объектов (табл. 5.3) и дендрограмму,

      демонстрирующую ход этого объединения (рис. 5.9).

      Таблица 5.3. Протокол объединения объектов

      в иерархическом кластерном анализе

      2 Данные вычислены на основании материалов исследования РМЭЗ, октябрь-

      ноябрь 2001 г. Демонстрируемый пример имеет формат иллюстрации и не может служить

      основанием для социологических рассуждений по вопросам структуры доходов в

      рассматриваемых населенных пунктах, поскольку исследование не содержит данных,

      репрезентирующих население данных городов.

      Рис. 5.9. Дендрограмма, демонстрирующая объединение объектов

      в иерархическом кластерном анализе

      Глава 5. Исследование структуры данных

      Из табл. 5.3 видно, что, например, на первом шаге произошло

      объединение 3-го и 4-го объектов, поскольку между этими объектами

      было наименьшее расстояние (колонка Coefficients). В колонке Next

      Stage (следующий этап) указывается, что в следующий раз тот кластер,

      который получен на первом шаге, будет задействован в объединении

      на четвертом шаге. Таким образом, когда на четвертом шаге

      указано, что одним из объединяемых объектов является объект номер 3,

      надо иметь в виду, что это не сам 3-й объект, а уже то, что получилось

      в результате объединения 3-го и 4-го объектов на первом шаге.

      Процесс агрегирования данных может быть представлен графически

      деревом объединения кластеров (Dendrogramm). Дендрограмма

      наглядно демонстрирует, что, например, объект ·Казань· располагается

      достаточно далеко от других объектов и был объединен с парой

      объектов ·Саратов — Владивосток· только на предпоследнем шаге.

      На практике интерпретация кластеров требует достаточно серьезной

      работы, изучения разнообразных характеристик объектов для точного

      описания типов объектов, которые составляют тот или иной класс.

      Крайне важной составляющей процедуры кластерного анализа

      является то, что у нас есть возможность остановить процесс объединения

      объектов за несколько шагов до конца, поскольку конечный

      результат объединения всех объектов в один кластер не представляет

      практического интереса. И если мы хотим получить, скажем, четыре

      кластера, это можно указать, вызвав меню Save нажатием соответствующей

      клавиши, показанной в главном меню иерархического кластерного

      анализа (см. рис. 5.8).

      После указания требуемого числа кластеров в матрице данных

      автоматически будет создана новая переменная, в которой для каждого

      объекта будет указан номер кластера, в который этот объект попал.

      5.2.2

      Кластерный анализ методом Л-средних

      Процедура иерархического кластерного анализа эффективна для малого

      числа объектов. Ее преимущество в том, что каждый объект мож-

      5.2. Кластерный анализ

      но, образно говоря, пощупать руками. Но эта процедура не годится

      для массивов большого объема из-за трудоемкости агломеративного

      алгоритма и слишком большого размера и практической бессмысленности

      дендрограмм.

      В такой ситуации наиболее приемлем алгоритм, носящий название

      метода ·^-средних·. Он реализуется в пакете командой меню

      k-means.

      Алгоритм заключается в следующем: выбирается заданное число

      к точек и на первом шаге эти точки рассматриваются как ·центры·

      кластеров. Каждому кластеру соответствует один центр. Объекты распределяются

      по кластерам по принципу: каждый объект относится к

      кластеру с ближайшим к этому объекту центром. Таким образом, все

      объекты распределились по к кластерам.

      Затем заново вычисляют центры этих кластеров, которыми после

      этого момента считаются покоординатные средние кластеров. После

      этого опять перераспределяют объекты. Вычисление центров и перераспределение

      объектов происходит до тех пор, пока центры не стабилизируются.

      Рис. 5.10 демонстрирует главное меню команды k-means.

      Рис. 5.10. Главное меню команды k-means

      Глава 5. Исследование структуры данных

      Часто переменные, используемые в кластеризации, имеют разный

      диапазон изменений, например рост и вес, килограммы и граммы.

      В этих условиях основное влияние на кластеризацию окажут

      переменные, имеющие большую дисперсию. Поэтому перед кластеризацией

      полезно стандартизовать переменные. К сожалению, в данной

      команде кластерного анализа средства стандартизации не предусмотрены,

      в отличие от процедуры иерархического кластерного

      анализа.

      Часть переменных может иметь неопределенные значения, расстояния

      до центров рассчитывают по определенным значениям. Для

      использования такой возможности в меню Options следует выбрать

      параметр обработки пропущенных данных Pairwise.

      Говоря о допустимом уровне измерения для переменных при кластеризации,

      необходимо помнить, что команда использует только евклидово

      расстояние. Следовательно, корректные результаты при применении

      данного метода можно ожидать только на основе метрических

      переменных.

      Ключевым вопросом, который необходимо решить при подготовке

      к кластерному анализу, является вопрос о количестве получаемых кластеров.

      В силу специфики алгоритма метода k-means, в отличие от

      иерархического кластерного анализа, в данном случае в обязательном

      порядке требуется изначально задать количество получаемых кластеров.

      (По умолчанию алгоритм предлагает делить на два кластера —

      см. рис. 5.10.)

      В выдаче распечатываются центры кластеров (средние значения

      переменных кластеризации для каждого кластера), получаемые на каждой

      итерации алгоритма. Однако для нас полезна лишь часть выдачи,

      помеченная текстом «Final centres». Интерпретация кластеров осуществляется

      на основе сравнения средних значений, выдаваемых процедурой,

      а также исследования сохраненной переменной средствами

      статистического пакета.

      Рассмотрим пример, когда в качестве кластеризуемых переменных

      берутся переменные, фиксирующие наличие в семьях респон-

      дентов разных предметов длительного пользования3. Возьмем 4 кластера.

      Такая классификация может грубо, но наглядно показать различие

      семей по благосостоянию.

      Таблица 5.4. Результаты работы команды кластерного

      анализа k-means

      3 Данные исследования ·Мониторинг экономических и социальных перемен·.

      Проведено ВЦИОМ в мае 2001 г. по всероссийской репрезентативной выборке

      Глава 5. Исследование структуры данных

      С помощью табл. 5.4 имеем следующую интерпретацию полученных

      кластеров. Поскольку кодировка используемых вопросов

      ·1 — есть; 0 — нет·, то мы можем сказать, что у 50% респондентов,

      попавших в кластер 1, есть фотоаппарат, у 40% — автомобиль и т.д.

      Кластер 1 —респонденты из достаточно зажиточных семей, имеющие

      дома большинство из предлагаемых предметов длительного

      пользования.

      Кластер 2 — респонденты из наиболее бедных семей, у которых

      нет практически ничего из предметов длительного пользования.

      Кластер 3 — респонденты из семей более зажиточных, чем в

      кластере 2, но обладающие лишь небольшим набором предметов.

      Кластер 4 — респонденты из наиболее зажиточных семей, имеющие

      большинство из предлагаемых предметов длительного пользования.

      Имеется масса возможностей изучить и сравнить полученные

      классы, используя сохраненную в виде переменной классификацию.

      Например, можно посмотреть, какая доля респондентов проживает в

      городах, а какая — в селах, каков средний доход респондентов в каждом

      из кластеров и т.п.

      Принципиальным вопросом для понимания содержания полученных

      кластеров — групп респондентов является то, насколько действительно

      эти группы однородны. В меню Save команды k-means можно

      сохранять не только переменную, фиксирующую номер кластера, к которому

      отнесен респондент, но и переменную, измеряющую расстояние

      каждого респондента от центра ·его· кластера. В табл. 5.5 представлены

      средние расстояния для разбиения, рассмотренного в табл. 5.4.

      Таблица 5.5. Средние значения расстояний от центра для

      четырех кластеров табл. 5.4

      5.3. Многомерное шкалирование

      Данные табл. 5.5 показывают, ч·о кластер 2 наиболее однородный,

      а кластеры 1 и 4 однородны, но в меньшей степени. По всей

      видимости, целесообразно провести другую кластеризацию, увеличив

      число кластеров. Это должно привести к разбиению кластеров

      1 и 4 на более однородные группы.

      Многомерное шкалирование

      Многомерное шкалирование заключается в построении переменных

      на основе имеющихся расстояний между объектами. В частности, если

      даны расстояния между городами, программа многомерного шкалирования

      должна восстановить систему координат (с точностью до

      поворота и единицы длины) и приписать координаты каждому городу,

      так чтобы карта и изображение городов в этой системе координат

      зрительно совпали. Близость может определяться не только расстоянием

      в километрах, но и другими показателями, такими, как размеры

      миграционных потоков между городами, интенсивность телефонных

      звонков, а также расстояниями в многомерном признаковом пространстве.

      В последнем случае задача построения искомой системы координат

      близка к задаче, решаемой факторным анализом, — сжатию

      данных, описанию их небольшим числом переменных. Нередко важно

      наглядное представление свойств объектов: полезно придать координаты

      переменным, расположить в геометрическом пространстве переменные.

      С технической точки зрения это всего лишь транспонирование

      матрицы данных. Для определенности мы будем говорить о

      создании геометрического пространства для объектов, специально

      оговаривая случаи анализа множества их свойств. В социальных исследованиях

      методом многомерного шкалирования создают зрительный

      образ «социального пространства» объектов наблюдения или

      свойств. Для такого образа наиболее приемлемо создание двумерного

      пространства.

      Глава 5. Исследование структуры данных

      Основная идея метода состоит в приписывании каждому объекту

      значений координат, так чтобы матрица евклидовых расстояний

      между объектами в этих координатах оказалась близка к матрице

      расстояний между объектами, определенной из каких-либо соображений

      ранее.

      Метод весьма трудоемок и рассчитан на анализ данных, имеющих

      небольшое число объектов.

      Евклидово пространство. Пусть мы определили г шкал Xх,...,

      Хг. Расстояние между парой объектов i и/ определяется по формуле

      Для однозначности задания шкал предполагается, что

      методом главных компонент, первой шкалой обычно называется шкала

      с наибольшей дисперсией, вторая — имеет вторую наибольшую

      дисперсию и т.д.

      Идея многомерного шкалирования. В многомерном шкалировании

      выделяются два направления: метрическое и неметрическое.

      Первая из предложенных моделей — модель метрического многомерного

      шкалирования — имеет вид

      (5.6.)

      где L {S} — линейное преобразование исходной матрицы расстояний;

      D2 — матрица квадратов расстояний, полученная на основе созданных

      шкал; · — матрица отклонений модели от исходных данных.

      Линейное преобразование дает матрицу преобразованных расстояний

      Т = L{S}. Цель многомерного метрического шкалирования —

      поиск оптимальных шкал с помощью линейного преобразования матрицы

      исходных расстояний, минимизирующих ошибку Е.

      Шепард и Краскэл совершили существенный прорыв, разработав

      метод неметрического шкалирования. Суть этого метода состоит

      5.3. Многомерное шкалирование

      в нелинейном преобразовании расстояний. Модель неметрического

      шкалирования имеет вид

      M{S}=D2+E, (5.7)

      где M{S) — монотонное преобразование исходной матрицы расстояний.

      Монотонное преобразование дает матрицу преобразованных расстояний

      Т = M{S}.

      Качество подгонки модели. Для измерения качества подгонки

      модели был предложен показатель

      (5.8.)

      где норма матрицы ММ означает сумму квадратов элементов матрицы.

      Слово «stress» в английском языке имеет множество значений,

      одно из них — нагрузка. Этот показатель изменяется от 0 до 1. Равенство

      нулю означает точную подгонку модели, единице — полную ее

      бессмысленность.

      Кроме того, оценить качество модели можно с помощью показателя

      stress index Краскэла, который получается с использованием матрицы

      не квадратов расстояний, а расстояний. Заметим, что алгоритм

      оптимизирует S-stress, а не stress index.

      Еще один показатель качества модели, RSQ, представляет квадрат

      коэффициента корреляции между матрицами T и D. Таким образом,

      так же как в регрессионном анализе, RSQ может быть интерпретирован

      как доля дисперсии преобразованных расстояний Т, объясненная

      матрицей расстояний D.

      Вызов процедуры многомерного шкалирования. На рис. 5.11

      и 5.12 показаны пути вызова метода многомерного шкалирования и

      главное меню этой команды.

      По умолчанию в процедуре проводится неметрическое шкалирование,

      кнопкой Model можно переключиться на метрическое шкалирование.

      Исходная матрица расстояний. По умолчанию в процедуре

      предполагается, что исходная матрица расстояний вводится из файла

      SPSS. Но у исследователя подготовленная матрица расстояний быва-

      Глава 5. Исследование структуры данных

      ет весьма редко. Поэтому чаще используется возможность вычисления

      расстояний на основе имеющихся данных, которая реализуется в

      диалоговом окне команды в разделе Distances включением пункта

      Create distances from data. Здесь предусмотрен такой же широкий набор

      мер близости и расстояний, как и в иерархическом кластерном

      анализе. Их можно выбрать, воспользовавшись кнопкой Measure в

      разделе Distances, при этом можно определить, что визуализируется,

      матрица расстояний между объектами или переменными.

      Рис. 5.11, Путь вызова команды многомерного шкалирования

      Рис. 5.12. Главное меню команды многомерного шкалирования

      5.3. Многомерное шкалирование

      Пример построения шкал. В качестве примера исследуем данные

      по средней обеспеченности семей дорогостоящими предметами

      быта, электроникой, средствами транспорта и дачами (всего 9 предметов)

      в 38 территориальных общностях (данные RLMS, 1996). В результате

      применения процедуры шкалирования территориальные общности

      должны расположиться в двумерном геометрическом пространстве,

      построенном исходя из расстояний по 9 переменным.

      Для этого получим файл, в котором объектами будут территориальные

      общности, а переменными — обеспеченность семей указанными

      предметами. Значения переменных — доли семей, обладающих ими.

      Исходными данными здесь являются ответы на вопрос: имеете ли вы

      холодильник; имеете ли вы морозильник; имеете ли вы стиральную машину

      и т.д. (1 — да, 2 — нет, 9 — нет ответа) в файле анкет семьи.

      Интерпретация результатов многомерного шкалирования.

      Для интерпретации можно изучить связь полученных шкал с имеющимися

      данными, в частности с исходными переменными, по которым

      строилась матрица расстояний.

      В нашем примере таблица ранговых корреляций с исходными

      переменными свидетельствует о том, что первое измерение (Diml)

      характеризует уровень благосостояния жителей территориальных образований

      в целом, второе измерение связано с приверженностью их

      садоводству (табл. 5.6).

      Наглядную картину дает непосредственное размещение объектов

      (территориальных общностей) на поле рассеяния в построенном

      геометрическом пространстве (рис. 5.13). На графике видно, что шкала

      Diml имеет больший разброс, чем шкала Dim2, а значит, объясняет

      большую часть разброса расстояний объектов. Зримо подтверждается

      интерпретация первой шкалы 1: по разным полюсам Diml стоят Ханты-

      Мансийский автономный округ — весьма богатый регион и Пензенская

      область, Кабардино-Балкария — беднейшие части России.

      Поскольку мы не обладаем информацией о развитии садоводства,

      для проверки интерпретации второй шкалы полезно рассмотреть

      диаграмму рассеяния Dim2 и доли семей, имеющих садовые домики

      (рис. 5.14). Рисунок показывает, что указанная выше интерпретация

      небезосновательна.






      Share |

       

      Версия для печати

      Читайте также


      Менеджер как мотиватор: преданность организации

      В рамках совместного проекта с издательством Эксмо продолжаем публикацию текстов книг серии "HR-библиотека". Предлагаем вашему вниманию отрывок книги «Менеджер как мотиватор. Практические уроки мотивации для нехаризматичных лидеров».

      Формализация бизнес-процессов как HR-инструмент
      Формализация бизнес-процессов как HR-инструмент

      Эффективно управлять бизнесом без ясного и однозначного понимания всеми сотрудниками бизнес-процессов компании — невозможно! Согласно определению бизнес-процесс — это цепь логически связанных, повторяющихся действий, цель которых — производство продукции/ оказание услуг (конкретных измеримых результатов) для удовлетворения потребностей внутренних или внешних клиентов. При этом предприятие использует как внешние (сырье, источники энергии, информация), так и внутренние ресурсы (труд работников, технологии, оборудование). Совокупность всех бизнес-процессов представляет собой модель бизнеса.

      21 вопрос, который стоит задавать себе каждую неделю


      Management Development. Как усовершенствовать работу менеджеров

      Алан Мамфорд, Джеф Голд. Management Development. Как усовершенствовать работу менеджеров. Стратегии действий
      Management Development: Strategies for Action
      Серия: Developing Practice Издательство: Hippo Publishing LTD, 2006 г.
      Идеальный размер команды
      Имя 
      Пароль  забыли?
      Присоединяйтесь!

      Новые материалы

         Названы самые высокооплачиваемые вакансии в Башкирии
         Не все профессии равны. Вчерашние школьники идут в телевизионщики и PR
         Новочебоксарские безработные граждане обучаются востребованным профессиям
         Где в Уфе заработать 100 тысяч рублей в месяц
         Сколько в среднем получают владимирские врачи?


      Последние комментарии

        
         мне приятно Вас читать 99 % читаемое мной - мусор... А на ваших постах глаза отдыхают 
         Действительно, Эдуард, что это я! Всё ещё hr, всё ещё пишу - с удовольствием вернусь)))
         Марина, вы вернетесь к нам или уже все?)
         вы можете оставлять активную ссылку на источник 
      Все статьи


      Интервью




      Публикую статью Алексея Королькова с видеокомментарием
      все интервью


      О проекте      Реклама       Подписка       Контакты       Rambler's Top100 Яндекс цитирования ©2000-2011, HRM