• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Стажёр-исследователь НУЛ Александр Иванов провёл практикум по кластерному анализу в R на регулярном семинаре лаборатории

Александр Иванов на открытом семинаре НУЛ психологии социального неравенства рассказал о кластерном анализе как о методе снижения размерности данных и о том, как проводить его в среде RStudio.

Стажёр-исследователь НУЛ Александр Иванов провёл практикум по кластерному анализу в R на регулярном семинаре лаборатории

Photo by Markus Spiske on Unsplash

22 ноября состоялся открытый для вольных слушателей семинар-практикум лаборатории, на котором Александр Иванов выступил с докладом «Кластерный анализ: визуализируем скрытые связи в наших данных». 

На семинаре Александр рассказал о двух основных методах кластеризации данных: k-means и иерархической кластеризации, об их особенностях и ситуациях применения. Метод K-means подходит для больших выборок, в качестве метрики использует евклидово расстояние и позволяет задать количество кластеров вручную, однако чувствителен к выбросам. Главная особенность иерархичной кластеризации, которая больше подходит для маленьких выборок, в том, что она иерархична и конечна: в первой итерации количество кластеров равно количеству наблюдений, а в последней все они объединяются в один кластер. В итоге получается дерево кластеров. Суть этого метода в том, чтобы аналитически найти наиболее оптимальное решение. В обох случаях необходимо выполнять кластеризацию поэтапно: сначала отобрать переменные и стандартизировать их, после выбрать не только метод кластеризации, но и используемые метрики, и, наконец, визуализировать и качественно интерпретировать полученные результаты. Примечательно, что в обоих случая результат получается примерно одинаковый. После теоретического введения в каждый из методов, Александр показал, как они могут быть реализованы в среде R на данных по потреблению напитков. 

НУЛ психологии социального неравенства благодарит присоединившихся к семинару слушателей! 

Мы проводим семинары примерно каждые 3 недели. Следите за анонсами мероприятий на сайте нашей лаборатории: если семинар открыт для вольных слушателей, мы обязательно размещаем там его аннотацию! 

Будем рады видеть вас на будущих семинарах!

22 ноября состоялся открытый для вольных слушателей семинар-практикум лаборатории, на котором Александр Иванов выступил с докладом «Кластерный анализ: визуализируем скрытые связи в наших данных». 


На семинаре Александр рассказал о двух основных методах кластеризации данных: k-means и иерархической кластеризации, об их особенностях и ситуациях применения. Метод K-means подходит для больших выборок, в качестве метрики использует евклидово расстояние и позволяет задать количество кластеров вручную, однако чувствителен к выбросам. Главная особенность иерархичной кластеризации, которая больше подходит для маленьких выборок, в том, что она иерархична и конечна: в первой итерации количество кластеров равно количеству наблюдений, а в последней все они объединяются в один кластер. В итоге получается дерево кластеров. Суть этого метода в том, чтобы аналитически найти наиболее оптимальное решение. В обох случаях необходимо выполнять кластеризацию поэтапно: сначала отобрать переменные и стандартизировать их, после выбрать не только метод кластеризации, но и используемые метрики, и, наконец, визуализировать и качественно интерпретировать полученные результаты. Примечательно, что в обоих случая результат получается примерно одинаковый. После теоретического введения в каждый из методов, Александр показал, как они могут быть реализованы в среде R на данных по потреблению напитков. 


НУЛ психологии социального неравенства благодарит присоединившихся к семинару слушателей! 

Мы проводим семинары примерно каждые 3 недели. Следите за анонсами мероприятий на сайте нашей лаборатории: если семинар открыт для вольных слушателей, мы обязательно размещаем там его аннотацию! 

Будем рады видеть вас на будущих семинарах!