Стажёр-исследователь НУЛ Александр Иванов провёл практикум по кластерному анализу в R на регулярном семинаре лаборатории
Александр Иванов на открытом семинаре НУЛ психологии социального неравенства рассказал о кластерном анализе как о методе снижения размерности данных и о том, как проводить его в среде RStudio.
22 ноября состоялся открытый для вольных слушателей семинар-практикум лаборатории, на котором Александр Иванов выступил с докладом «Кластерный анализ: визуализируем скрытые связи в наших данных».
На семинаре Александр рассказал о двух основных методах кластеризации данных: k-means и иерархической кластеризации, об их особенностях и ситуациях применения. Метод K-means подходит для больших выборок, в качестве метрики использует евклидово расстояние и позволяет задать количество кластеров вручную, однако чувствителен к выбросам. Главная особенность иерархичной кластеризации, которая больше подходит для маленьких выборок, в том, что она иерархична и конечна: в первой итерации количество кластеров равно количеству наблюдений, а в последней все они объединяются в один кластер. В итоге получается дерево кластеров. Суть этого метода в том, чтобы аналитически найти наиболее оптимальное решение. В обох случаях необходимо выполнять кластеризацию поэтапно: сначала отобрать переменные и стандартизировать их, после выбрать не только метод кластеризации, но и используемые метрики, и, наконец, визуализировать и качественно интерпретировать полученные результаты. Примечательно, что в обоих случая результат получается примерно одинаковый. После теоретического введения в каждый из методов, Александр показал, как они могут быть реализованы в среде R на данных по потреблению напитков.
НУЛ психологии социального неравенства благодарит присоединившихся к семинару слушателей!
Мы проводим семинары примерно каждые 3 недели. Следите за анонсами мероприятий на сайте нашей лаборатории: если семинар открыт для вольных слушателей, мы обязательно размещаем там его аннотацию!
Будем рады видеть вас на будущих семинарах!
22 ноября состоялся открытый для вольных слушателей семинар-практикум лаборатории, на котором Александр Иванов выступил с докладом «Кластерный анализ: визуализируем скрытые связи в наших данных».
На семинаре Александр рассказал о двух основных методах кластеризации данных: k-means и иерархической кластеризации, об их особенностях и ситуациях применения. Метод K-means подходит для больших выборок, в качестве метрики использует евклидово расстояние и позволяет задать количество кластеров вручную, однако чувствителен к выбросам. Главная особенность иерархичной кластеризации, которая больше подходит для маленьких выборок, в том, что она иерархична и конечна: в первой итерации количество кластеров равно количеству наблюдений, а в последней все они объединяются в один кластер. В итоге получается дерево кластеров. Суть этого метода в том, чтобы аналитически найти наиболее оптимальное решение. В обох случаях необходимо выполнять кластеризацию поэтапно: сначала отобрать переменные и стандартизировать их, после выбрать не только метод кластеризации, но и используемые метрики, и, наконец, визуализировать и качественно интерпретировать полученные результаты. Примечательно, что в обоих случая результат получается примерно одинаковый. После теоретического введения в каждый из методов, Александр показал, как они могут быть реализованы в среде R на данных по потреблению напитков.
НУЛ психологии социального неравенства благодарит присоединившихся к семинару слушателей!
Мы проводим семинары примерно каждые 3 недели. Следите за анонсами мероприятий на сайте нашей лаборатории: если семинар открыт для вольных слушателей, мы обязательно размещаем там его аннотацию!