Изучите примеры решения задачи кластеризации: lab5_ml_ex1_base_clustering.ipynb, lab5_ml_ex2_метод_кластеризации_k_means.ipynb, lab5_ml_ex3_k_means_hierarch.ipynb.
Сгенерируйте 2 синтетических датасета для решения задачи кластеризации (признаковое пространство должно равняться двум):
make_classification;make_blobs.Данные необходимо сгенерировать так, чтобы на них можно было получить хорошее качество кластеризации. Количество кластеров должно быть разным для двух датасетов, но не менее трех
В соответствии с индивидуальным вариантом загрузите предобработанный датасет для задачи классификации (который у вас получился в первой лабораторной работе) в рабочую область. Выделите целевой и входные признаки.
Решите задачу кластеризации синтетических и исходных данных, используя следующие методы из библиотеки sklearn:
Для синтетических данных визуализируйте работу кластеризации, используя точечный график и результат работы алгоритмов.
Оцените качество полученных моделей кластеризации при помощи известных вам внутренних и внешних метрик. Возьмите, минимум, 2 внешние и, минимум, 2 внутренние.
Будьте готовы объяснить интерпретацию метрик!
Самостоятельно реализуйте модель кластеризации k-Means. Выполните кластеризацию с ее помощью на синтетических данных и исходных. Вычислите внешние и внутренние метрики качества кластеризации. Визуализируйте результат работы для синтетических данных (также отобразите центроиды кластеров).
Напишите вывод о проделанной лабораторной работе, в котором перечислены лучшие модели кластеризации, а также обоснование, почему вы так считаете.