- Изучите пример выполнения предобработки данных и EDA, представленный в файле
- Выберите датасеты для решения задачи регрессии (Лб/р №2) и задачи классификации (Лб/р №3) из файла. Номер варианта датасета будет определяться по усмотрению преподавателя, ведущего лабораторные работы в вашей подгруппе.
- Проведите предварительную обработку данных и EDA для выбранных датасетов, сопровождая результаты соответствующими выводами и общим итоговым заключением.
- По результатам выполнения Лб/р №1 разработайте интеллект-карты (англ. Mind Map), отражающие предобработку и особенности EDA на данных датасета. Полученное изображение вставьте в файл .ipynb. Такой подход поможет не только систематизировать работу, но и понятно представить ход EDA. Используйте специализированные онлайн-инструменты: Miro, MyBoards, XMind, MindMeister. Они позволяют легко добавлять ветви, менять цвета и прикреплять комментарии. В качестве примерa ознакомьтесь с источником "Exploratory Data Analysis and Visualization Guide".
- Ознакомьтесь с настройкой окружения для выполнения лабораторных работ по дисциплине «Машинное обучение и большие данные»
Для корреляционного анализу используется не только коэффициент Пирсона.
Обратите внимание на таблицу:

Если первая величина представлена бинарной переменной (или дихотомической, или альтернативной), а вторая числовая (или вещественная, или интервальная), то используется не коэффициент Пирсона, а Бисериальный коэффициент.
Все коэффициенты можно найти здесь.