Загрузите обучающий и тестовый набор данных (две коллекции) новостных статей (с сайта mk.ru).
Данные представлены в формате Apache Parquet, загрузите их в DataFrame с использованием pd.read_parquet. Пример: pd.read_parquet('0000.parquet', 'pyarrow').
Выполните предварительную обработку обучающей и тестирующей выборки, преобразуйте обе коллекции документов. Выполните векторизацию с использованием CountVectorizer и получите документы в виде “мешков слов”.
Обучите модель LDA с использованием библиотеки BigARTM. С помощью matplotlib постройте график изменения перплексии в ходе обучения.
Попробуйте несколько вариантов значений параметра “количество тем” (минимум 3 варианта). Не меняя других параметров модели подберите оптимальное количество тем (с помощью перплексии).
Определите темы документов тестовой выборки и расчитайте перплексию для нее.
Обучите модель общего вида, добавьте несколько регуляризаторов (минимум один). Постройте график изменения перплексии в ходе обучения.
Определите темы документов тестовой выборки и расчитайте перплексию для нее.
выполнена векторизация документов и произведена загрузка коллекции в виде батчей;
обучена модель LDA, определены темы для тестовой выборки, есть график перплексии, рассчитана перплексия тестовой выборки;
показано использование перплексии для подбора оптимального количества тем;
обучена модель общего вида (минимум один регуляризатор), определены темы для тестовой выборки, есть график перплексии, расчитана перплексия тестовой выборки.