Загрузите следующий датасет, используя платформу Kaggle: Amazon Fine Food Reviews. Датасет большой, рекомендуется для работы взять его часть. Особенностью датасета является то, что мы ничего не знаем о метках тестов: к какой группе относятся комментарии, о каких продуктах идет речь.
Выполните кодирование текстов (не токенов, а текстов целиком) при помощи следующих методов: TF-IDF и SBERT-base модель из sentence-transformers.
Выберте одну конкретную модель для кластеризации текстов на ваше усмотрение. Постройте кластеризацию, используя векторизованные данные с прошлого этапа (то есть у вас должно получиться 2 вида кластеризации для каждого подхода по кодированию текстов).
Определите пул метрик для проверки качества кластеризации. Посчитайте их и проинтерпритируйте результаты их вычисления.
Для каждого кластера определите топ слов, которые определяют этот кластер:
для кластеризации с использованием TF-IDF воспользуйтесь структурой эмбеддингов (у нас получается матрица размерности количество_слов × количество_предложений, из этой структуры можно выудить информацию о словах);
для кластеризации с использованием SBERT-base модели воспользуйтесь моделью KeyBERT (есть одноименная библиотека, которая позволяет использовать эту модель, определяющую ключевые слова в наборе текстов).
Постройте для каждого кластера облака слов (wordcloud, так библиотека для их создания и называется). Обязательно следите за тем, что облако слов должно строиться на лемматизированных текстах без стоп-слов.
На основании топовых слов и облаков слов проинтерпретируйте кластеры.