- Реализовать алгоритм получения контекстных эмбеддингов (векторных представлений) слов.
- Реализовать алгоритмы CBoW и SkipGram для получения собственных моделей Word2Vec для выбранных данных.
- Визуализировать векторные представления в малой размерности.
- Загрузить коллекцию текстовых документов: просьбы жильцов. Можете использовать не весь датасет (подмножество строк таблицы). В этом задании вас интересует столбец с текстом обращений жильцов. Можете загрузить любой датасет для классификации текстовых данных.
- Рассмотреть каждый текстовый документ отдельно. Выполнить предварительную обработку текстовых данных.
- С помощью PyTorch реализовать алгоритмы построения Word2Vec: CBoW и SkipGram. Получить векторные представления текстов с помощью собственной реализации данных алгоритмов.
- Сформировать матрицы контекстных эмбеддингов. С помощью PCA уменьшить размер данных матриц (размер задать самостоятельно).
- Сохранить полученные различными способами векторные представления в файлы tsv. Визуализировать их с помощью сервиса Projector от авторов TensorFlow
Вместо Projector можно использовать TensorBoard
- Загружен / выбран датасет для классификации.
- Представлен код предварительной обработки данных.
- Представлена реализация CBoW или SkipGram.
- Векторные представления сохранены и визуализированы.