Используя свой датасет для классификации из курса дисциплины "Машинное обучение" описать и обучить модель для классификации с помощью PyTorch. Выбрать функцию потерь. Использовать объекты TensorDataset и DataLoader.
Используя публичный API сайта HeadHunter (особое внимание на метод https://api.hh.ru/vacancies/) необходимо:
Выполняя данное дополнительное задание вы можете поиграться с многопоточностью в Python и организовать загрузку информации о вакансиях в параллельном режиме.
Доработать модель, спроектированную в результате выполнения Лабораторной работы 3 — реализовать механизм внимания с использованием скалярного произведения.
Сравнить качество инференса моделей с вниманием и без него.
С использованием моделей для feature extraction на основе BERT решить задачу предсказания заработной платы на основе описания вакансии. Можно использовать фреймворк Sentence Transformers и соответствующие модели.
В качестве набора данных использовать предварительно обработанные вакансии, загруженные в результате выполнения дополнительного практического задания 2.
Модели на основе BERT необходимо использовать именно для feature extraction, чтобы полученный в результате эмбеддинг использовать в другой нейронной сети. Напомню, что на занятии по Transfer Learning с использованием моделей Hugging Face мы делали fine-tuning, который предполагает непосредственно дообучение модели. Здесь мы используем большую модель только для извлечения признаков.
Обратите внимание, что в большинстве случаев эмбеддингом предложения будет первый выходной вектор модели (напомню, что на выходе BERTовых моделей вы получаете столько векторов, сколько токенов подавалось на вход, считая специальные токены). Первый токен - это обычно , поэтому он, как правило, является эмбеддингом приложения. Читайте инструкцию к модели, которую используете.
Получив эмбеддинг текста можете использовать не обязательно нейронные сети - можете подключать деревья и т. д.
После обучения не забудьте оценить качество модели с использованием метрик регрессии (в первую очередь - коэффициент детерминации).
Используйте набор данных на русском языке из Лабораторной работы 5 и выполните тематическое моделирование коллекции текстовых документов с использованием следующих алгоритмов:
Проинтерпретируйте полученные наборы тем.
В ходе выполнения задания предполагается самостоятельное ознакомление с возможностями тематического моделирования, предоставляемыми библиотеками sklearn и gensim.