Transfer Learning Трансформеров (BERT, GPT) V2

Характеристика	BERT (Bidirectional Encoder Representations from Transformers)	GPT (Generative Pre-trained Transformer)
Архитектура	Только кодировщик (Encoder-Only)	Только декодер (Decoder-Only)
Задача пред. обучения	Маскированная языковая модель (MLM) и предсказание след. предложения (NSP)	Авторегрессионное языковое моделирование (CLM)
Обработка контекста	Двунаправленная (видит контекст слева и справа)	Однонаправленная (видит только левый контекст)
Механизм внимания	Полное самовнимание (Full Self-Attention)	Маскированное самовнимание (Masked Self-Attention)
Основное преимущество	Понимание языка, классификация, извлечение (NLU)	Генерация языка, дополнение текста (NLG)
Типичные применения	Анализ тональности, ответы на вопросы, распознавание именованных сущностей	Чат-боты, саммарзация, генерация кода

¶ Введение