Потоковая обработка данных. Использование Spark Structured Streaming

Этап	Описание
Извлечение	Сбор данных из различных источников
Преобразование	Очистка, стандартизация, обогащение и подготовка данных к загрузке
Загрузка	Перенос подготовленных данных в целевое хранилище

Параметр	Data Warehouse	Data Lake
Тип данных	Структурированные	Любые (структурированные, полу-, неструктурированные)
Схема хранения	Заранее определена (schema-on-write)	Определяется при чтении (schema-on-read)
Подготовка данных	Данные очищаются и структурируются до загрузки	Хранятся в сыром виде, обработка по необходимости
Основные задачи	Бизнес-аналитика, отчеты, исторический анализ	Big Data, ML, хранение сырых данных, исследовательский анализ
Масштабируемость	Ограничена, дороже	Высокая, дешевле
Инструменты	BI, OLAP	Data Science, ML, Big Data

¶ Основная теория