Big Data QA: Spark, распределённые системы, валидация массивов

Свойство	Определение в контексте QA
Consistency (C)	Все клиенты видят одни и те же данные в одно и то же время. Любая операция чтения возвращает последнюю запись или ошибку.
Availability (A)	Любой запрос получает (не ошибочный) ответ, даже если один или несколько узлов вышли из строя, без гарантии свежести данных.
Partition Tolerance (P)	Система продолжает функционировать, несмотря на потерю произвольного количества сообщений между узлами сети.

Функция	Назначение	Пример использования
`array_contains(col, val)`	Проверка наличия элемента	`filter(array_contains(col("tags"), "urgent"))`
`size(col)`	Проверка длины массива	`filter(size(col("items")) > 0)`
`exists(col, func)`	Проверка хотя бы один	`filter(exists(col("scores"), lambda x: x < 0))`
`forall(col, func)`	Проверка все элементы	`filter(forall(col("flags"), lambda x: x == True))`
`explode(col)`	Взрыв массива	Соединение элементов массива с другой таблицей.

Событие	Event Time (На датчике)	Processing Time (В Spark)	Статус	Логика
A (Норма)	12:05	12:05	Принято	Данные пришли вовремя. Агрегат окна `12:00-12:10` обновлен. Текущий Watermark движется за max event time.
B (Опоздание)	12:08	12:14	Принято	Событие из окна `12:00-12:10`. Текущее макс. время событий: `12:14`. Watermark: `12:14 - 10мин = 12:04`. Событие `12:08` > `12:04`, значит оно еще актуально. Окно пересчитывается.
C (Слишком поздно)	12:03	12:21	Отброшено	Событие из окна `12:00-12:10`. Пришло новое событие с временем `12:21`. Watermark сдвинулся: `12:21 - 10мин = 12:11`. Событие `12:03` < `12:11`. Порог пройден. Окно `12:00-12:10` уже закрыто и удалено из памяти.

¶ Обеспечение качества больших данных