Предварительная обработка текстовых данных (2025)

Категория	Символ	Описание	Пример
Символьные литералы	`a`, `1`, `!`	Любой обычный символ соответствует самому себе .	`кот` найдет "кот"
Метасимволы	`.`	Соответствует любому одиночному символу, кроме символа новой строки.	`к.т` найдет "кот", "кит", "к9т"
	`\`	Экранирует следующий символ, превращая его в литерал.	`\.` найдет точку "."
Классы символов	`[...]`	Соответствует любому символу из указанного набора.	`[абв]` найдет "а", "б" или "в"
	`[^...]`	Соответствует любому символу, не входящему в указанный набор.	`[^0-9]` найдет любой символ, кроме цифры
	`\d`	Соответствует любой цифре. Эквивалентно `[0-9]`.	`\d{3}` найдет три цифры подряд
	`\D`	Соответствует любому символу, кроме цифры. Эквивалентно `[^0-9]`.	`\D+` найдет одну или более не-цифр
	`\w`	Соответствует любой букве, цифре или знаку подчеркивания. Эквивалентно `[a-zA-Z0-9_]`.	`\w+` найдет одно или более "словесных" символов
	`\W`	Соответствует любому символу, кроме буквы, цифры или знака подчеркивания.	`\W` найдет пробел, !, @, # и т.д.
	`\s`	Соответствует любому пробельному символу (пробел, табуляция, новая строка).	`слово\sслово` найдет два слова, разделенных пробелом
	`\S`	Соответствует любому непробельному символу.	`\S+` найдет последовательность символов без пробелов
Якоря (Указатели)	`^`	Соответствует началу строки.	`^Старт` найдет "Старт" только в начале строки
	`$`	Соответствует концу строки.	`Конец$` найдет "Конец" только в конце строки
Квантификаторы	`*`	Соответствует предыдущему элементу 0 или более раз.	`a*` найдет "", "a", "aa", "aaa" и т.д.
	`+`	Соответствует предыдущему элементу 1 или более раз.	`a+` найдет "a", "aa", "aaa" и т.д.
	`?`	Соответствует предыдущему элементу 0 или 1 раз.	`цвет(а)?` найдет "цвет" и "цвета"
	`{n}`	Соответствует предыдущему элементу ровно `n` раз.	`\d{4}` найдет ровно 4 цифры
	`{n,}`	Соответствует предыдущему элементу не менее `n` раз.	`\d{2,}` найдет 2 или более цифр
	`{n,m}`	Соответствует предыдущему элементу от `n` до `m` раз.	`\w{3,5}` найдет от 3 до 5 словесных символов
Группировка и чередование	`(...)`	Группирует несколько элементов в единое целое.	`(абв)+` найдет "абв", "абвабв" и т.д.
	`\|`	Работает как оператор "ИЛИ" (чередование).	`кот\|собака` найдет "кот" или "собака"

¶ Введение

¶ Очистка

¶ Удаление HTML-тегов

¶ Основные элементы регулярных выражений

¶ Удаление URL и email

¶ Удаление знаков препинания

¶ Обработка числительных

¶ Обработка пробельных символов

¶ Токенизация

¶ Слова и предложения

¶ Subword-токенизация

¶ Нормализация

¶ Удаление стоп-слов

¶ Стемминг и лемматизация