Что такое scaling и normalization данных?

Middle
290 просмотров
AFK Offer AI

Scaling — приведение признаков к одному масштабу. StandardScaler: (x - mean) / std — среднее 0, std 1. Для нормального распределения. MinMaxScaler: (x - min) / (max - min) — в диапазон [0, 1]. RobustScaler: использует медиану и IQR — устойчив к выбросам. Normalization (L2): вектор единичной длины — для text/similarity. Когда нужно: линейные модели, SVM, kNN, нейросети. Когда не нужно: деревья (Random Forest, XGBoost). Важно: фитить scaler только на train, transform на train и test. В Pipeline — автоматически.

Следующий вопрос

Что такое регуляризация L1 и L2?