train_test_split(X, y, test_size=0.2, random_state=42). Зачем: модель оценивается на данных, которых не видела. stratify=y — сохраняет пропорции классов. Для временных рядов: нельзя shuffle! Используй TimeSeriesSplit. Hold-out (train/test) — простой, но нестабильный. Train/val/test — для подбора гиперпараметров. Типичные пропорции: 80/20 или 70/15/15. Ошибки: data leakage — обработка до split (StandardScaler на всех данных). Shuffle=True по умолчанию — хорошо для i.i.d. данных, плохо для временных. group=True (GroupShuffleSplit) — если есть группы (пациенты, пользователи).
Как правильно делить данные на train/test?
Junior
357 просмотровAFK Offer AI
Что такое ABC и зачем нужен модуль abc?