Масштабування ознак
Масштабування ознак — метод нормалізації діапазону незалежних змінних або ознак даних. В опрацьовуванні даних він також відомий як нормалізація даних і зазвичай виконується під час попереднього опрацьовування. МотиваціяЧерез те, що діапазони значень сирих даних значно різняться, у деяких алгоритмах машинного навчання цільові функції не працюватимуть правильно без нормалізації[en]. Наприклад, багато класифікаторів обчислюють евклідову відстань між двома точками. Якщо одна з ознак має великий діапазон значень, то відстань сильно залежатиме саме від цієї ознаки. Тому, діапазони всіх ознак треба нормалізувати так, аби внесок у результатну відстань кожної ознаки був приблизно пропорційним. Інша причина застосування масштабування ознак полягає в тому, що градієнтний спуск збігається набагато швидше з використанням масштабування ознак, ніж без нього[1]. Також важливо застосовувати масштабування ознак, якщо регуляризація використовується як частина функції втрат (таким чином, коефіцієнти штрафуються належним чином). Примітки
Information related to Масштабування ознак |