В машинному навчанні та статистиціобира́ння озна́к, відоме також як обира́ння змі́нних, обира́ння атрибу́тів та обира́ння підмножини́ змі́нних (англ.feature selection, variable selection, attribute selection, variable subset selection) — це процес обирання підмножини доречних ознак (змінних, провісників) для використання в побудові моделі. Методики обирання ознак застосовують із декількома цілями:
спрощення моделей, щоби зробити їх легшими для інтерпретування дослідниками/користувачами,[1]
Центральною передумовою при застосуванні методики обирання ознак є те, що дані містять деякі ознаки, що є або надлишковими, або недоречними, і тому їх може бути усунено без спричинення значної втрати інформації.[2] «Надлишкові» та «недоречні» є двома різними поняттями, оскільки одна доречна ознака може бути надлишковою в присутності іншої доречної ознаки, з якою вона сильно корелює.[3]
Методики обирання ознак слід відрізняти від виділяння ознак. Виділяння ознак створює нові ознаки з функцій від первинних ознак, тоді як обирання ознак повертає підмножину ознак.
Методики обирання ознак часто використовують у тих областях, де є багато ознак, і порівняно мало зразків (або точок даних). До споконвічних випадків застосування обирання ознак належать аналіз писаних текстів та даних ДНК-мікрочипів, де є багато тисяч ознак, і лише від декількох десятків до сотень зразків.
Введення
Алгоритм обирання ознак можливо розглядати як поєднання методики пошуку для пропонування нових підмножин ознак разом із мірою оцінки, яка встановлює бали різним підмножинам ознак. Найпростішим алгоритмом є перевіряти кожну можливу підмножину ознак, шукаючи таку, яка мінімізує рівень похибки. Це є вичерпним пошуком цим простором, і є обчислювально непіддатливим для будь-яких множин ознак, крім найменших. Вибір оцінювальної метрики сильно впливає на алгоритм, і саме ці оцінювальні метрики відрізняють три основні категорії алгоритмів пошуку ознак: обгорткові, фільтрові та вбудовані методи.[3]
Обгорткові методи для встановлення балів підмножинам ознак використовують передбачувальну модель. Кожну нову підмножину використовують для тренування моделі, яку перевіряють на притриманій множині. Підрахунок кількості помилок, зроблених на цій притриманій множині (рівень похибки моделі) дає бал цієї підмножини. Оскільки обгорткові методи тренують нову модель для кожної підмножини, вони є дуже обчислювально напруженими, але зазвичай пропонують множину ознак із найкращою продуктивністю для того окремого типу моделі.
Фільтрові методи для встановлення балів підмножинам ознак замість рівня похибки використовують міру-заступницю. Цю міру обирають такою, щоби вона була швидкою, але все ще схоплювала корисність множини ознак. До поширених мір належать взаємна інформація,[3]поточкова взаємна інформація,[4]коефіцієнт кореляції Пірсона, алгоритми на основі Relief[en][5] та внутрішньо/міжкласова відстань або бали критеріїв значущості для кожної комбінації клас/ознака.[4][6] Фільтри зазвичай є менш напруженими обчислювально за обгортки, але вони пропонують набір ознак, що не налаштовано на конкретний тип передбачувальної моделі.[7] Цей брак налаштування означає, що набір ознак від фільтра є загальнішим за набір від обгортки, зазвичай даючи нижчу передбачувальну продуктивність, ніж обгортка. Проте такий набір ознак не містить припущень передбачувальної моделі, і тому є кориснішим для розкриття взаємозв'язків між ознаками. Багато фільтрів пропонують ранжування ознак замість явної найкращої підмножини ознак, а точку відсікання в рангу обирають за допомогою перехресного затверджування. Фільтрові методи також застосовували як передобробний етап для обгорткових методів, роблячи можливим застосування обгорток до більших задач. Одним з інших популярних підходів є алгоритм рекурсивного усунення ознак (англ.Recursive Feature Elimination),[8] зазвичай застосовуваний з методом опорних векторів для повторної побудови моделі та усунення ознак з низькими ваговими коефіцієнтами.
Вбудовані методи є всеосяжною групою методик, що виконують обирання ознак як частину процесу побудови моделі. Примірником цього підходу є метод побудови лінійних моделей LASSO[en], який штрафує коефіцієнти регресії штрафом L1, скорочуючи багато з них до нуля. Будь-які ознаки, що мають ненульові коефіцієнти регресії, є «обраними» алгоритмом LASSO. До покращень LASSO належать Bolasso, яке бутстрепує вибірки,[9], еластично-сіткова регуляризація[en], яка поєднує штраф L1LASSO із штрафом L2гребеневої регресії, та FeaLect, яке встановлює бали всім ознакам на основі комбінаторного аналізу коефіцієнтів регресії.[10] Ці підходи з погляду обчислювальної складності тяжіють до знаходження між фільтрами та обгортками.
У традиційному регресійному аналізі найпопулярнішим видом обирання ознак є поетапна регресія[en], яка є обгортковою методикою. Це жадібний алгоритм, що під час кожного раунду додає найкращу ознаку (або видаляє найгіршу). Головним питанням у керуванні є вирішування, коли зупинити алгоритм. У машинному навчанні це зазвичай здійснюють за допомогою перехресного затверджування. У статистиці деякі критерії є оптимізованими. Це призводить до проблеми, притаманної вкладеності. Було досліджено надійніші методи, такі як гілки і межі, та кусково-лінійна мережа.
Обирання підмножин
Обирання підмножини оцінює на придатність підмножину ознак як групу. Алгоритми обирання підмножин можливо розділити на обгорткові, фільтрові та вбудовані методи. Обгорткові використовують пошуковий алгоритм для пошуку простором можливих ознак, і оцінки кожної підмножини запуском моделі на ній. Обгортки можуть бути обчислювально витратними, і мати ризик перенавчитися моделі. Фільтри є схожими на обгортки в підході до пошуку, але замість оцінки проти моделі виводять простіший фільтр. Вбудовані методики є вбудованими в модель, і особливими для моделі.
Багато популярних підходів до пошуку використовують жадібнийпідйом схилом, що ітеративно оцінює кандидата-підмножину ознак, а потім змінює цю підмножину й оцінює, чи є нова підмножина покращенням відносно старої. Оцінка підмножин вимагає оцінкової метрики, що реалізує градацію підмножин ознак. Вичерпний пошук в загальному випадку є непрактичним, тому на певній визначеній реалізатором (або оператором) точці зупинки підмножину ознак із найвищим знайденим до цієї точки балом обирають задовільною підмножиною ознак. Критерій зупинки залежить від алгоритму; до можливих критеріїв належать: перевищення порогу балом підмножини, перевищення максимального допустимого часу виконання програми тощо.
Альтернативні методики на основі пошуку ґрунтуються на націленому пошуку найкращої проєкції[en], який знаходить низькорозмірні проєкції даних, що мають високий бал: тоді обирають ознаки, що мають найбільші проєкції в низькорозмірному просторі.
Двома популярними фільтровими метриками для задач класифікації є кореляція та взаємна інформація, хоча жодна з них не є справжньою метрикою, або «мірою відстані», в математичному сенсі, оскільки вони не підкоряються нерівності трикутника, і відтак не обчислюють жодної дійсної «відстані» — їх слід було би швидше розглядати як «бали». Ці бали обчислюють між ознаками-кандидатами (або наборами ознак) та бажаною категорією виходу. Проте існують і справжні метрики, що є простою функцією взаємної інформації;[19] див. тут.
Іншими критеріями є баєсів інформаційний критерій (БІК, англ.BIC), що використовує штраф у для кожної доданої ознаки, принцип мінімальної довжини опису (МДО, англ.MDL), що асимптотично використовує , Бонферроні[en] / КРР (англ.RIC), який використовує , обирання ознак максимальної залежності (англ.maximum dependency feature selection) та ряд нових критеріїв, обґрунтованих рівнем хибного виявляння[en] (англ.false discovery rate, FDR), який використовує щось близьке до . Для обирання найвідповіднішої множини ознак можна також використовувати й критерій максимальної ентропійної швидкості.[22]
Навчання структури
Фільтрове обирання ознак є окремим випадком загальнішої парадигми, що називають навчанням структури. Обирання ознак знаходить доречний набір ознак для конкретної цільової змінної, тоді як навчання структури знаходить взаємозв'язки між усіма змінними, зазвичай виражаючи ці взаємозв'язки як граф. Найпоширеніші алгоритми навчання структури виходять із того, що дані було породжено баєсовою мережею, і тому структурою є орієнтованаграфова модель. Оптимальним розв'язком задачі фільтрового обирання ознак є марковське покриття цільового вузла, і в баєсовій мережі існує єдине марковське покриття для кожного вузла.[23]
Механізми обирання ознак на основі теорії інформації
Існують різні механізми обирання ознак, що для оцінювання різних ознак використовують взаємну інформацію. Вони зазвичай використовують один і той же алгоритм:
Обчислити взаємну інформацію як оцінку між усіма ознаками () та цільовим класом ( )
Обрати ознаку з найвищим балом (наприклад, ), і додати її до набору обраних ознак ()
Пен та ін.[25] запропонували метод обирання ознак, що може використовувати для обирання ознак або взаємну інформацію, кореляцію, або відстань/бали схожості. Мета полягає у штрафуванні доречності (англ.relevancy) ознаки її надлишковістю (англ.redundancy) в присутності інших обраних ознак. Доречність набору ознак S для класу c визначають усередненим значенням усіх значень взаємної інформації між окремою ознакою fi та класом c таким чином:
.
Надлишковістю всіх ознак у множині S є усереднене значення всіх значень взаємної інформації між ознакою fi та ознакою fj:
Критерій мінімальної-надлишковості-максимальної-доречності (англ.minimum-redundancy-maximum-relevance, mRMR) є поєднанням двох наведених вище мір, і його визначено наступним чином:
Припустімо, що є n ознак повної множини. Нехай xi буде індикаторною функцією членства ознаки fi в множині, такою, що xi=1 показує наявність, а xi=0 показує відсутність ознаки fi в глобально оптимальній множині ознак. Нехай , а . Наведене вище може бути записано як задачу оптимізації:
Алгоритм mRMR є наближенням теоретично оптимального максимально-залежнісного алгоритму обирання ознак, який максимізує взаємну інформацію між спільним розподілом обраних ознак та змінною класифікації. Оскільки mRMR наближує задачу комбінаторної оцінки рядом набагато менших задач, кожна з яких включає лише дві змінні, він таким чином використовує попарні спільні ймовірності, що є надійнішими. В деяких ситуаціях цей алгоритм може недооцінювати корисність ознак, оскільки він не має способу вимірювати взаємодії між ознаками, що можуть збільшувати доречність. Це може призводити до поганої продуктивності,[24] коли ознаки є марними поодинці, але корисними у поєднанні (патологічний випадок трапляється, коли клас є функцією парності[en] ознак). В цілому цей алгоритм є ефективнішим (у термінах кількості потрібної інформації) за теоретично оптимальне максимально-залежнісне обирання, хоча й виробляє набір ознак із невеликою попарною надлишковістю.
mRMR є примірником більшого класу фільтрових методів, які шукають компроміс між доречністю та надлишковістю відмінними шляхами.[24][26]
Обирання ознак квадратичним програмуванням
mRMR є типовим прикладом приростової жадібної стратегії обирання ознак: щойно ознаку було обрано, її не може бути виключено на пізнішому етапі. І хоча mRMR може бути оптимізовано застосуванням рухливого пошуку (англ.floating search) для скорочування деяких ознак, його також може бути переформульовано як задачу глобальної оптимізації квадратичного програмування (англ.quadratic programming feature selection, QPFS) таким чином:[27]
т. щ.
де є вектором доречності ознак, за припущення, що загалом є n ознак, є матрицею попарної надлишковості ознак, а представляє відносні ваги ознак. QPFS розв'язується за допомогою квадратичного програмування. Нещодавно було показано, що QPFS має схильність до ознак із меншою ентропією,[28] тому що воно ставить член самонадлишковості ознаки на діагональ H.
Умовна взаємна інформація
Інша оцінка, що виводять із взаємної інформації, ґрунтується на умовній доречності:[28]
т. щ.
де , а .
Перевага SPECCMI полягає в тому, що воно може розв'язуватися просто знаходженням домінантного власного вектора Q, і тому є дуже масштабовуваним. Також SPECCMI обробляє взаємодії ознак другого порядку.
Спільна взаємна інформація
У дослідженні різних балів Браун та ін.[24] рекомендували як добрий бал для обирання ознак спільну взаємну інформацію.[29] Цей бал намагається знайти ознаку, що додає найбільше нової інформації до вже відомих ознак, щоби уникати надмірності. Цей бал сформульовано наступним чином:
Цей бал використовує умовну взаємну інформацію[en] для оцінювання надмірності між вже обраними ознаками () та досліджуваною ознакою ().
Обирання ознак на основі LASSO критерію незалежності Гільберта-Шмідта
Для даних із високою розмірністю та малою вибіркою (наприклад, розмірність > 105, а кількість зразків < 103) корисним є LASSO[en] критерію незалежності Гільберта-Шмідта (англ.Hilbert-Schmidt Independence Criterion Lasso, HSIC Lasso).[30] Задачу оптимізації HSIC Lasso задають як
т. щ.
де є мірою незалежності на ядровій основі, що називають (емпіричним) критерієм незалежності Гільберта-Шмідта (англ.Hilbert-Schmidt independence criterion, HSIC), позначає слід, є регуляризаційним параметром, та є центрованими матрицями Ґрама входу та виходу, та є матрицями Ґрама, та є ядровими функціями, є центрувальною матрицею, є m-вимірною одиничною матрицею (m — кількість зразків), є m-вимірним вектором з усіма одиницями, а є -нормою. HSIC завжди набуває невід'ємного значення, і є нулем тоді й лише тоді, коли дві випадкові змінні є статистично незалежними при використанні універсального відтворювального ядра, такого як ґаусове.
Міра кореляційного обирання ознак (англ.Correlation Feature Selection, CFS) оцінює підможину ознак на основі наступної гіпотези: «Добрі підмножини ознак містять ознаки, високо корельовані з класифікацією, але некорельовані між собою».[31][32] Наступне рівняння задає якість підмножини ознак S, що складається із k ознак:
Тут є усередненим значенням усіх кореляцій ознака-класифікація, а є усередненим значенням усіх кореляцій ознака-ознака. Критерій CFS визначають наступним чином:
Ознаки з дерева або ансамблю дерев рішень виявляються надлишковими. Для обирання підмножини ознак можливо застосовувати нещодавній метод, названий регуляризованим деревом.[34] Регуляризовані дерева здійснюють штрафування, використовуючи для розділення поточного вузла змінну, подібну до змінних, вибраних на попередніх вузлах дерева. Регуляризовані дерева потребують побудови лише однієї деревної моделі (або однієї моделі ансамблю дерев), і, отже, є обчислювально ефективними.
Регуляризовані дерева природно обробляють числові та категорійні ознаки, взаємодії та нелінійності. Вони є інваріантними відносно масштабів (одиниць виміру) атрибутів та нечутливими до викидів, і, таким чином, вимагають незначної попередньої обробки даних, такої як нормалізація[en]. Одним із типів регуляризованих дерев є регуляризований випадковий ліс (РВЛ, англ.Regularized random forest, RRF).[35] Цей керований РВЛ є розширеним РВЛ, що керується балами важливості зі звичайного випадкового лісу.
Огляд метаевристичних методів
Метаевристика є загальним описом алгоритму, присвяченого розв'язанню складних (зазвичай, NP-складних) задач оптимізації, для яких не існує класичних методів розв'язання. Загалом, метаевристика є стохастичним алгоритмом, який веде до досягнення глобального оптимуму. Існує багато метаевристик, від простого локального пошуку, і до алгоритму складного глобального пошуку.
Головні принципи
Методи обирання ознак зазвичай представляють трьома класами на основі того, як вони поєднують алгоритм обирання та побудову моделі.
Фільтровий метод
Методи фільтрового типу обирають змінні незалежно від моделі. Вони ґрунтуються лише на загальних ознаках, таких як кореляція з передбачуваною змінною. Фільтрові методи придушують найменш цікаві змінні. Інші змінні будуть частиною моделі класифікації або регресії, яку застосовують для класифікування або передбачення даних. Ці методи є особливо ефективними з точки зору обчислювального часу, та стійкими до перенавчання.[36]
Фільтрові методи схильні обирати надлишкові змінні, коли вони не беруть до уваги взаємовідношення між змінними. Проте більш продумані функції, такі як алгоритм FCBF,[37] намагаються й мінімізують цю проблему шляхом усування сильно корельованих між собою змінних.
Обгортковий метод
Обгорткові методи оцінюють підмножини змінних, що дозволяє, на відміну від фільтрових підходів, виявляти можливі взаємодії між змінними.[38] Двома головними недоліками цих методів є:
Підвищення ризику перенавчання за недостатньої кількості спостережень.
Значний обчислювальний час за великої кількості змінних.
Вбудований метод
Нещодавно було запропоновано вбудовані методи, які намагаються поєднувати переваги обох попередніх методів. Алгоритм навчання отримує перевагу від свого власного процесу обирання змінних, і виконує обирання ознак та класифікування одночасно, як це робить алгоритм FRMT.[39]
Застосування метаевристик обирання ознак
Це огляд застосувань метаевристик обирання ознак, що останнім часом використовували в літературі. Цей огляд було реалізовано Дж. Геммон (англ.J. Hammon) в її дисертації 2013 року.[36]
Обирання ознак на основі локального навчання.[65] В порівнянні з традиційними методами, він не передбачає жодного евристичного пошуку, може легко впоруватися з полікласовими задачами, і працює як для лінійних, так і для нелінійних задач. Він також підтримується сильним теоретичним підґрунтям. Чисельні експерименти показали, що цей метод може досягати близького до оптимального розв'язку навіть коли дані містять понад мільйон недоречних ознак.
↑ абGareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013). An Introduction to Statistical Learning. Springer. с. 204. Архів оригіналу за 23 червня 2019. Процитовано 20 січня 2016. (англ.)
↑Urbanowicz, Ryan J.; Meeker, Melissa; LaCava, William; Olson, Randal S.; Moore, Jason H. (22 листопада 2017). Relief-Based Feature Selection: Introduction and Review. arXiv:1711.08421 [cs.DS]. (англ.)
↑Yishi Zhang; Shujuan Li; Teng Wang; Zigang Zhang (2013). Divergence-based feature selection for separate classes. Neurocomputing. 101 (4): 32—42. doi:10.1016/j.neucom.2012.06.036. (англ.)
↑Guyon I.; Weston J.; Barnhill S.; Vapnik V. (2002). Gene selection for cancer classification using support vector machines. Machine Learning. 46 (1-3): 389—422. doi:10.1023/A:1012487302797. (англ.)
↑ абZhang, Y.; Wang, S.; Phillips, P. (2014). Binary PSO with Mutation Operator for Feature Selection using Decision Tree applied to Spam Detection. Knowledge-Based Systems. 64: 22—31. doi:10.1016/j.knosys.2014.03.015. (англ.)
↑Kraskov, Alexander; Stögbauer, Harald; Andrzejak, Ralph G; Grassberger, Peter (2003). Hierarchical Clustering Based on Mutual Information. arXiv:q-bio/0311039. Bibcode:2003q.bio....11039K. (англ.)
↑Einicke, G. A. (2018). Maximum-Entropy Rate Selection of Features for Classifying Changes in Knee and Ankle Dynamics During Running. IEEE Journal of Biomedical and Health Informatics. 28 (4): 1097—1103. doi:10.1109/JBHI.2017.2711487. PMID29969403. (англ.)
↑Nguyen, H., Franke, K., Petrovic, S. (2010). "Towards a Generic Feature-Selection Measure for Intrusion Detection", In Proc. International Conference on Pattern Recognition (ICPR), Istanbul, Turkey. [2](англ.)
↑ абNguyen X. Vinh, Jeffrey Chan, Simone Romano and James Bailey, "Effective Global Approaches for Mutual Information based Feature Selection". Proceedings of the 20th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD'14), August 24–27, New York City, 2014. "[3]" (англ.)
↑M. Yamada, W. Jitkrittum, L. Sigal, E. P. Xing, M. Sugiyama, High-Dimensional Feature Selection by Feature-Wise Non-Linear Lasso. Neural Computation, vol.26, no.1, pp.185-207, 2014. (англ.)
↑Senliol, Baris, et al. "Fast Correlation Based Filter (FCBF) with a different search strategy." Computer and Information Sciences, 2008. ISCIS'08. 23rd International Symposium on. IEEE, 2008. [4](англ.)
↑Hai Nguyen, Katrin Franke, and Slobodan Petrovic, Optimizing a class of feature selection measures, Proceedings of the NIPS 2009 Workshop on Discrete Optimization in Machine Learning: Submodularity, Sparsity & Polyhedra (DISCML), Vancouver, Canada, December 2009. [5](англ.)
↑Saghapour E, Kermani S, Sehhati M (2017) A novel feature ranking method for prediction of cancer stages using proteomics data. PLOS ONE 12(9): e0184203. https://doi.org/10.1371/journal.pone.0184203(англ.)
↑Shah, S. C.; Kusiak, A. (2004). Data mining and genetic algorithm based gene/SNP selection. Artificial Intelligence in Medicine. 31 (3): 183—196. doi:10.1016/j.artmed.2004.04.002. PMID15302085. (англ.)
↑Long, N.; Gianola, D.; Weigel, K. A (2011). Dimension reduction and variable selection for genomic selection : application to predicting milk yield in Holsteins. Journal of Animal Breeding and Genetics. 128 (4): 247—257. doi:10.1111/j.1439-0388.2011.00917.x. PMID21749471. (англ.)
↑Xuan, P.; Guo, M. Z.; Wang, J.; Liu, X. Y.; Liu, Y. (2011). Genetic algorithm-based efficient feature selection for classification of pre-miRNAs. Genetics and Molecular Research. 10 (2): 588—603. doi:10.4238/vol10-2gmr969. PMID21491369. (англ.)
↑Peng, S. (2003). Molecular classification of cancer types from microarray data using the combination of genetic algorithms and support vector machines. FEBS Letters. 555 (2): 358—362. doi:10.1016/s0014-5793(03)01275-4. (англ.)
↑L. Jourdan, C. Dhaenens et E.-G. Talbi. Linkage disequilibrium study with a parallel adaptive GA. International Journal of Foundations of Computer Science, 2004. (англ.)