Було показано, що статистичні системи наукового характеру (фізичні, біологічні тощо), чиї функції правдоподібності дотримуються інваріантності щодо зміщення(інші мови), показують максимум інформації за Фішером.[5] Рівень цього максимуму залежить від характеру обмежень системи.
Визначення
Інформація за Фішером — це спосіб вимірювання кількості інформації, яку спостережувана випадкова величина несе про невідомий параметр, від якого залежить імовірність . Нехай — функція густини імовірності (або функція маси імовірності) для , обумовлена значенням . Вона описує ймовірність спостерігання заданого результату за умови відомого значення . Якщо дає гострий пік відносно змін , то вказати «правильне» значення з даних легко, або, іншими словами, дані містять багато інформації про параметр . Якщо ж пло́ска й розсіяна, тоді потрібно багато зразків , щоб оцінити справжнє «істинне» значення , яке могло би бути отримане з використанням усієї сукупності, з якої роблять вибірку. Це вказує на необхідність вивчення певного виду дисперсії відносно .
Інформацію за Фішером визначають як дисперсію внеску:[7]
зауважте, що . Випадкова величина, що несе високу інформацію за Фішером, вказує на те, що абсолютне значення внеску часто високе. Інформація за Фішером не є функцією конкретного спостереження, оскільки випадкову величину X було усереднено.
Якщо log f(x; θ) двічі диференційовний за θ, і за певних умов регулярності, то інформацію за Фішером також можна записати як[8]
оскільки
і
Отже, інформацію за Фішером можна розглядати як кривину кривої підтримки(інші мови) (англ.support curve, графіка логарифмічної правдоподібності). Поруч із оцінкою максимальною правдоподібністю, низька інформація за Фішером вказує на те, що максимум виглядає «тупим», тобто максимум неглибокий і багато сусідніх значень мають схожу логарифмічну правдоподібність. І, навпаки, висока інформація за Фішером вказує на те, що максимум гострий.
Якщо θ — вектор, то умови регулярності мусять виконуватися для кожного компонента θ. Приклад густини, яка не задовольняє умови регулярності, знайти легко: густина рівномірної змінної Uniform(0, θ) не виконує умов 1 та 3. У цьому випадку, незважаючи на можливість обчислення інформації за Фішером за визначенням, вона не матиме властивостей, які зазвичай передбачаються.
В термінах правдоподібності
Оскільки правдоподібністьθ для заданої X завжди пропорційна ймовірності f(X; θ), їхні логарифми обов'язково відрізняються на сталу, яка не залежить від θ, а похідні цих логарифмів за θ обов'язково рівні. Таким чином, до визначення інформації за Фішером замість log f(X; θ) можливо підставити функцію логарифмічної правдоподібності l(θ; X).
Вибірки будь-якого розміру
Значення X може подавати як один зразок, вибраний з одного розподілу, так і набір зразків, вибраних з набору розподілів. Якщо є n зразків, і відповідні n розподілів статистично незалежні, то інформація за Фішером обов'язково буде сумою значень інформації за Фішером для кожного окремого зразка з його розподілу. Зокрема, якщо ці n розподілів незалежні й однаково розподілені, то інформація за Фішером обов'язково становитиме n разів інформації за Фішером для одного зразка з загального розподілу. Іншими словами, інформація за Фішером н. о. р. спостережень вибірки розміру n із сукупності дорівнює добуткові n на інформацію за Фішером для одного спостереження з цієї ж сукупності.
Неформально, почнімо з розгляду незміщеного оцінювача. Математично «незміщеність» означає, що
незалежно від значення
Цей вираз нульовий незалежно від θ, тож його частинна похідна за θ також мусить бути нульовою. За правилом добутку ця частинна похідна також дорівнює
Для кожного значення θ функція правдоподібності є функцією густини ймовірності, отже, . Використовуючи ланцюгове правило для частинної похідної , а потім ділячи й множачи на , можливо перевірити, що
Використовуючи ці два факти в наведеному вище виразі, отримуємо
Розкладання підінтегрального виразу на множники дає
Другий множник у дужках визначається як інформація за Фішером, а перший множник є середньоквадратичною похибкою оцінювача . За перетворення, ця нерівність каже нам, що
Іншими словами, точність можливої оцінки параметра θ принципово обмежена інформацією за Фішером функції правдоподібності.
Проба Бернуллі — це випадкова величина з двома можливими результатами: 0 та 1, де 1 має ймовірність θ. Цей результат можливо розглядати як підкидання несиметричної монети, де ймовірність випадіння аверса (1) дорівнює θ, а ймовірність випадіння реверса (0) — 1 − θ.
Нехай X — проба Бернуллі однієї вибірки з розподілу. Інформацію за Фішером, яка міститься в X, можна обчислити як
Оскільки інформація за Фішером адитивна, інформація за Фішером для n незалежних випробувань Бернуллі становить
Якщо — один з можливих результатів n незалежних випробувань Бернуллі, а — j-й результат i-го випробування, то ймовірність задається як
Середнє значення i-го випробування становить
Математичне сподівання середнього значення випробування:
де сума береться по всіх можливих результатах випробувань. Математичне сподівання квадрата середнього:
тож дисперсія значення середнього становить
Видно, що інформація за Фішером є оберненою величиною дисперсії середнього числа успіхів у nвипробуваннях Бернуллі. Це правило є загальним. У цьому випадку нерівність Крамера — Рао є рівністю.
Оцінка θ за X ∼ Bern (√θ)
Як інший модельний приклад розгляньмо випадкову величину з можливими результатами 0 та 1 з імовірностями та відповідно, для деякого . Наша мета — оцінити зі спостережень .
Інформація за Фішером для цього випадку виглядає якЦей вираз також можливо вивести безпосередньо перепараметруванням наведеної нижче формули. Загальніше, для будь-якої достатньо регулярної функції , такої, що , інформація за Фішером для оцінки за обчислюється аналогічно:
Матричний вигляд
Коли параметрів N, тобто θ — векторN × 1, тоді інформація за Фішером набуває вигляду матриціN × N. Цю матрицю називають інформаці́йною ма́трицею за Фі́шером (ІМФ, англ.Fisher information matrix, FIM), і її типовий елемент
У випадках, коли наведені вище аналітичні обчислення ІМФ складні, можливо робити усереднення простих оцінок Монте-Карломатриці Гессе від'ємної функції логарифмічної правдоподібності як оцінку ІМФ.[14][15][16] Ці оцінки можуть ґрунтуватися на значеннях від'ємної функції логарифмічної правдоподібності або її градієнті; аналітичне обчислення матриці Гессе від'ємної функції логарифмічної правдоподібності не потрібне.
Інформаційно ортогональні параметри
Кажуть, що два вектори компонент параметрів θ1 та θ2 інформаційно ортогональні (англ.information orthogonal), якщо інформаційна матриця за Фішером блочно-діагональна з цими компонентами в окремих блоках.[17] Ортогональні параметри зручні тим, що їхні оцінки максимальною правдоподібністю асимптотично некорельовані. Коли йдеться про аналіз статистичної моделі, варто витратити певний час на пошук ортогонального параметрування моделі, особливо коли цільовий параметр одновимірний, але завадний параметр може мати будь-яку вимірність.[18]
У машинному навчанні, якщо статистичну модель розроблено так, що вона витягує приховану структуру з випадкового явища, то вона природно стає сингулярною.[20]
Багатовимірний нормальний розподіл
ІМФ для N-вимірного багатовимірного нормального розподілу має особливий вигляд. Нехай K-вимірний вектор параметрів це , а вектор випадкових нормальних величин це . Припустімо, що середні значення цих випадкових величин це , а — коваріаційна матриця. Тоді, для , елемент (m, n) ІМФ дорівнює:[21]
Інший особливий випадок виникає, коли середнє та коваріація залежать від двох різних векторних параметрів, скажімо, β та θ. Це особливо популярне в аналізі просторових даних, де часто використовують лінійну модель з корельованими залишками. У такому випадку[22]
де
Властивості
Ланцюгове правило
Подібно до ентропії та взаємної інформації, інформація за Фішером також має розклад за ланцюго́вим пра́вилом (англ.chain rule). Зокрема, якщо X та Y — спільно розподілені випадкові величини, то має місце наступне:[23]
де , а — це інформація за Фішером Y щодо , обчислена за умовною густиною Y за заданого значення X = x.
Як окремий випадок, якщо дві випадкові величини незалежні, то інформація, яку вони дають, є сумою інформації від кожної з випадкових величин окремо:
Отже, інформація у вибірці з nнезалежних однаково розподілених спостережень дорівнює n-кратній інформації для вибірки розміру 1.
Якщо задано опуклу функцію , таку, що скінченна для всіх , , а (яка може бути нескінченною), вона визначає f-розбіжність . Якщо строго опукла в , а потім локально в , інформаційна матриця за Фішером є метрикою, в тому сенсі що[24]де — розподіл, параметрований , тобто розподіл з функцією густини ймовірності .
У такій формі видно, що інформаційна матриця за Фішером є рімановою метрикою і правильно змінюється за зміни змінних. (див. розділ про перепараметрування.)
Достатня статистика
Інформація, яку надає достатня статистика, є такою ж, як і інформація вибірки X. Це можна побачити, використовуючи критерій розкладу Неймана для достатньої статистики. Якщо T(X) достатня для θ, то
для деяких функцій g та h. З незалежності h(X) від θ випливає, що
а рівність інформації випливає з визначення інформації за Фішером. Загальніше, якщо T = t(X) — статистика, то
Інформація за Фішером залежить від параметрування задачі. Якщо θ та η — два скалярні параметрування задачі оцінювання, і θ — неперервно диференційовна функція від η, то
де та — інформаційні міри за Фішером для η та θ відповідно.[26]
У випадку векторів, нехай та — k-вектори, які параметрують задачу оцінювання, і нехай — неперервно диференційовна функція від , тоді[27]
де елемент (i, j) матриці Якобіk × k визначається як
і де — транспонована матриця .
В інформаційній геометрії(інші мови) це розглядають як зміну координат на рімановому многовиді, і внутрішні властивості кривини залишаються незмінними за різних параметрувань. Загалом, інформаційна матриця за Фішером забезпечує ріманову метрику (точніше, метрику Фішера — Рао) для многовиду термодинамічних станів і її можливо використовувати як міру інформаційно-геометричної складності для класифікації фазових переходів, наприклад, скалярна кривина тензора термодинамічної метрики розбігається в точці фазового переходу (і лише там).[28]
У термодинамічному контексті інформаційна матриця за Фішером безпосередньо пов'язана з темпом зміни відповідних параметрів порядку.[29] Зокрема, такі зв'язки дозволяють виявляти фазові переходи другого порядку через розбіжність окремих елементів інформаційної матриці за Фішером.
Ізопериметрична нерівність
Інформаційна матриця за Фішером відіграє роль у нерівності, подібній до ізопериметричної нерівності.[30] Серед усіх імовірнісних розподілів із заданою ентропією, той, чия інформаційна матриця за Фішером має найменший слід, є гауссовим розподілом. Це подібно до того, як серед усіх обмежених множин із заданим об'ємом найменшу площу поверхні має сфера.
Доведення містить взяття багатовимірної випадкової величини з функцією густини і додавання параметра положення для утворення сімейства густин . Тоді, за аналогією з формулою Мінковського — Штайнера(інші мови), «площа поверхні» визначається як
де — гауссова змінна з коваріаційною матрицею . Назва «площа поверхні» підходить, оскільки ентропійна потужність є об'ємом «ефективної опорної множини»,[31] тому є «похідною» від об'єму ефективної опорної множини, подібно до формули Мінковського — Штайнера. Решта доведення використовує нерівність ентропійної потужності(інші мови), яка подібна до нерівності Брунна — Мінковського(інші мови). Слід інформаційної матриці за Фішером виявляється пропорційним .
Застосування
Оптимальне планування експериментів
Інформацію за Фішером широко використовують в оптимальному плануванні експериментів. Через взаємозв'язок дисперсії оцінювача та інформації за Фішером мінімізування цієї дисперсії відповідає максимізуванню цієї інформації.
Коли лінійна (або злінеаризована(інші мови)) статистична модель містить декілька параметрів, середнє оцінювача цих параметрів є вектором, а його дисперсія — матрицею. Обернення матриці дисперсій називають «інформаційною матрицею» (англ."information matrix"). Оскільки дисперсія оцінювача вектору параметрів — матриця, задача «мінімізування дисперсії» ускладнюється. За допомогою теорії статистики статистики стискають інформаційну матрицю до дійснозначних зведених статистик; як дійснозначні функції, ці «інформаційні критерії» можливо максимізувати.
Традиційно статистики оцінювали оцінювачі та плани експериментів за допомогою певної зведеної статистики коваріаційної матриці (незміщеного оцінювача), зазвичай із додатними дійсними значеннями (на кшталт визначника або сліду матриці). Робота з додатними дійсними числами має кілька переваг: якщо оцінювач одного параметра має додатну дисперсію, то дисперсія та інформація за Фішером є додатними дійсними числами; отже, вони є елементами опуклого конуса невід'ємних дійсних чисел (ненульові елементи якого мають обернені значення в цьому ж конусі).
Інформацію за Фішером використовували для знаходження меж точності нейронних кодів. У цьому випадку X зазвичай є спільними відгуками багатьох нейронів, які подають низьковимірну змінну θ (як-от параметр стимулу(інші мови)). Зокрема, досліджували роль кореляцій у шумі нейронних відгуків.[34]
Епідеміологія
Інформацію за Фішером використовували для дослідження інформативності різних джерел даних для оцінки репродукційного числаSARS-CoV-2.[35]
Виведення фізичних законів
Інформація за Фішером відіграє центральну роль у суперечливому принципі, висунутому Фріденом(інші мови) як основа фізичних законів, що є предметом дискусій.[36]
Тепер розгляньмо сімейство ймовірнісних розподілів , параметрованих . Тоді розходження Кульбака — Лейблера між двома розподілами в цьому сімействі можливо записати як
Якщо параметр незмінний, то відносна ентропія між двома розподілами з того ж сімейства мінімізується при . Для значень , близьких до , попередній вираз можна розкласти в ряд до другого порядку:
Але другу похідну можливо записати як
Тож інформація за Фішером подає кривину відносної ентропії умовного розподілу відносно його параметрів.
Історія
Інформацію за Фішером обговорювали кілька ранніх статистиків, зокрема Ф. І. Еджворт.[41] Наприклад, Севідж[42] пише: «У ній [інформації за Фішером] його [Фішера] певною мірою передбачили (Еджворт 1908–9, особливо стор. 502, 507–8, 662, 677–8, 82–5 і посилання, які він [Еджворт] наводить, включно з Пірсоном і Філоном 1898 [. . .])». Існує кілька ранніх історичних джерел[43] і кілька оглядів цієї ранньої роботи.[44][45][46]
↑Robert, Christian (2007). Noninformative prior distributions. The Bayesian Choice(англ.) (вид. 2nd). Springer. с. 127—141. ISBN978-0-387-71598-8.
↑Le Cam, Lucien (1986). Asymptotic Methods in Statistical Decision Theory(англ.). New York: Springer. с. 618—621. ISBN0-387-96307-3.
↑Kass, Robert E.; Tierney, Luke; Kadane, Joseph B. (1990). The Validity of Posterior Expansions Based on Laplace's Method. У Geisser, S.; Hodges, J. S.; Press, S. J.; Zellner, A. (ред.). Bayesian and Likelihood Methods in Statistics and Econometrics(англ.). Elsevier. с. 473—488. ISBN0-444-88376-2.
↑Spall, J. C. (2005). Monte Carlo Computation of the Fisher Information Matrix in Nonstandard Settings. Journal of Computational and Graphical Statistics(англ.). 14 (4): 889—909. doi:10.1198/106186005X78800. S2CID16090098.
↑Spall, J. C. (2008), "Improved Methods for Monte Carlo Estimation of the Fisher Information Matrix," Proceedings of the American Control Conference(англ.), Seattle, WA, 11–13 June 2008, pp. 2395–2400. https://doi.org/10.1109/ACC.2008.4586850
↑Das, S.; Spall, J. C.; Ghanem, R. (2010). Efficient Monte Carlo Computation of Fisher Information Matrix Using Prior Information. Computational Statistics and Data Analysis(англ.). 54 (2): 272—289. doi:10.1016/j.csda.2009.09.018.
↑Barndorff-Nielsen, O. E.; Cox, D. R. (1994). Inference and Asymptotics(англ.). Chapman & Hall. ISBN9780412494406.
↑Cox, D. R.; Reid, N. (1987). Parameter orthogonality and approximate conditional inference (with discussion). J. Royal Statistical Soc. B(англ.). 49: 1—39. doi:10.1111/j.2517-6161.1987.tb01422.x.
↑Malagò, Luigi; Pistone, Giovanni (2015). Information Geometry of the Gaussian Distribution in View of Stochastic Optimization. Proceedings of the 2015 ACM Conference on Foundations of Genetic Algorithms XIII(англ.). с. 150—162. doi:10.1145/2725494.2725510. ISBN9781450334341. S2CID693896.
↑Mardia, K. V.; Marshall, R. J. (1984). Maximum likelihood estimation of models for residual covariance in spatial regression. Biometrika(інші мови)(англ.). 71 (1): 135—46. doi:10.1093/biomet/71.1.135.
↑Pukelsheim, Friedrich (1993). Optimal Design of Experiments(англ.). New York: Wiley. ISBN978-0-471-61971-0.
↑Bernardo, Jose M.; Smith, Adrian F. M. (1994). Bayesian Theory(англ.). New York: John Wiley & Sons. ISBN978-0-471-92416-6.
↑Abbott, Larry F.; Dayan, Peter (1999). The effect of correlated variability on the accuracy of a population code. Neural Computation(англ.). 11 (1): 91—101. doi:10.1162/089976699300016827. PMID9950724. S2CID2958438.
↑Martens, James (August 2020). New Insights and Perspectives on the Natural Gradient Method. Journal of Machine Learning Research(англ.) (21). arXiv:1412.1193.
↑da Fonseca, Maria; Samengo, In´es (1 грудня 2016). Derivation of human chromatic discrimination ability from an information-theoretical notion of distance in color space. Neural Computation(англ.). 28 (12): 2628—2655. arXiv:1611.07272. doi:10.1162/NECO_a_00903.
Cramér, Harald (1946). Mathematical methods of statistics. Princeton mathematical series (англ.). Princeton: Princeton University Press. ISBN0691080046.