Правило Стёрджеса — эмпирическое правило определения оптимального количества интервалов, на которые разбивается наблюдаемый диапазон изменения случайной величины при построении гистограммы плотности её распределения. Названо по имени американского статистика Герберта Стёрджеса (Herbert Arthur Sturges, 1882—1958).
Количество интервалов определяется как:
- ,
где — общее число наблюдений величины, — логарифм по основанию 2, — обозначает целую часть числа .
Часто встречается записанным через десятичный логарифм:
- ,
Основанием для него служит оценка количества событий с разными вероятностями в схеме испытаний Бернулли длительностью в этап. Если имеются серии испытаний с 2 альтернативными исходами с постоянной вероятностью каждого, то число видов серий, где в составе имеется исходов, принимающих первое из альтернативных значений, и, соответственно, — принимающих второе, равно: (от до ), а общее число серий .
Если аппроксимировать значения наблюдаемой случайной величины результатами сложения случайно выпадающих в серии испытаний значений двух чисел и (например и ), соответствующих исходам схемы Бернулли, то каждой серии испытаний содержащей исходов с результатом и исходов с результатом будет соответствовать сумма . Количество различных значений (в рассматриваемом случае: , для пары — ) будет равно количеству последовательностей с различным числом исходов . Т.о., если ставить задачу, чтобы на каждый интервал между и приходилось в среднем не меньше одного значения суммы, а значит и не меньше одной серии испытаний, моделирующей получение случайной величины, то число этапов в серии, равное числу интервалов, на которые разбивается диапазон изменения наблюдаемых значений, должно быть не больше, чем
Распределение получившихся величин (распределение Бернулли) аппроксимируется при больших нормальным распределением согласно теореме Муавра — Лапласа, что дает основания при предположении о близости распределения исследуемой величины к нормальному и, соответственно, к аппроксимируемому им биномиальному применять оценку количества интервалов разбиения соответственно количеству ожидаемых дискретных значений для распределения Бернулли, что приводит к правилу Стёрджеса.
Литература
- Sturges H. (1926). The choice of a class-interval. J. Amer. Statist. Assoc., 21, 65-66.
Ссылки