Доверительные интервалы для вероятностей

                                            Доверительные интервалы для вероятностей

                                                                                                                                                        В прикладной статистике часто требуется оценить неизвестную вероятность события по данным выборки. Например, какова истинная доля дефектных изделий на линии, если мы проверили n деталей и обнаружили x дефектов? Точечная оценка — это наблюдаемая доля успехов p̂ = x/n. Но одна цифра не показывает, насколько мы уверены в результате. Для этого строят доверительный интервал для вероятности (для доли) — диапазон значений, в котором, при заданном уровне доверия, с высокой частотой будет лежать истинный параметр p при повторении эксперимента. Правильно построенный интервал даёт баланс между точностью и надежностью вывода, а его длина отражает информационную насыщенность выборки.
Формально, мы рассматриваем серию независимых испытаний Бернулли с одинаковой вероятностью успеха p: каждое наблюдение принимает значение 1 (успех) или 0 (неуспех). Сумма успехов X за n испытаний имеет биномиальное распределение. Точечная оценка p — это p̂ = X/n. Для больших n центральная предельная теорема подсказывает, что p̂ приблизительно нормально распределена вокруг p со стандартной ошибкой SE ≈ sqrt(p(1 − p)/n). Это даёт базовую идею интервалов, но в практической статистике существуют разные методы, которые по-разному учитывают конечные выборки, крайние доли (близкие к 0 или 1) и целевой уровень доверия (например, 95%). Ниже — обзор ключевых подходов и пошаговые инструкции, как строить доверительные интервалы для вероятности события.
Классический и самый известный подход — это интервал Вальда. Он строится как p̂ ± z * sqrt(p̂(1 − p̂)/n), где z — квантиль стандартного нормального распределения, соответствующий уровню доверия (для 95% берут z ≈ 1.96). Алгоритм прост: оцениваем долю p̂, вычисляем стандартную ошибку SE = sqrt(p̂(1 − p̂)/n), умножаем на критическое значение z и добавляем/вычитаем к p̂. Пример: пусть n = 200, x = 47, тогда p̂ = 0.235. Стандартная ошибка SE ≈ sqrt(0.235 * 0.765 / 200) ≈ 0.03. При уровне 95% погрешность составит 1.96 * 0.03 ≈ 0.059, следовательно интервал равен приблизительно [0.176; 0.294]. Плюс метода — прозрачность и простота вычислений; минус — он может работать неудовлетворительно при малых n и при p̂, близкой к 0 или 1, давая недостаточное покрытие или выходя за пределы [0, 1].
Чтобы улучшить поведение для конечных выборок, используют интервал Уилсона. Он корректирует центр и ширину интервала, учитывая «дополнительную информацию» через z^2/n. Формулы сохраняют доступность для ручного счёта, но дают более стабильное покрытие. Интервал Уилсона равен: нижняя и верхняя границы — это (p̂ + z^2/(2n) ± z * sqrt( p̂(1 − p̂)/n + z^2/(4n^2) )) / (1 + z^2/n). В нашем примере (n = 200, x = 47, z = 1.96) получаем центр (p̂ + z^2/(2n)) / (1 + z^2/n) ≈ 0.24, а полуширину около 0.058, что даёт границы примерно [0.182; 0.298]. Этот интервал часто чуть «сдвинут» к 0.5 и реже выходит за диапазон [0, 1]. На практике Уилсон рекомендуется как надёжная замена Вальда по умолчанию, особенно при умеренных n и долях, отличных от 0.5.
Близок по идее к Уилсону интервал Агрэсти—Кулла (Agresti–Coull). Он вводит «псевдонаблюдения»: добавляет z^2 к размеру выборки и z^2/2 к числу успехов, после чего строит обычный нормальный интервал для новой доли p̃. Вычислительно: ñ = n + z^2, x̃ = x + z^2/2, p̃ = x̃ / ñ, далее интервал равен p̃ ± z * sqrt(p̃(1 − p̃)/ñ). Для n = 200, x = 47, z = 1.96 получаем очень близкий к Уилсону результат — границы около [0.182; 0.299]. Преимущество — простота и улучшенное покрытие по сравнению с Вальдом; метод пригоден для «быстрых» расчётов в полевых условиях.
Когда важно строгое частотное покрытие, применяют так называемый «точный» интервал Клоппера—Пирсона. Он строится, исходя из биномиального распределения, через квантиль бета-распределения: нижняя граница — это обратная бета-функция уровня α/2 с параметрами (x, n − x + 1), верхняя — уровня 1 − α/2 с параметрами (x + 1, n − x). Такой интервал гарантированно не занижает уровень доверия, но часто оказывается консервативным (то есть излишне широким). Ручной расчёт громоздок, однако он легко реализуется в статистическом ПО: в R — binom.test(x, n, conf.level), в Python (SciPy/Statsmodels) — proportion_confint(method="beta"), в таблицах — через функцию обратного бета-распределения (в английской локали Excel — BETAINV/ BETA.INV; в Google Sheets — BETA.INV). Для задач с крайними наблюдениями (x = 0 или x = n) метод Клоппера—Пирсона особенно полезен, поскольку корректно даёт ненулевые диапазоны, в отличие от «ломающегося» интервала Вальда.
Есть также байесовский подход, популярный в использовании для долей: берут неинформативное априорное распределение Джеффриза Beta(0.5, 0.5), после наблюдения x из n успехов получают апостериорное Beta(x + 0.5, n − x + 0.5) и строят центральный 1 − α доверительный (точнее, правдоподобный) интервал по квантилям бета-распределения. Такой интервал Джеффриза часто имеет хорошую частотную калибровку и аккуратно ведёт себя при малых n и крайних долях. Хотя формально это «доверительный» интервал в байесовском смысле (credible interval), на практике он конкурирует с Уилсоном и Клоппером—Пирсоном по качеству.
Чтобы уверенно строить доверительные интервалы для вероятностей, придерживайтесь понятного алгоритма.

  Сформулируйте модель: независимые испытания при постоянной вероятности успеха p (проверьте, не нарушается ли независимость и однородность).
  Подсчитайте x (число успехов) и n (общее число испытаний), найдите точечную оценку p̂ = x/n.
  Выберите метод интервала: Вальд (быстро, но осторожно), Уилсон (рекомендуется по умолчанию), Агрэсти—Кулл (простой и устойчивый), Клоппер—Пирсон (строгий, но шире), Джеффриз (байесовская альтернатива).
  Выберите уровень доверия, обычно 95% (α = 0.05) или 99% (α = 0.01). Чем выше уровень, тем шире интервал.
  Вычислите интервал по выбранной формуле, при необходимости используйте программные функции: NORM.S.INV для z-квантилей; BETA.INV для бета-квантилей; в R — prop.test (Уилсон по Йейтсу) и binom.test; в Python — statsmodels.stats.proportion.proportion_confint.
  Проверьте, что границы лежат в [0; 1], и корректно округлите результат до разумного числа знаков (обычно 3–4 знака после запятой).

Важно правильно понимать интерпретацию доверительного интервала. Если вы построили 95%-й интервал, это означает: при бесконечном повторении эксперимента и применения той же процедуры построения интервала 95% таких интервалов накроют истинную p. Это не означает, что «вероятность того, что p лежит в нашем конкретном интервале, равна 95%» — в частотной трактовке p фиксирована, а случайным является интервал. Если требуется буквальная «вероятность» попадания параметра в интервал, используют байесовскую трактовку и апостериорный интервал правдоподобия (credible interval), где вероятности относятся к p условно на данных и априори.
Какие ошибки встречаются чаще всего?

  Использование Вальда при малых n или при p̂ около 0 или 1. В таких условиях нормальная аппроксимация работает плохо: интервал может выходить за пределы [0, 1] или занижать фактическое покрытие. Предпочтительно применять Уилсона, Агрэсти—Кулла или «точный» метод.
  Игнорирование зависимостей в данных. Если испытания не независимы (например, кластеризация, повторные измерения одного объекта), формулы биномиальной модели не валидны, а истинная дисперсия доли больше. Потребуются модели с учётом коррелированности.
  Неверное чтение уровня доверия. 99%-й интервал шире 95%-го; это не «лучший» интервал, а более консервативный. Уровень выбирают, исходя из задач: риск, регуляторные требования, цена ошибки.
  Нулевая дисперсия при x = 0 или x = n для Вальда. В этом случае стандартная ошибка по p̂ равна нулю, и интервал вырождается — это явный сигнал применить другой метод (Уилсон, Клоппер—Пирсон, Джеффриз).
  Забывают о поправках на множественные сравнения. Если одновременно строят десятки интервалов, индивидуальный уровень 95% уже не гарантирует совместного охвата; используют корректировки (например, Бонферрони) или процедуры контроля FDR.

Прежде чем собирать данные, полезно оценить необходимый объём выборки, чтобы интервал был достаточно узким. Приблизительная формула для планирования, основанная на нормальной аппроксимации: n ≈ z^2 * p*(1 − p*) / m^2, где p* — ожидаемая доля (если неизвестна, берут «наихудший» случай 0.5), m — желаемая половина длины интервала (максимальная погрешность). Пример: хотим 95%-й интервал с полушириной не более 0.03 при неизвестной доле. Берём p* = 0.5, z = 1.96: n ≈ (1.96^2 * 0.25) / 0.03^2 ≈ 1067. Значит, нужно проверить около 1068 наблюдений. Если мы уверены, что p невелика (скажем, около 0.1), то n снизится: n ≈ (1.96^2 * 0.1 * 0.9) / 0.03^2 ≈ 384. Однако при редких событиях и небольших x лучше планировать запас и использовать методы Уилсона или Клоппера—Пирсона.
Иногда требуется односторонний доверительный интервал — например, нижняя граница для надёжности: p ≥ L при уровне 95%. В нормальной аппроксимации используют квантиль z на уровне 0.95 (около 1.645) и строят L = p̂ − z * SE (с обрезкой снизу не менее 0). В точных методах берут соответствующие односторонние квантили бета-распределения. Односторонние интервалы уместны, когда нас интересует только гарантия снизу или сверху, а не симметричный диапазон. Пример: при проверке безопасности важнее убедиться, что вероятность отказа не превышает порога.
Есть и дополнительные техники. Коррекция непрерывности (Йейтса) в некоторых реализациях (например, prop.test в R по умолчанию) слегка расширяет интервал при нормальной аппроксимации, улучшая покрытие при умеренных n. Интервалы Анскомба основаны на арксинус-преобразовании доли и дают неплохую устойчивость, хотя используются реже. Бутстреп-интервалы для доли построены через повторное ресэмплирование данных с восстановлением; для биномиальной доли они часто уступают Уилсону/Клопперу—Пирсону по предсказуемости покрытия, но полезны как универсальный инструмент в сложных моделях.
Для повседневной практики уместно держать под рукой несколько готовых рецептов.

  Если n достаточно велико (например, > 40) и p̂ не слишком близка к 0 или 1, берите интервал Уилсона — он прост и хорошо калиброван.
  Если x очень мал или очень велик (x = 0, 1, 2 или x = n − 1, n), используйте Клоппера—Пирсона или Джеффриза — Вальд может ошибочно сузить интервал до абсурда.
  Для быстрых прикидок «на коленке» используйте Агрэсти—Кулла: добавьте z^2/2 успехов и z^2 наблюдений, а затем постройте нормальный интервал по p̃.
  При отчётности указывайте метод, уровень доверия, исходные данные (x и n) и итоговый интервал с аккуратным округлением.

Рассмотрим ещё один наглядный пример. Пусть в клиническом пилотном исследовании из n = 50 пациентов положительный эффект наблюдается у x = 9. Точечная оценка p̂ = 0.18. Интервал Вальда даст примерно 0.18 ± 1.96 * sqrt(0.18 * 0.82 / 50) ≈ 0.18 ± 0.106 = [0.074; 0.286]. Интервал Уилсона будет немного смещён и осторожно чуть шире снизу/сверху; по формулам получим примерно [0.099; 0.307]. «Точный» интервал Клоппера—Пирсона окажется близок к [0.089; 0.305] (зависит от программной реализации и округления). Разница невелика, но при принятии решений (например, о масштабировании исследования) такой запас надёжности важен.
И наконец, несколько практических замечаний для качественного анализа. Не забывайте проверять предпосылки биномиальной модели (одинаковость вероятностей, независимость наблюдений). При наличии сезонности, смены условий испытаний или кластеризации долей (например, разные партии продукции) лучше строить интервалы стратифицированно или с использованием обобщённых линейных моделей. Если требуется сравнить две вероятности (разность долей), применяйте методы для разности пропорций: нормальная аппроксимация с осторожностью, улучшенный Уилсон с Ньюкомбом, точные тесты Фишера для проверки гипотез и соответствующие интервалы. Для редких событий имеет смысл рассмотреть пуассоновские аппроксимации и соответствующие интервалы для интенсивности.
Итоговая рекомендация для учебной и прикладной практики проста: используйте интервалы Уилсона или Агрэсти—Кулла как надёжный стандарт, переходите к Клопперу—Пирсону и Джеффризу при малых выборках и крайних долях, тщательно планируйте размер выборки по желаемой точности, а интерпретацию формулируйте в частотной логике. Такой подход делает оценивание вероятностей воспроизводимым, прозрачным и устойчивым к типичным ловушкам.

Портал edu4cash: Что это и как работает?.

Как быстро получить ответ от ИИ.

Как задонатить в Roblox в России в 2024 году.

Обновления на edu4cash – новые награды, улучшенная модерация и эксклюзивные возможности для VIP!.

Похожие темы

Доверительные интервалы для вероятностей

Вопросы