Эндогенные переменные — это такие переменные, значения которых определяются внутри самой модели за счет взаимосвязей между уравнениями и механизмов обратной связи. Иначе говоря, они одновременно являются причиной и следствием процессов, описываемых моделью. В экономике и эконометрике термин употребляется в двух взаимосвязанных, но разных смыслах. Во-первых, в контексте систем одновременных уравнений: эндогенные переменные — это все величины, значения которых модель рассчитывает сама, противопоставляя их экзогенным переменным, задаваемым «извне». Во-вторых, в контексте одной регрессии: эндогенность — это проблема, когда один или несколько регрессоров коррелируют со случайной ошибкой, из-за чего оценки методом наименьших квадратов становятся смещенными и несостоятельными. Эти два взгляда дополняют друг друга: идея «внутреннего» определения в системе порождает на практике корреляцию регрессора с ненаблюдаемыми факторами ошибки.
Чтобы почувствовать интуицию, представьте классическую рыночную модель спроса и предложения. Цена и количество — типичные эндогенные переменные: они устанавливаются одновременно в результате пересечения спроса и предложения. Доходы потребителей, погодные условия для урожая или налоги — это экзогенные переменные, которые сдвигают кривые и, следовательно, через рыночный механизм определяют равновесную цену и объем. Если попытаться наивно оценить влияние цены на спрос обычной регрессией, мы столкнемся с эндогенностью: наблюдаемая цена реагирует на ненаблюдаемые сдвиги спроса и предложения, поэтому коррелирует с ошибкой спросового уравнения. В результате стандартный МНК (метод наименьших квадратов) «перепутает» причинность.
Важно развести понятия «зависимая» и «эндогенная» переменная. В простой регрессии зависимой называют переменную слева от уравнения — ту, которую мы объясняем. Но эндогенность — это свойство регрессора (или всей переменной в системе), состоящее в его связности с ошибкой или в том, что он определяется внутри модели. Таким образом, зависимая переменная не обязательно эндогенна в «плохом» смысле; проблема возникает, когда поясняющие факторы не независимы от ненаблюдаемой компоненты. В системной постановке зависимыми являются все уравнения, а эндогенными — всерешаемые величины: и прежняя «зависимая», и некоторые регрессоры, которые тоже рассчитываются в модели.
Откуда берется эндогенность? На практике источников несколько, и каждый порождает собственный вид смещения.
Последствия эндогенности для оценки параметров серьезны. Стандартный МНК дает смещенные и несостоятельные оценки: даже при бесконечном росте объема выборки оценка не приближается к истинному параметру. Интервальные оценки и p-значения теряют смысл: мы больше не можем доверять выводам о значимости коэффициентов. Особенно сильно страдает интерпретация причинности: коэффициент перестает измерять чистый эффект одного фактора при прочих равных. Именно поэтому распознавание и устранение эндогенности — центральная задача прикладной эконометрики, социологии, биостатистики, маркетинговых исследований.
Как диагностировать проблему? Универсального автоматического теста безупречной силы не существует, но есть набор приемов, сочетающих экономическую теорию, здравый смысл и статистические проверки.
Главные методы борьбы с эндогенностью разнообразны, выбор зависит от источника проблемы и доступных данных.
Разберем пошагово, как учитель, на классическом примере одновременности. Предположим, нас интересует влияние цены на спрос. Мы подозреваем эндогенность цены: неожиданные шоки вкусов покупателей повышают и спрос, и наблюдаемую цену, значит, цена «заражена» ошибкой спроса. Что делаем?
Еще один типичный пример — оценка влияния образования на заработок. Способности и семейный фон влияют и на накопление образования, и на зарплату, поэтому образование как регрессор эндогенно. Популярный инструмент — расстояние до ближайшего колледжа в подростковом возрасте: оно связано с вероятностью поступления (релевантность), но при аккуратном контроле не должно напрямую влиять на заработок взрослых (экзогенность). Снова применяем двухшаговый МНК, интерпретируя оценку как локальный средний причинный эффект для тех, чьи решения о учебе чувствительны к расстоянию.
Важный класс — динамическая эндогенность. Когда в модель включают лагированную зависимую переменную (например, текущие продажи зависят от прошлых продаж), возникает корреляция с индивидуальными фиксированными эффектами, а значит, с ошибкой после преобразований. Панельные GMM-подходы (Ареллано–Бонд и система Ареллано–Бовер/Блунделл–Бонд) используют лаги переменных как внутренние инструменты, формируя моментные условия. Практически важно контролировать число инструментов (не допуская их «перепроизводства»), проверять отсутствие автокорреляции второго порядка в разностях и валидность инструментов тестом Хансена. Это аккуратная техника для данных с большой панелью по индивидам и короткой по времени.
В моделях одновременных уравнений ключом является идентифицируемость: сможем ли мы выделить истинные структурные параметры из данных? Применяются эвристические условия идентификации: порядковое (число экзогенных переменных, исключенных из данного уравнения, должно быть не меньше числа эндогенных регрессоров минус один) и ранговое (более строгое, связанное с рангом матриц ограничений). На практике ход рассуждений следующий: если в уравнении спроса отсутствуют издержки (они есть только в предложении), то издержки служат инструментами, и спрос можно идентифицировать; если же никакие экзогенные факторы не «сдвигают» только одну кривую, отделить спрос от предложения нельзя.
Чтобы выработать устойчивый алгоритм распознавания и решения задач с эндогенными переменными, используйте такой план действий.
Есть и практические тонкости. Слабые инструменты (когда связь с эндогенным регрессором слабая) приводят к большим стандартным ошибкам и смещению в сторону МНК. Неправильная спецификация уравнения первого шага ухудшает идентификацию. В панелях избыток инструментов делает тест Хансена «поблажливым», и мы рискуем не заметить их несостоятельность. В дифференциях-разностях ключевое допущение параллельных трендов должно обосновываться и проверяться на предтрендах. В регрессии прерывания нужно убедиться, что нет манипулирования порогом и что ковариаты непрерывны в окрестности границы. Все это — части единой дисциплины работы с эндогенными переменными: каждый метод силен в своей зоне, но уязвим при нарушении предпосылок.
Эндогенность встречается не только в экономике. В эпидемиологии уровень контактов и распространение болезни взаимно обусловлены; в экологии численность хищников и жертв формируют динамическую систему; в управлении сложными инженерными системами входные сигналы подстраиваются под состояние объекта. Во всех этих случаях полезны те же принципы: четкое различение внутренних и внешних факторов, поиск экзогенных шоков, построение надежной идентификации и использование соответствующих методов оценивания.
Подведем итог. Эндогенные переменные — сердце любой модели с обратной связью. Они ценны, потому что отражают реальный процесс формирования величин, и опасны для оценки, потому что создают корреляцию с ненаблюдаемыми факторами. Умение отличить их от экзогенных переменных, распознать источники эндогенности (пропуск факторов, одновременность, обратная причинность, ошибки измерения, селекция) и грамотно применить инструментарий (от двухшагового МНК и тестов Хаусмана до панельного GMM, дифференций-разностей и квазиидентификации) — ключ к корректным причинным выводам. Стройте модель от идеи к данным, проверяйте допущения, комбинируйте несколько источников идентификации и не забывайте о здравом смысле — тогда работа с эндогенными переменными станет не источником ошибок, а инструментом глубокого понимания исследуемых процессов.