Систематическая ошибка отбора

Систематическая ошибка отбора — статистическое понятие, показывающее, что выводы, сделанные применительно к какой-либо группе, могут оказаться неточными вследствие неправильного отбора в эту группу.


  • 1 Ошибки отбора результатов
  • 2 Типы систематических ошибок
    • 2.1 Пространство
    • 2.2 Данные
    • 2.3 Участники
  • 3 Устранение систематической ошибки
  • 4 См. также

Ошибки отбора результатов

Могут включать предварительный или последующий отбор с превалированием или исключением некоторых видов. Это может быть, конечно, разновидностью научного мошенничества, манипуляцией данными, но гораздо чаще является добровольным заблуждением, например, вследствие использования неподходящего инструмента.

Например, в эпоху использования плёнки для фотографирования неба независимый наблюдатель определённо пришёл бы к выводу, что количество голубых галактик явно больше, чем количество красных. Не потому, что голубые галактики более распространены, но лишь вследствие того, что большинство плёнок более чувствительны к голубой части спектра. Тот же независимый наблюдатель сделал бы прямо противоположный вывод сейчас, в эпоху цифровой фотографии, потому что матрицы цифровых фотоаппаратов более чувствительны к красной части спектра.

Типы систематических ошибок

Существует большое количество возможных систематических ошибок, основные типы:


  • Выбор первой и последней точки в серии. К примеру, для того, чтобы максимизировать заявленный тренд, можно начать серию с года с необычно низкими показателями и закончить годом с самыми высокими показателями.
  • «Своевременное» окончание, то есть тогда, когда результаты укладываются в желаемую теорию.
  • Отделение части данных на основе знаний обо всей выборке и затем применение математического аппарата к этой части как к слепой (случайной) выборке. См. Районированная выборка, en:cluster sampling, Ошибка меткого стрелка.
  • Изучение процесса на интервале (во времени или пространстве) длиной заведомо меньшей, чем требуется для полного представления о явлении.


  • Вычёркивание неких «плохих» данных в соответствии с правилами, хотя бы эти правила и шли вразрез с предварительно объявленными правилами для этой выборки.


  • Предварительный отбор участников, или, к примеру, размещение объявления о наборе добровольцев для участия в испытаниях среди определённой группы людей. К примеру, для доказательства, что курение никак не вредит результатам фитнеса, можно разместить в местном фитнесцентре объявление для набора добровольцев, но курящих набирать в мастерклассе, а некурящих среди начинающих или в секции желающих сбросить вес.
  • Выбрасывание из выборки участников, не дошедших до конца теста. В программе похудения мы рассматриваем подробные графики сброса веса как доказательство правильности методики, но в эти графики не включены не дошедшие до конца участники, посчитавшие, что на них эта методика не работает (так называемая систематическая ошибка выжившего).
  • Систематическая ошибка самоотбора. То есть группа людей для изучения формируется частично по собственной воле, так как не все опрошенные пожелают участвовать в тесте.

Устранение систематической ошибки

В общем случае невозможно выделить систематическую ошибку выборки только на основе статистических методов, хотя, как показано в работе нобелевского лауреата Джеймса Хекмана (англ. James Heckman), в некоторых специальных случаях существуют работающие стратегии.

Известной является фраза — рассказы об уме и доброте дельфинов основаны на рассказах уставших пловцов, которых они толкали к берегу, но мы лишены возможности услышать рассказ тех, кого они толкали в другую сторону.

См. также

  • Парадокс Берксона
  • Проверка статистических гипотез
  • Систематическая ошибка выжившего

Систематическая ошибка выжившего (англ. survivorship bias) — разновидность систематической ошибки отбора, когда по одной группе («выжившим») есть много данных, а по другой («погибшим») — практически нет. Так что исследователи пытаются искать общие черты среди «выживших» и упускают из вида, что не менее важная информация скрывается среди «погибших».

Во Вторую мировую войну венгерскому математику Абрахаму Вальду, работавшему в нью-йоркской лаборатории SRG, поручили найти решение важной задачи. Не все американские бомбардировщики возвращались на базу. А на тех, что возвращались, оставалось множество пробоин от зениток и истребителей, но распределены они были неравномерно: больше всего на фюзеляже и прочих частях, меньше в топливной системе и намного меньше — в двигателе. Значило ли это, что в пробитых местах нужно больше брони? Вальд ответил: нет, исследование как раз показывает, что самолёт, получивший пробоины в данных местах, ещё может вернуться на базу. Самолёт, которому попали в двигатель или бензобак, выходит из строя и не возвращается. Поскольку попадания от вражеского огня на самом деле (в первом приближении) распределены равномерно, укреплять надо те места, которые у вернувшихся в массе наиболее «чистые».

Также известно расхожее мнение о доброте дельфинов, основанное на рассказах пловцов, которых животные толкали к берегу, но нет данных от тех, кого толкали в обратном направлении

Сегодня практически все популярные онлайн-СМИ наполнены систематическими ошибками выжившего. Заголовки вроде «8 вещей, которые успешные люди делают каждый день», «Лучшие советы, которые когда-либо получал Ричард Брэнсон» или «Как Леброн Джеймс тренируется в межсезонье» — это систематические ошибки выжившего в действии.

Систематические ошибки выжившего относятся к нашей склонности фокусироваться на победителях в какой-либо отдельной области и учиться у них, совершенно забывая при этом о проигравших, которые использовали ту же стратегию.

Существуют тысячи спортсменов, которые тренируются так же, как Леброн Джеймс, однако они не смогли попасть в НБА. Проблема заключается в том, что никто не слышал о тех тысячах спортсменов, которые не смогли добраться до вершины. Мы слышим только о людях, которые «выжили». Мы ошибочно переоцениваем стратегии, тактики и советы одного «выжившего», игнорируя тот факт, что они не работают для большинства людей.

Другой пример: «Ричард Брэнсон, Билл Гейтс и Марк Цукерберг бросили школу и стали миллиардерами! Вам не нужна школа, чтобы добиться успеха. Предпринимателям просто нужно перестать тратить время на учёбу и заняться делом».

На каждого Брэнсона, Гейтса и Цукерберга надеется по несколько тысяч других предпринимателей, которые потерпели крах, залезли в долги и остались с незаконченным образованием. Систематические ошибки выжившего говорят о том, что мы не знаем, как та или иная стратегия проявит себя конкретно в нашем случае.

Поскольку о победителях часто вспоминают, а о проигравших вообще забывают, становится очень сложно определить, приведёт ли к успеху та или иная стратегия либо нет.

Когда исследователи рассматривают вопросы, представляющие интерес для аналитиков или портфельных менеджеров, они могут исключить из анализа определенные акции, облигации, портфели, или периоды времени, по разным причинам — возможно, из-за недоступности данных.

Когда недоступность данных приводит к исключению из анализа определенных активов, мы называем эту проблему систематической ошибкой или смещением выборки (англ. ‘sample selection bias’ или ‘sampling bias’).

Например, вы можете сделать выборку из базы данных, которая отслеживает только компании, существующие в настоящее время. Например, многие базы данных взаимных фондов предоставляют историческую информацию только о тех фондах, которые существуют в настоящее время.

Базы данных, в которых хранятся балансовые отчеты и отчеты о прибылях и убытках страдают от той же систематической ошибки, что и базы данных фондов: в них нет фондов или компаний, которые прекратили деятельность.

Исследование, которое использует подобные базы данных, подвержено разновидности систематической ошибки выборки, известной как систематическая ошибка выжившего (англ. ‘survivorship bias’).

Исследователи Димсон, Марш и Стонтон (Dimson, Marsh, and Staunton, 2002) подняли вопрос о систематической ошибке выжившего в международных финансовых индексах:

Известной проблемой является влияние выживания рынков на долгосрочную оценку доходности. Рынки могут испытывать не только разочаровывающие результаты, но и полную потерю стоимости за счет конфискации, гиперинфляции, национализации и кризисов.

При оценке результатов рынков, которые выживают в течение длительных интервалов времени, мы сделали выводы о том, чем обусловлено выживание. Тем не менее, как отметили в исследовании Браун, Готцман и Росс (Brown, Goetzmann, и Ross) в 1995 г. и Готцман и Джорион (Goetzmann and Jorion) в 1999 г., человек не способен заранее определить, какие рынки выживут, а какие нет. (стр. 41)

Систематическая ошибка выжившего иногда появляется, когда мы используем совместно цены акций и данные бухгалтерского учета.

Например, многие исследования в области финансов использовали соотношение рыночной стоимости компании к бухгалтерской стоимости компании на одну акцию (т.е. коэффициент котировки акций, англ. P/B, от ‘price-to-book ratio’ или ‘market-to-book ratio’) и обнаружили, что коэффициент P/B обратно пропорционален доходности компании (см. Fama and French 1992, 1993).

Коэффициент P/B также используется для многих популярных индексов стоимости и роста.

Если база данных, которую мы используем для сбора данных бухгалтерского учета, исключает обанкротившиеся компании, это может привести к систематической ошибке выжившего.

Котхари, Шанкен и Слоун (Kothari, Shanken, and Sloan) в 1995 г. исследовали именно этот вопрос, и оспорили то, что акциям обанкротившихся компаний свойственна самая низкая доходность и коэффициент P/B.

Если мы исключаем из выборки акции обанкротившихся компаний, то акции с низким P/B, которые включены в выборку, будут иметь в среднем более высокую доходность, по сравнению со средней доходностью при включении в выборку всех акций с низким P/B. Котхари, Шанкен и Слоун предположили, что эта систематическая ошибка привела к выводу об обратной связи между средней доходностью и P/B.

См. Fama and French (1996, стр. 80) о интеллектуальном анализе данных и систематической ошибке выжившего в их тестах.

Единственный совет, который мы можем предложить в этой ситуации, — это быть в курсе каких-либо смещений, потенциально присущих в выборке. Очевидно, что смещения выборки могут затуманить результаты любого исследования.

Выборка также может быть смещена из-за удаления (или делистинга) акций компании.

Делистинг (англ. ‘delisting’), т.е. исключение акций компании из котировального списка биржи, может происходить по разным причинам: слияние, банкротство, ликвидация, или переход на другую биржу.

Например, Центр исследований котировок ценных бумаг (CRSP, от англ. Center for Research in Security Prices) в Университете Чикаго является основным поставщиком данных о доходности, используемых в научных исследованиях. Когда происходит делистинг, CRSP пытается собрать данные о доходности исключенной компании, но во многих случаях он не может сделать этого из-за связанных с делистингом трудностях. CRSP вынужден просто указать значение доходности исключенной компании как отсутствующее.

Исследование, опубликованное в Финансовом журнале (см. The Journal of Finance) Шумвеем и Вортером (Shumway and Warther) в 1999 году, задокументировало смещение данных доходности NASDAQ в CRSP, вызванное делистингом.

Авторы показали, что делистинг, связанный с плохой работой компании (например, банкротством) исключается из данных чаще, чем делистинг, связанный с хорошей или нейтральной эффективностью компании (например, слиянием или перемещением на другой рынок). Кроме того, делистинг чаще происходит с небольшими компаниями.

Систематическая ошибка выборки встречается даже на рынках, где качество и согласованность данных весьма высоки. Новые классы активов, такие как хедж-фонды могут представлять еще большие проблемы смещения выборки.

Хедж-фонды (англ. ‘hedge funds’) представляют собой гетерогенную группу инвестиционных инструментов, как правило, организованных таким образом, чтобы быть свободными от регулирующего контроля. В целом, хедж-фонды не обязаны публично раскрывать свою эффективность (в отличие, скажем, от взаимных фондов). Хедж-фонды сами решают, нужно ли им включаться в какую-либо базу данных хедж-фондов.

Хедж фонды с плохой репутацией явно не желают, чтобы их результаты публиковались в базе данных, создавая проблему смещения самовыборки (англ. ‘self-selection bias’) в базах данных хедж-фондов.

Кроме того, как отметили Фанг и Хсие (Fung and Hsieh) в исследовании 2002 г., поскольку только хедж-фонды с хорошими показателями добровольно попадают в базу данных, в целом, историческая эффективность отрасли хедж-фондов имеет тенденцию казаться лучше, чем она есть на самом деле.

Кроме того, многие базы данных хедж-фондов исключают фонды, которые выходят из бизнеса, создавая в базе данных систематическую ошибку выжившего. Даже если база данных не удаляет несуществующие хедж-фонды, в попытке устранить ошибку выжившего, остается проблема хедж-фондов, которые перестают отчитываться об эффективности из-за плохих результатов.

См. Fung and Hsieh (2002) и Horst and Verbeek (2007) для более подробной информации о проблемах интерпретации эффективности хедж-фондов.

Обратите внимание, что систематическая ошибка также возможна, когда успешные фонды перестают отчитываться об эффективности, поскольку они больше не нуждаются в новых потоках денежных средств.

Систематическая ошибка опережения.

Процесс тестирования также подвержен систематической ошибке опережения (англ. ‘look-ahead bias’), если он использует информацию, которая не была доступна на момент тестирования.

Например, тесты правил биржевой торговли, которые используют ставки доходности фондового рынка и данные бухгалтерских балансов должны учитывать систематическую ошибку опережения.

В таких тестах, балансовая стоимость компании на акцию обычно используются для расчета коэффициента P/B.

Хотя рыночная цена акции доступна для всех участников рынка на заданный момент времени, балансовая стоимость на акцию на конец финансового года может стать общедоступной только в будущем — когда-то в следующем квартале.

Систематическая ошибка временного периода.

Тесты также подвержены систематической ошибке или смещению временного периода (англ. ‘time-period bias’), если они основаны на временном периоде, для которого результаты тестирования будут специфичными (т.е., характерными только для данного периода).

Ряды коротких временных периодов, скорее всего, дадут результаты, специфичные для определенного периода, которые могут не отражать более длительный период.

Ряды длительных временных периодов могут дать более точную картину истинной эффективности инвестиций. Недостаток длительных периодов заключается в потенциальных структурных изменениях, происходящих в течение периода, что приведет к двум различным распределениям доходности.

В этой ситуации, распределение, отражающее условия до изменений, будет отличаться от распределения, которые описывают условия после изменений.

Пример (7) систематических ошибок в инвестиционных исследованиях.

Финансовый аналитик рассматривает эмпирические данные об исторической доходности акций США.

Она выясняет, что недооцененные акции (то есть, акции с низким P/B) превзошли по эффективности растущие акции (то есть, акции с высоким P/B) в некоторых последних периодах времени.

После изучения американского рынка, аналитик задается вопросом, могут ли недооцененные акции быть привлекательными в Великобритании. Она исследует эффективность недооцененных и растущих акций на британском рынке за 14-летний период с января 2000 года по декабрь 2013 года.

Для проведения этого исследования, аналитик делает следующее:

  • Получает текущий состав компаний Индекса всех акций FTSE (Financial Times Stock Exchange All Share Index), который является взвешенным индексом рыночной капитализации;
  • Исключает несколько компаний, у которых финансовый год не заканчивается в декабре;
  • Использует балансовую и рыночную стоимость компаний на конец года, чтобы ранжировать остальные пространство компаний по коэффициенту P/B на конец года;
  • На основе этих рейтингов, она делит пространство ценных бумаг на 10 портфелей, каждый из которых содержит одинаковое количество акций;
  • Вычисляет равновзвешенную доходность каждого портфеля и доходность FTSE All Share Index за 12 месяцев после даты расчета каждого рейтинга; а также
  • Вычитает доходность FTSE из доходности каждого портфеля, чтобы получить избыточную доходность для каждого портфеля.

Опишите и обсудите каждую из следующих систематических ошибок, которым подвержен план исследований аналитика:

  • систематическую ошибку выжившего;
  • систематическую ошибку опережения; а также
  • систематическую ошибку временного периода.

Систематическая ошибка выжившего.

План тестирования подвержен систематической ошибке выжившего, если он не принимает в расчет обанкротившиеся компании, слившиеся компании, а также компании, иным образом покинувшие базу.

В этом примере, аналитик использовала текущий список акций FTSE, а не фактический список акций на начало каждого года. В той степени, в которой расчет доходности не учитывает компании, исключенные из индекса, эффективность портфелей с наименьшим P/B подвершена систематической ошибке выжившего и, соответственно, может быть завышена.

В какой-то момент периода тестирования, эти ныне не существующие компании, были исключены из тестирования. У них, вероятно, были низкие цены на акции (и низкий P/ B) и плохая доходность.

Систематическая ошибка опережения.

План тестирования подвержен систематической ошибке опережения, если он использует информацию, недоступную на момент тестирования.

В этом примере, аналитик провела тест, сделав допущение о том, что необходимая бухгалтерская информация была доступна в конце финансового года.

Например, аналитик предположила, что балансовая стоимость на акцию за 2 000 финансовый года был известна на 31 декабря 2000 года. Поскольку эта информация, как правило, не публикуется в течение нескольких месяцев после завершения финансового года, тест, возможно, содержал систематическую ошибку опережения.

Эта ошибка может привести к стратегии, которая окажется успешной, но при этом потребуется идеальная способность прогнозировать бухгалтерские результаты.

Систематическая ошибка временного периода.

План тестирования подвержен систематической ошибке временного периода, если он основан на периоде, для которого результаты будут специфичны.

Хотя тестирование охватывает период более 10 лет, этот период может оказаться слишком коротким для тестирования аномалии.

В идеале, аналитик должна протестировать рыночные аномалии в течение нескольких бизнес-циклов, чтобы гарантировать, что результаты не являются специфичными для рассматриваемого периода.

Эта систематическая ошибка может способствовать предлагаемой стратегии, если выбрать временной период, благоприятный для стратегии.

Существует интересный феномен — ошибка выжившего — так называется вид систематической ошибки отбора, когда по одной подгруппе («выжившим») имеется много информации, а по другой («погибшим») — почти ничего. Поэтому исследователи некой проблемы ищут общие показатели именно среди «выживших», но игнорируют тот факт, что не менее важные данные могут быть и у «погибших».

Рассмотрим на двух примерах:

1 пример:

Во время Второй мировой войны большинство американских бомбардировщиков возвращались на базу с пробоинами, сосредоточенными на крыльях, стабилизаторах и фюзеляже.

Из этого конструкторы сделали вывод: нужно укреплять именно эти места. И поддались ошибке выжившего!

А вот математик Абрахам Вальд сделал совершенно другой вывод. Он рассуждал так: «Мы видим дырки в обшивке. А чего не видим? Правильно, самолетов, у которых были пробоины в кабине, двигателях и топливных баках.

Получается, что крылатая машина с дырками в крыльях в состоянии вернуться на базу, а вот если у самолета повреждена кабина, то этого уже не произойдет — пилот-то погиб.

Так зачем укреплять крылья, если нужно защищать кабину?»

Кстати, уже после войны в лесах и болотах нашли немало подбитых самолетов — с повреждениями именно в двигателе, топливной системе и кабинах пилота. Они никуда улететь не смогли.

Получается, что если делать выводы только исходя из данных по «выжившим самолётам», то есть по той информации которая лежит на поверхности, игнорируя возможные скрытые данные, можно прийти к неправильным выводам.

2 пример:

В тот день, когда юный Бред Питт впервые приехал в Голливуд, вместе с ним туда отправились сотни таких же амбициозных парней. Возможно, они были опытнее, умнее и красивее, чем Питт, однако, именно ему удалось добиться успеха.

Вот именно в этой истории и кроется главный парадокс. Без сомнений Питт сделал все правильно, но едва ли только он один сможет рассказать, как добиться реального успеха. Помочь в объяснении этого помогут и те, у кого ничего не вышло, так как, проанализировав их решения, мы сможем понять, на каком из этапов они могли ошибиться.

Таким образом, пытаясь сделать вывод из информации, которая у вас «на руках», обязательно задумайтесь о данных, которыми вы возможно не владеете. И в противовес аргументам книг из серии «Как я быстро разбогател и добился успеха» найдутся тысячи случаев, когда эти же шаги не помогли.

А полезная информация о том, чего НЕ надо делать, чтобы обанкротиться/проиграть, возможно как раз таки есть у людей, которые через это прошли, но потерпели неудачу — у тех самых «погибших». Только они мануалов не пишут. Ведь кому нужны фолианты от неудачников.

Что думаете об этом феномене? Знаете ещё подобные примеры?

Систематическая ошибка отбора

  • Систематическая ошибка отбора — статистическое понятие, показывающее, что выводы, сделанные применительно к какой-либо группе, могут оказаться неточными вследствие неправильного отбора в эту группу.

Связанные понятия

Шкала Ликерта, или (неверно) Лайкерта (англ. Likert scale (/ˈlɪkərt/ ), шкала суммарных оценок) — психометрическая шкала, которая часто используется в опросниках и анкетных исследованиях (разработана в 1932 году Ренсисом Ликертом). При работе со шкалой испытуемый оценивает степень своего согласия или несогласия с каждым суждением, от «полностью согласен» до «полностью не согласен». Сумма оценок каждого отдельного суждения позволяет выявить установку испытуемого по какому-либо вопросу. Предполагается…

Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.

Подробнее: Надёжность психологического теста

Тест стандартными прогрессивными матрицами Равена (Рейвена) — тест, предназначенный для дифференцировки испытуемых по уровню их интеллектуального развития. Авторы теста Джон Рейвен и Л. Пенроуз. Предложен в 1936 году. Тест Равена известен как один из наиболее «чистых» измерений фактора общего интеллекта g, выделенного Ч.Э. Спирменом. Успешность выполнения теста SPM интерпретируется как показатель способности к научению на основе обобщения собственного опыта и создания схем, позволяющих обрабатывать…

Репрезентати́вность — соответствие характеристик выборки характеристикам популяции или генеральной совокупности в целом. Репрезентативность определяет, насколько возможно обобщать результаты исследования с привлечением определённой выборки на всю генеральную совокупность, из которой она была собрана.

Слепо́й ме́тод — процедура проведения исследования реакции людей на какое-либо воздействие, заключающаяся в том, что испытуемые не посвящаются в важные детали проводимого исследования. Метод применяется для исключения субъективных факторов, которые могут повлиять на результат эксперимента.

Нулевая гипотеза — принимаемое по умолчанию предположение о том, что не существует связи между двумя наблюдаемыми событиями, феноменами. Так, нулевая гипотеза считается верной до того момента, пока нельзя доказать обратное. Опровержение нулевой гипотезы, то есть приход к заключению о том, что связь между двумя событиями, феноменами существует, — главная задача современной науки. Статистика как наука даёт чёткие условия, при наступлении которых нулевая гипотеза может быть отвергнута.

Иллюзорная корреляция (англ. illusory correlation) — когнитивное искажение преувеличенно тесной связи между переменными, которая в реальности или не существует, или значительно меньше, чем предполагается. Типичным примером могут служить приписывание группе этнического меньшинства отрицательных качеств. Иллюзорная корреляция считается одним из способов формирования стереотипов.

Автокорреляция — статистическая взаимосвязь между последовательностями величин одного ряда, взятыми со сдвигом, например, для случайного процесса — со сдвигом по времени.

Долгосрочное иссле́дование (англ. Longitudinal study от longitude — долговременный) — научный метод, применяемый, в частности, в социологии и психологии, в котором изучается одна и та же группа объектов (в психологии — людей) в течение времени, за которое эти объекты успевают существенным образом поменять какие-либо свои значимые признаки. В самом широком смысле является синонимом панельного исследования, а в более узком смысле — выборочное панельное исследование любой возрастной или образовательной…

Исследование случай-контроль (ИСК) – это тип обсервационного наблюдения, в котором две исследуемые группы, различающиеся по полученному результату, сравниваются на основе предполагаемого влияющего фактора. Исследования с контрольной группой часто используются для определения факторов, которые могут повлиять на состояние здоровья, путем сравнения участников, у которых есть заболевание («случаи») и участников, у которых оно отсутствует («контроли»).

Доверительный интервал — термин, используемый в математической статистике при интервальной оценке статистических параметров, более предпочтительной при небольшом объёме выборки, чем точечная. Доверительным называют интервал, который покрывает неизвестный параметр с заданной надёжностью.

Генеральная совокупность (от лат. generis — общий, родовой) — совокупность всех объектов (единиц), относительно которых предполагается делать выводы при изучении конкретной задачи.

Эмпирические исследования – наблюдение и исследование конкретных явлений, эксперимент, а также обобщение, классификация и описание результатов исследования эксперимента, внедрение их в практическую деятельность человека.

Выявление аномалий (также обнаружение выбросов) — это опознавание во время интеллектуального анализа данных редких данных, событий или наблюдений, которые вызывают подозрения ввиду существенного отличия от большей части данных. Обычно аномальные данные превращаются в некоторый вид проблемы, такой как мошенничество в банке, структурный дефект, медицинские проблемы или ошибки в тексте. Аномалии также упоминаются как выбросы, необычности, шум, отклонения или исключения.

Робастность (англ. robustness, от robust — «крепкий», «сильный», «твёрдый», «устойчивый») — свойство статистического метода, характеризующее независимость влияния на результат исследования различного рода выбросов, устойчивости к помехам. Выбросоустойчивый (робастный) метод — метод, направленный на выявление выбросов, снижение их влияния или исключение их из выборки.

Системати́ческая оши́бка вы́жившего (англ. survivorship bias) — разновидность систематической ошибки отбора, когда по одной группе («выжившим») есть много данных, а по другой («погибшим») — практически нет, в результате чего исследователи пытаются искать общие черты среди «выживших» и упускают из вида, что не менее важная информация скрывается среди «погибших».

Фактор общего интеллекта (англ. general factor, g factor) является распространённым, но противоречивым конструктом, используемым в психологии (см. также психометрию) для выявления общего в различных тестах интеллекта. Словосочетание «теория g» имеет дело с гипотезой и полученными из неё результатами о биологической природе g, постоянством/податливостью, уместностью его применения в реальной жизни и другими исследованиями.

В когнитивной науке под когнити́вными искаже́ниями понимаются систематические ошибки в мышлении или шаблонные отклонения, которые возникают на основе дисфункциональных убеждений, внедрённых в когнитивные схемы, и легко обнаруживаются при анализе автоматических мыслей. Существование большинства когнитивных искажений было описано учёными, а многие были доказаны в психологических экспериментах.

Подробнее: Список когнитивных искажений

Эксперимент Ричарда Лазаруса — известный эксперимент в психологии, проведенный Ричардом Лазарусом и группой исследователей для изучения влияния когнитивной оценки ситуации угрозы на формирование стрессовой реакции. На основе результатов данного исследования Ричардом Лазарусом и его коллегами была разработана теория психологического стресса, которая стоит на одном уровне значимости для науки с концепцией стресса Ганса Селье.

Испыту́емый — участник эксперимента в психологии и других отраслях науки. В психолингвистике, этот термин — в отличие от информанта — предполагает, что собирается ещё и информация о носителе языка как языковой и речевой личности. Испытуемые могут быть специально отобраны для эксперимента, либо же являться имеющимися в наличии представителями изучаемой популяции.

Коэффициент инбридинга может быть вычислен для отдельной персоны и является мерой степени редукции предков в родословии конкретной личности.

Тест Айзенка — тест коэффициента интеллекта (IQ), разработанный английским психологом Гансом Айзенком. Известно восемь различных вариантов теста Айзенка на интеллект.

Статистический вывод (англ. statistical inference), также называемый индуктивной статистикой (англ. inferential statistics, inductive statistics) — обобщение информации из выборки для получения представления о свойствах генеральной совокупности.

Гетероскедастичность (англ. heteroscedasticity) — понятие, используемое в прикладной статистике (чаще всего — в эконометрике), означающее неоднородность наблюдений, выражающуюся в неодинаковой (непостоянной) дисперсии случайной ошибки регрессионной (эконометрической) модели. Гетероскедастичность противоположна гомоскедастичности, означающей однородность наблюдений, то есть постоянство дисперсии случайных ошибок модели.

Статистический критерий — строгое математическое правило, по которому принимается или отвергается та или иная статистическая гипотеза с известным уровнем значимости. Построение критерия представляет собой выбор подходящей функции от результатов наблюдений (ряда эмпирически полученных значений признака), которая служит для выявления меры расхождения между эмпирическими значениями и гипотетическими.

Дисперсионный анализ — метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях. В отличие от t-критерия, позволяет сравнивать средние значения трёх и более групп. Разработан Р. Фишером для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of VAriance).

В психологии фиксирование установки (эффект предшествования, прайминг) (англ. priming) — это явление имплицитной памяти, при котором обработка воздействия заданного стимула определяется предшествующим действием того же самого или подобного стимула. Реакция на действие данного стимула оказывает влияние на реакцию, возникающую в ответ на последующие стимулы. Действие предшествующего стимула может осознаваться человеком, но также фиксирование установки стимула происходит и при неосознаваемом воздействии…

Причинность по Грэнджеру (англ. Granger causality) — понятие, используемое в эконометрике (анализе временных рядов), формализующее понятие причинно-следственной связи между временными рядами. Причинность по Грэнджеру является необходимым, но не достаточным условием причинно-следственной связи.

Системати́ческий обзо́р — научное исследование ряда опубликованных отдельных однородных оригинальных исследований с целью их критического анализа и оценки. Систематический обзор проводится с использованием методологии, позволяющей исключить случайные и систематические ошибки, а также для обеспечения полного отчета о всех имеющихся исследований по данной теме, включая серую литературу с целью избежания предвзятости. В систематическом обзоре используются стандартизированные методы отбора и проверки…

Метод балльных оценок — один из методов одномерного шкалирования, используемых в психологии, процедура которого заключается в построении шкал на основе балльных оценок, получаемых из суждений испытуемых. Из всех методов психологических измерений, использующих оценочные суждения человека, шкалирование, основанное на балльных оценках, является наиболее популярным в виду своей простоты. Метод распространен как в прикладных, так и в академических разделах психологии, например, при психологической оценке…

Статистика — измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения элементов выборки.

Закон Парето (принцип Парето, принцип 80/20) — эмпирическое правило, названное в честь экономиста и социолога Вильфредо Парето, в наиболее общем виде формулируется как «20 % усилий дают 80 % результата, а остальные 80 % усилий — лишь 20 % результата». Может использоваться как базовая установка в анализе факторов эффективности какой-либо деятельности и оптимизации её результатов: правильно выбрав минимум самых важных действий, можно быстро получить значительную часть от планируемого полного результата…

Фа́кторный анализ — многомерный метод, применяемый для изучения взаимосвязей между значениями переменных. Предполагается, что известные переменные зависят от меньшего количества неизвестных переменных и случайной ошибки.

В математической статистике семплирование — обобщенное название методов манипулирования начальной выборкой при известной цели моделирования, которые позволяют выполнить структурно-параметрическую идентификацию наилучшей статистической модели стационарного эргодического случайного процесса.

Алекситимия (от др.-греч. ἀ- — приставка с отрицательным значением, λέξις — слово, θυμός — чувство, буквально «без слов для чувств») — затруднения в передаче, словесном описании своего состояния.

Приня́тие жела́емого за действи́тельное — формирование убеждений и принятие решений в соответствии с тем, что является приятным человеку, вместо апелляции к имеющимся доказательствам, рациональности или реальности.

Двоичная, бинарная или дихотомическая классификация — это задача классификации элементов заданного множества в две группы (предсказание, какой из групп принадлежит каждый элемент множества) на основе правила классификации. Контекст, в котором требуется решение, имеет ли объект некоторое качественное свойство, некоторые специфичные характеристики или некоторую типичную двоичную классификацию, включает…

Независимая переменная — в эксперименте переменная, которая намеренно манипулируется или выбирается экспериментатором с целью выяснить её влияние на зависимую переменную.

Метод анкети́рования — психологический вербально-коммуникативный метод, в котором в качестве средства для сбора сведений от респондента используется специально оформленный список вопросов — анкета. В социологии анкетирование — это метод опроса, используемый для составления статических (однократное анкетирование) или динамических (при многократном анкетировании) статистических представлений о состоянии общества, общественного мнения, состояния политической, социальной и прочей напряжённости с целью…

Выброс (англ. outlier), промах — в статистике результат измерения, выделяющийся из общей выборки.

Байесовская вероятность — это интерпретация понятия вероятности, используемая в байесовской теории. Вероятность определяется как степень уверенности в истинности суждения. Для определения степени уверенности в истинности суждения при получении новой информации в байесовской теории используется теорема Байеса.

Теория обнаружения сигнала (ТОС) — современный психофизический метод, учитывающий вероятностный характер обнаружения стимула, в котором наблюдатель рассматривается как активный субъект принятия решения в ситуации неопределённости. Теория обнаружения сигнала описывает сенсорный процесс как двухступенчатый: процесс отображения физической энергии стимула в интенсивность ощущения и процесс принятия решения субъектом.

Регрессия прошлой жизни (англ. past life regression, PLR) — техника использования гипноза для обнаружения того, что практикующие эту технику считают воспоминаниями людей о прошлых жизнях или реинкарнациях. Используется в парапсихологии в связи с попытками подтвердить гипотезу существования феномена реинкарнации.

Частотное распределение — метод статистического описания данных (измеренных значений, характерных значений). Математически распределение частот является функцией, которая в первую очередь определяет для каждого показателя идеальное значение, так как эта величина обычно уже измерена. Такое распределение можно представить в виде таблицы или графика, моделируя функциональные уравнения. В описательной статистике частота распределения имеет ряд математических функций, которые используются для выравнивания…

У́мственный во́зраст — понятие в психологии, предложено Альфредом Бине и Т. Симоном в 1908 году. За основу взят уровень умственного развития человека по сравнению с этим уровнем у людей такого же возраста. То есть возраст, в котором — по среднестатистическим данным, — люди могут решить испытательные задания такого же уровня сложности. Таким образом, основное назначение понятия «умственного возраста» в психологии — характеристика интеллектуального развития личности, в основе которой лежит сравнение…

Эмпирические данные (от др.-греч. εμπειρία «опыт») — данные, полученные через органы чувств, в частности, путём наблюдения или эксперимента. В философии после Канта полученное таким образом знание принято называть апостериорным. Оно противопоставляется априорному, доопытному знанию, доступному через чисто умозрительное мышление.

Групповáя поляризáция — психологический феномен расхождения по разным полюсам мнений участников дискуссии во время принятия группового решения. Величина разброса конечных вариантов напрямую зависит от первоначальных позиций участников. То есть, чем дальше от середины находились их мнения в начале дискуссии, тем сильней будет проявляться феномен. Важно разделять «поляризацию» и «экстремизацию». Поляризация — явление, при котором решение члена группы смещается к ранее выбранному им полюсу; при экстремизации…

Подробнее: Групповая поляризация

То́чечная оце́нка в математической статистике — это число, оцениваемое на основе наблюдений, предположительно близкое к оцениваемому параметру.

Рандомизированное контролируемое испытание (рандомизированное контролируемое исследование, РКИ) — тип научного (часто медицинского) эксперимента, при котором его участники случайным образом делятся на группы, в одной из которых проводится исследуемое вмешательство, а в другой (контрольной) применяются стандартные методики или плацебо.

Тест отноше́ния правдоподо́бия (англ. likelihood ratio test, LR) — статистический тест, используемый для проверки ограничений на параметры статистических моделей, оценённых на основе выборочных данных. Является одним из трёх базовых тестов проверки ограничений наряду с тестом множителей Лагранжа и тестом Вальда.

