Систематическая ошибка отбора

статистическое понятие, показывающее, что выводы, сделанные применительно к какой либо группе, могут оказаться неточными вследствие неправильного отбора в эту группу. Содержание 1 Ошибки отбора результатов 2

Систематическая ошибка отбора — статистическое понятие, показывающее, что выводы, сделанные применительно к какой-либо группе, могут оказаться неточными вследствие неправильного отбора в эту группу.

Содержание

  • 1 Ошибки отбора результатов
  • 2 Типы систематических ошибок
    • 2.1 Пространство
    • 2.2 Данные
    • 2.3 Участники
  • 3 Устранение систематической ошибки
  • 4 См. также

Ошибки отбора результатов

Могут включать предварительный или последующий отбор с превалированием или исключением некоторых видов. Это может быть, конечно, разновидностью научного мошенничества, манипуляцией данными, но гораздо чаще является добровольным заблуждением, например, вследствие использования неподходящего инструмента.

Например, в эпоху использования плёнки для фотографирования неба независимый наблюдатель определённо пришёл бы к выводу, что количество голубых галактик явно больше, чем количество красных. Не потому, что голубые галактики более распространены, но лишь вследствие того, что большинство плёнок более чувствительны к голубой части спектра. Тот же независимый наблюдатель сделал бы прямо противоположный вывод сейчас, в эпоху цифровой фотографии, потому что матрицы цифровых фотоаппаратов более чувствительны к красной части спектра.

Типы систематических ошибок

Существует большое количество возможных систематических ошибок, основные типы:

Пространство

  • Выбор первой и последней точки в серии. К примеру, для того, чтобы максимизировать заявленный тренд, можно начать серию с года с необычно низкими показателями и закончить годом с самыми высокими показателями.
  • «Своевременное» окончание, то есть тогда, когда результаты укладываются в желаемую теорию.
  • Отделение части данных на основе знаний обо всей выборке и затем применение математического аппарата к этой части как к слепой (случайной) выборке. См. Районированная выборка, en:cluster sampling, Ошибка меткого стрелка.
  • Изучение процесса на интервале (во времени или пространстве) длиной заведомо меньшей, чем требуется для полного представления о явлении.

Данные

  • Вычёркивание неких «плохих» данных в соответствии с правилами, хотя бы эти правила и шли вразрез с предварительно объявленными правилами для этой выборки.

Участники

  • Предварительный отбор участников, или, к примеру, размещение объявления о наборе добровольцев для участия в испытаниях среди определённой группы людей. К примеру, для доказательства, что курение никак не вредит результатам фитнеса, можно разместить в местном фитнесцентре объявление для набора добровольцев, но курящих набирать в мастерклассе, а некурящих среди начинающих или в секции желающих сбросить вес.
  • Выбрасывание из выборки участников, не дошедших до конца теста. В программе похудения мы рассматриваем подробные графики сброса веса как доказательство правильности методики, но в эти графики не включены не дошедшие до конца участники, посчитавшие, что на них эта методика не работает (так называемая систематическая ошибка выжившего).
  • Систематическая ошибка самоотбора. То есть группа людей для изучения формируется частично по собственной воле, так как не все опрошенные пожелают участвовать в тесте.

Устранение систематической ошибки

В общем случае невозможно выделить систематическую ошибку выборки только на основе статистических методов, хотя, как показано в работе нобелевского лауреата Джеймса Хекмана (англ. James Heckman), в некоторых специальных случаях существуют работающие стратегии.

Известной является фраза — рассказы об уме и доброте дельфинов основаны на рассказах уставших пловцов, которых они толкали к берегу, но мы лишены возможности услышать рассказ тех, кого они толкали в другую сторону.

См. также

  • Парадокс Берксона
  • Проверка статистических гипотез
  • Систематическая ошибка выжившего

Систематическая ошибка выжившего (англ. survivorship bias) — разновидность систематической ошибки отбора, когда по одной группе («выжившим») есть много данных, а по другой («погибшим») — практически нет. Так что исследователи пытаются искать общие черты среди «выживших» и упускают из вида, что не менее важная информация скрывается среди «погибших».

Во Вторую мировую войну венгерскому математику Абрахаму Вальду, работавшему в нью-йоркской лаборатории SRG, поручили найти решение важной задачи. Не все американские бомбардировщики возвращались на базу. А на тех, что возвращались, оставалось множество пробоин от зениток и истребителей, но распределены они были неравномерно: больше всего на фюзеляже и прочих частях, меньше в топливной системе и намного меньше — в двигателе. Значило ли это, что в пробитых местах нужно больше брони? Вальд ответил: нет, исследование как раз показывает, что самолёт, получивший пробоины в данных местах, ещё может вернуться на базу. Самолёт, которому попали в двигатель или бензобак, выходит из строя и не возвращается. Поскольку попадания от вражеского огня на самом деле (в первом приближении) распределены равномерно, укреплять надо те места, которые у вернувшихся в массе наиболее «чистые».

Также известно расхожее мнение о доброте дельфинов, основанное на рассказах пловцов, которых животные толкали к берегу, но нет данных от тех, кого толкали в обратном направлении

Сегодня практически все популярные онлайн-СМИ наполнены систематическими ошибками выжившего. Заголовки вроде «8 вещей, которые успешные люди делают каждый день», «Лучшие советы, которые когда-либо получал Ричард Брэнсон» или «Как Леброн Джеймс тренируется в межсезонье» — это систематические ошибки выжившего в действии.

Систематические ошибки выжившего относятся к нашей склонности фокусироваться на победителях в какой-либо отдельной области и учиться у них, совершенно забывая при этом о проигравших, которые использовали ту же стратегию.

Существуют тысячи спортсменов, которые тренируются так же, как Леброн Джеймс, однако они не смогли попасть в НБА. Проблема заключается в том, что никто не слышал о тех тысячах спортсменов, которые не смогли добраться до вершины. Мы слышим только о людях, которые «выжили». Мы ошибочно переоцениваем стратегии, тактики и советы одного «выжившего», игнорируя тот факт, что они не работают для большинства людей.

Другой пример: «Ричард Брэнсон, Билл Гейтс и Марк Цукерберг бросили школу и стали миллиардерами! Вам не нужна школа, чтобы добиться успеха. Предпринимателям просто нужно перестать тратить время на учёбу и заняться делом».

На каждого Брэнсона, Гейтса и Цукерберга надеется по несколько тысяч других предпринимателей, которые потерпели крах, залезли в долги и остались с незаконченным образованием. Систематические ошибки выжившего говорят о том, что мы не знаем, как та или иная стратегия проявит себя конкретно в нашем случае.

Поскольку о победителях часто вспоминают, а о проигравших вообще забывают, становится очень сложно определить, приведёт ли к успеху та или иная стратегия либо нет.

Когда исследователи рассматривают вопросы, представляющие интерес для аналитиков или портфельных менеджеров, они могут исключить из анализа определенные акции, облигации, портфели, или периоды времени, по разным причинам — возможно, из-за недоступности данных.

Когда недоступность данных приводит к исключению из анализа определенных активов, мы называем эту проблему систематической ошибкой или смещением выборки (англ. ‘sample selection bias’ или ‘sampling bias’).

Например, вы можете сделать выборку из базы данных, которая отслеживает только компании, существующие в настоящее время. Например, многие базы данных взаимных фондов предоставляют историческую информацию только о тех фондах, которые существуют в настоящее время.

Базы данных, в которых хранятся балансовые отчеты и отчеты о прибылях и убытках страдают от той же систематической ошибки, что и базы данных фондов: в них нет фондов или компаний, которые прекратили деятельность.

Исследование, которое использует подобные базы данных, подвержено разновидности систематической ошибки выборки, известной как систематическая ошибка выжившего (англ. ‘survivorship bias’).

Исследователи Димсон, Марш и Стонтон (Dimson, Marsh, and Staunton, 2002) подняли вопрос о систематической ошибке выжившего в международных финансовых индексах:

Известной проблемой является влияние выживания рынков на долгосрочную оценку доходности. Рынки могут испытывать не только разочаровывающие результаты, но и полную потерю стоимости за счет конфискации, гиперинфляции, национализации и кризисов.

При оценке результатов рынков, которые выживают в течение длительных интервалов времени, мы сделали выводы о том, чем обусловлено выживание. Тем не менее, как отметили в исследовании Браун, Готцман и Росс (Brown, Goetzmann, и Ross) в 1995 г. и Готцман и Джорион (Goetzmann and Jorion) в 1999 г., человек не способен заранее определить, какие рынки выживут, а какие нет. (стр. 41)

Систематическая ошибка выжившего иногда появляется, когда мы используем совместно цены акций и данные бухгалтерского учета.

Например, многие исследования в области финансов использовали соотношение рыночной стоимости компании к бухгалтерской стоимости компании на одну акцию (т.е. коэффициент котировки акций, англ. P/B, от ‘price-to-book ratio’ или ‘market-to-book ratio’) и обнаружили, что коэффициент P/B обратно пропорционален доходности компании (см. Fama and French 1992, 1993).

Коэффициент P/B также используется для многих популярных индексов стоимости и роста.

Если база данных, которую мы используем для сбора данных бухгалтерского учета, исключает обанкротившиеся компании, это может привести к систематической ошибке выжившего.


Котхари, Шанкен и Слоун (Kothari, Shanken, and Sloan) в 1995 г. исследовали именно этот вопрос, и оспорили то, что акциям обанкротившихся компаний свойственна самая низкая доходность и коэффициент P/B.

Если мы исключаем из выборки акции обанкротившихся компаний, то акции с низким P/B, которые включены в выборку, будут иметь в среднем более высокую доходность, по сравнению со средней доходностью при включении в выборку всех акций с низким P/B. Котхари, Шанкен и Слоун предположили, что эта систематическая ошибка привела к выводу об обратной связи между средней доходностью и P/B.

См. Fama and French (1996, стр. 80) о интеллектуальном анализе данных и систематической ошибке выжившего в их тестах.

Единственный совет, который мы можем предложить в этой ситуации, — это быть в курсе каких-либо смещений, потенциально присущих в выборке. Очевидно, что смещения выборки могут затуманить результаты любого исследования.

Выборка также может быть смещена из-за удаления (или делистинга) акций компании.

Делистинг (англ. ‘delisting’), т.е. исключение акций компании из котировального списка биржи, может происходить по разным причинам: слияние, банкротство, ликвидация, или переход на другую биржу.

Например, Центр исследований котировок ценных бумаг (CRSP, от англ. Center for Research in Security Prices) в Университете Чикаго является основным поставщиком данных о доходности, используемых в научных исследованиях. Когда происходит делистинг, CRSP пытается собрать данные о доходности исключенной компании, но во многих случаях он не может сделать этого из-за связанных с делистингом трудностях. CRSP вынужден просто указать значение доходности исключенной компании как отсутствующее.


Исследование, опубликованное в Финансовом журнале (см. The Journal of Finance) Шумвеем и Вортером (Shumway and Warther) в 1999 году, задокументировало смещение данных доходности NASDAQ в CRSP, вызванное делистингом.

Авторы показали, что делистинг, связанный с плохой работой компании (например, банкротством) исключается из данных чаще, чем делистинг, связанный с хорошей или нейтральной эффективностью компании (например, слиянием или перемещением на другой рынок). Кроме того, делистинг чаще происходит с небольшими компаниями.

Систематическая ошибка выборки встречается даже на рынках, где качество и согласованность данных весьма высоки. Новые классы активов, такие как хедж-фонды могут представлять еще большие проблемы смещения выборки.


Хедж-фонды (англ. ‘hedge funds’) представляют собой гетерогенную группу инвестиционных инструментов, как правило, организованных таким образом, чтобы быть свободными от регулирующего контроля. В целом, хедж-фонды не обязаны публично раскрывать свою эффективность (в отличие, скажем, от взаимных фондов). Хедж-фонды сами решают, нужно ли им включаться в какую-либо базу данных хедж-фондов.

Хедж фонды с плохой репутацией явно не желают, чтобы их результаты публиковались в базе данных, создавая проблему смещения самовыборки (англ. ‘self-selection bias’) в базах данных хедж-фондов.

Кроме того, как отметили Фанг и Хсие (Fung and Hsieh) в исследовании 2002 г., поскольку только хедж-фонды с хорошими показателями добровольно попадают в базу данных, в целом, историческая эффективность отрасли хедж-фондов имеет тенденцию казаться лучше, чем она есть на самом деле.

Кроме того, многие базы данных хедж-фондов исключают фонды, которые выходят из бизнеса, создавая в базе данных систематическую ошибку выжившего. Даже если база данных не удаляет несуществующие хедж-фонды, в попытке устранить ошибку выжившего, остается проблема хедж-фондов, которые перестают отчитываться об эффективности из-за плохих результатов.

См. Fung and Hsieh (2002) и Horst and Verbeek (2007) для более подробной информации о проблемах интерпретации эффективности хедж-фондов.

Обратите внимание, что систематическая ошибка также возможна, когда успешные фонды перестают отчитываться об эффективности, поскольку они больше не нуждаются в новых потоках денежных средств.

Систематическая ошибка опережения.

Процесс тестирования также подвержен систематической ошибке опережения (англ. ‘look-ahead bias’), если он использует информацию, которая не была доступна на момент тестирования.

Например, тесты правил биржевой торговли, которые используют ставки доходности фондового рынка и данные бухгалтерских балансов должны учитывать систематическую ошибку опережения.

В таких тестах, балансовая стоимость компании на акцию обычно используются для расчета коэффициента P/B.

Хотя рыночная цена акции доступна для всех участников рынка на заданный момент времени, балансовая стоимость на акцию на конец финансового года может стать общедоступной только в будущем — когда-то в следующем квартале.

Систематическая ошибка временного периода.

Тесты также подвержены систематической ошибке или смещению временного периода (англ. ‘time-period bias’), если они основаны на временном периоде, для которого результаты тестирования будут специфичными (т.е., характерными только для данного периода).

Ряды коротких временных периодов, скорее всего, дадут результаты, специфичные для определенного периода, которые могут не отражать более длительный период.

Ряды длительных временных периодов могут дать более точную картину истинной эффективности инвестиций. Недостаток длительных периодов заключается в потенциальных структурных изменениях, происходящих в течение периода, что приведет к двум различным распределениям доходности.

В этой ситуации, распределение, отражающее условия до изменений, будет отличаться от распределения, которые описывают условия после изменений.

Пример (7) систематических ошибок в инвестиционных исследованиях.

Финансовый аналитик рассматривает эмпирические данные об исторической доходности акций США.

Она выясняет, что недооцененные акции (то есть, акции с низким P/B) превзошли по эффективности растущие акции (то есть, акции с высоким P/B) в некоторых последних периодах времени.

После изучения американского рынка, аналитик задается вопросом, могут ли недооцененные акции быть привлекательными в Великобритании. Она исследует эффективность недооцененных и растущих акций на британском рынке за 14-летний период с января 2000 года по декабрь 2013 года.

Для проведения этого исследования, аналитик делает следующее:

  • Получает текущий состав компаний Индекса всех акций FTSE (Financial Times Stock Exchange All Share Index), который является взвешенным индексом рыночной капитализации;
  • Исключает несколько компаний, у которых финансовый год не заканчивается в декабре;
  • Использует балансовую и рыночную стоимость компаний на конец года, чтобы ранжировать остальные пространство компаний по коэффициенту P/B на конец года;
  • На основе этих рейтингов, она делит пространство ценных бумаг на 10 портфелей, каждый из которых содержит одинаковое количество акций;
  • Вычисляет равновзвешенную доходность каждого портфеля и доходность FTSE All Share Index за 12 месяцев после даты расчета каждого рейтинга; а также
  • Вычитает доходность FTSE из доходности каждого портфеля, чтобы получить избыточную доходность для каждого портфеля.

Опишите и обсудите каждую из следующих систематических ошибок, которым подвержен план исследований аналитика:

  • систематическую ошибку выжившего;
  • систематическую ошибку опережения; а также
  • систематическую ошибку временного периода.

Систематическая ошибка выжившего.

План тестирования подвержен систематической ошибке выжившего, если он не принимает в расчет обанкротившиеся компании, слившиеся компании, а также компании, иным образом покинувшие базу.

В этом примере, аналитик использовала текущий список акций FTSE, а не фактический список акций на начало каждого года. В той степени, в которой расчет доходности не учитывает компании, исключенные из индекса, эффективность портфелей с наименьшим P/B подвершена систематической ошибке выжившего и, соответственно, может быть завышена.

В какой-то момент периода тестирования, эти ныне не существующие компании, были исключены из тестирования. У них, вероятно, были низкие цены на акции (и низкий P/ B) и плохая доходность.

Систематическая ошибка опережения.

План тестирования подвержен систематической ошибке опережения, если он использует информацию, недоступную на момент тестирования.

В этом примере, аналитик провела тест, сделав допущение о том, что необходимая бухгалтерская информация была доступна в конце финансового года.

Например, аналитик предположила, что балансовая стоимость на акцию за 2 000 финансовый года был известна на 31 декабря 2000 года. Поскольку эта информация, как правило, не публикуется в течение нескольких месяцев после завершения финансового года, тест, возможно, содержал систематическую ошибку опережения.

Эта ошибка может привести к стратегии, которая окажется успешной, но при этом потребуется идеальная способность прогнозировать бухгалтерские результаты.

Систематическая ошибка временного периода.

План тестирования подвержен систематической ошибке временного периода, если он основан на периоде, для которого результаты будут специфичны.

Хотя тестирование охватывает период более 10 лет, этот период может оказаться слишком коротким для тестирования аномалии.

В идеале, аналитик должна протестировать рыночные аномалии в течение нескольких бизнес-циклов, чтобы гарантировать, что результаты не являются специфичными для рассматриваемого периода.

Эта систематическая ошибка может способствовать предлагаемой стратегии, если выбрать временной период, благоприятный для стратегии.

Существует интересный феномен — ошибка выжившего — так называется вид систематической ошибки отбора, когда по одной подгруппе («выжившим») имеется много информации, а по другой («погибшим») — почти ничего. Поэтому исследователи некой проблемы ищут общие показатели именно среди «выживших», но игнорируют тот факт, что не менее важные данные могут быть и у «погибших».

Рассмотрим на двух примерах:

1 пример:

Во время Второй мировой войны большинство американских бомбардировщиков возвращались на базу с пробоинами, сосредоточенными на крыльях, стабилизаторах и фюзеляже.

Из этого конструкторы сделали вывод: нужно укреплять именно эти места. И поддались ошибке выжившего!

А вот математик Абрахам Вальд сделал совершенно другой вывод. Он рассуждал так: «Мы видим дырки в обшивке. А чего не видим? Правильно, самолетов, у которых были пробоины в кабине, двигателях и топливных баках.

Получается, что крылатая машина с дырками в крыльях в состоянии вернуться на базу, а вот если у самолета повреждена кабина, то этого уже не произойдет — пилот-то погиб.

Так зачем укреплять крылья, если нужно защищать кабину?»

Кстати, уже после войны в лесах и болотах нашли немало подбитых самолетов — с повреждениями именно в двигателе, топливной системе и кабинах пилота. Они никуда улететь не смогли.

Получается, что если делать выводы только исходя из данных по «выжившим самолётам», то есть по той информации которая лежит на поверхности, игнорируя возможные скрытые данные, можно прийти к неправильным выводам.

2 пример:

В тот день, когда юный Бред Питт впервые приехал в Голливуд, вместе с ним туда отправились сотни таких же амбициозных парней. Возможно, они были опытнее, умнее и красивее, чем Питт, однако, именно ему удалось добиться успеха.

Вот именно в этой истории и кроется главный парадокс. Без сомнений Питт сделал все правильно, но едва ли только он один сможет рассказать, как добиться реального успеха. Помочь в объяснении этого помогут и те, у кого ничего не вышло, так как, проанализировав их решения, мы сможем понять, на каком из этапов они могли ошибиться.

Таким образом, пытаясь сделать вывод из информации, которая у вас «на руках», обязательно задумайтесь о данных, которыми вы возможно не владеете. И в противовес аргументам книг из серии «Как я быстро разбогател и добился успеха» найдутся тысячи случаев, когда эти же шаги не помогли.

А полезная информация о том, чего НЕ надо делать, чтобы обанкротиться/проиграть, возможно как раз таки есть у людей, которые через это прошли, но потерпели неудачу — у тех самых «погибших». Только они мануалов не пишут. Ведь кому нужны фолианты от неудачников.

Что думаете об этом феномене? Знаете ещё подобные примеры?

Систематическая ошибка отбора

  • Систематическая ошибка отбора — статистическое понятие, показывающее, что выводы, сделанные применительно к какой-либо группе, могут оказаться неточными вследствие неправильного отбора в эту группу.

Источник: Википедия

Связанные понятия

Шкала Ликерта, или (неверно) Лайкерта (англ. Likert scale (/ˈlɪkərt/ ), шкала суммарных оценок) — психометрическая шкала, которая часто используется в опросниках и анкетных исследованиях (разработана в 1932 году Ренсисом Ликертом). При работе со шкалой испытуемый оценивает степень своего согласия или несогласия с каждым суждением, от «полностью согласен» до «полностью не согласен». Сумма оценок каждого отдельного суждения позволяет выявить установку испытуемого по какому-либо вопросу. Предполагается…

Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.

Подробнее: Надёжность психологического теста

Тест стандартными прогрессивными матрицами Равена (Рейвена) — тест, предназначенный для дифференцировки испытуемых по уровню их интеллектуального развития. Авторы теста Джон Рейвен и Л. Пенроуз. Предложен в 1936 году. Тест Равена известен как один из наиболее «чистых» измерений фактора общего интеллекта g, выделенного Ч.Э. Спирменом. Успешность выполнения теста SPM интерпретируется как показатель способности к научению на основе обобщения собственного опыта и создания схем, позволяющих обрабатывать…

Репрезентати́вность — соответствие характеристик выборки характеристикам популяции или генеральной совокупности в целом. Репрезентативность определяет, насколько возможно обобщать результаты исследования с привлечением определённой выборки на всю генеральную совокупность, из которой она была собрана.

Слепо́й ме́тод — процедура проведения исследования реакции людей на какое-либо воздействие, заключающаяся в том, что испытуемые не посвящаются в важные детали проводимого исследования. Метод применяется для исключения субъективных факторов, которые могут повлиять на результат эксперимента.

Нулевая гипотеза — принимаемое по умолчанию предположение о том, что не существует связи между двумя наблюдаемыми событиями, феноменами. Так, нулевая гипотеза считается верной до того момента, пока нельзя доказать обратное. Опровержение нулевой гипотезы, то есть приход к заключению о том, что связь между двумя событиями, феноменами существует, — главная задача современной науки. Статистика как наука даёт чёткие условия, при наступлении которых нулевая гипотеза может быть отвергнута.

Иллюзорная корреляция (англ. illusory correlation) — когнитивное искажение преувеличенно тесной связи между переменными, которая в реальности или не существует, или значительно меньше, чем предполагается. Типичным примером могут служить приписывание группе этнического меньшинства отрицательных качеств. Иллюзорная корреляция считается одним из способов формирования стереотипов.

Автокорреляция — статистическая взаимосвязь между последовательностями величин одного ряда, взятыми со сдвигом, например, для случайного процесса — со сдвигом по времени.

Долгосрочное иссле́дование (англ. Longitudinal study от longitude — долговременный) — научный метод, применяемый, в частности, в социологии и психологии, в котором изучается одна и та же группа объектов (в психологии — людей) в течение времени, за которое эти объекты успевают существенным образом поменять какие-либо свои значимые признаки. В самом широком смысле является синонимом панельного исследования, а в более узком смысле — выборочное панельное исследование любой возрастной или образовательной…

Исследование случай-контроль (ИСК) – это тип обсервационного наблюдения, в котором две исследуемые группы, различающиеся по полученному результату, сравниваются на основе предполагаемого влияющего фактора. Исследования с контрольной группой часто используются для определения факторов, которые могут повлиять на состояние здоровья, путем сравнения участников, у которых есть заболевание («случаи») и участников, у которых оно отсутствует («контроли»).

Доверительный интервал — термин, используемый в математической статистике при интервальной оценке статистических параметров, более предпочтительной при небольшом объёме выборки, чем точечная. Доверительным называют интервал, который покрывает неизвестный параметр с заданной надёжностью.

Генеральная совокупность (от лат. generis — общий, родовой) — совокупность всех объектов (единиц), относительно которых предполагается делать выводы при изучении конкретной задачи.

Эмпирические исследования – наблюдение и исследование конкретных явлений, эксперимент, а также обобщение, классификация и описание результатов исследования эксперимента, внедрение их в практическую деятельность человека.

Выявление аномалий (также обнаружение выбросов) — это опознавание во время интеллектуального анализа данных редких данных, событий или наблюдений, которые вызывают подозрения ввиду существенного отличия от большей части данных. Обычно аномальные данные превращаются в некоторый вид проблемы, такой как мошенничество в банке, структурный дефект, медицинские проблемы или ошибки в тексте. Аномалии также упоминаются как выбросы, необычности, шум, отклонения или исключения.

Робастность (англ. robustness, от robust — «крепкий», «сильный», «твёрдый», «устойчивый») — свойство статистического метода, характеризующее независимость влияния на результат исследования различного рода выбросов, устойчивости к помехам. Выбросоустойчивый (робастный) метод — метод, направленный на выявление выбросов, снижение их влияния или исключение их из выборки.

Системати́ческая оши́бка вы́жившего (англ. survivorship bias) — разновидность систематической ошибки отбора, когда по одной группе («выжившим») есть много данных, а по другой («погибшим») — практически нет, в результате чего исследователи пытаются искать общие черты среди «выживших» и упускают из вида, что не менее важная информация скрывается среди «погибших».

Фактор общего интеллекта (англ. general factor, g factor) является распространённым, но противоречивым конструктом, используемым в психологии (см. также психометрию) для выявления общего в различных тестах интеллекта. Словосочетание «теория g» имеет дело с гипотезой и полученными из неё результатами о биологической природе g, постоянством/податливостью, уместностью его применения в реальной жизни и другими исследованиями.

В когнитивной науке под когнити́вными искаже́ниями понимаются систематические ошибки в мышлении или шаблонные отклонения, которые возникают на основе дисфункциональных убеждений, внедрённых в когнитивные схемы, и легко обнаруживаются при анализе автоматических мыслей. Существование большинства когнитивных искажений было описано учёными, а многие были доказаны в психологических экспериментах.

Подробнее: Список когнитивных искажений

Эксперимент Ричарда Лазаруса — известный эксперимент в психологии, проведенный Ричардом Лазарусом и группой исследователей для изучения влияния когнитивной оценки ситуации угрозы на формирование стрессовой реакции. На основе результатов данного исследования Ричардом Лазарусом и его коллегами была разработана теория психологического стресса, которая стоит на одном уровне значимости для науки с концепцией стресса Ганса Селье.

Испыту́емый — участник эксперимента в психологии и других отраслях науки. В психолингвистике, этот термин — в отличие от информанта — предполагает, что собирается ещё и информация о носителе языка как языковой и речевой личности. Испытуемые могут быть специально отобраны для эксперимента, либо же являться имеющимися в наличии представителями изучаемой популяции.

Коэффициент инбридинга может быть вычислен для отдельной персоны и является мерой степени редукции предков в родословии конкретной личности.

Тест Айзенка — тест коэффициента интеллекта (IQ), разработанный английским психологом Гансом Айзенком. Известно восемь различных вариантов теста Айзенка на интеллект.

Статистический вывод (англ. statistical inference), также называемый индуктивной статистикой (англ. inferential statistics, inductive statistics) — обобщение информации из выборки для получения представления о свойствах генеральной совокупности.

Гетероскедастичность (англ. heteroscedasticity) — понятие, используемое в прикладной статистике (чаще всего — в эконометрике), означающее неоднородность наблюдений, выражающуюся в неодинаковой (непостоянной) дисперсии случайной ошибки регрессионной (эконометрической) модели. Гетероскедастичность противоположна гомоскедастичности, означающей однородность наблюдений, то есть постоянство дисперсии случайных ошибок модели.

Статистический критерий — строгое математическое правило, по которому принимается или отвергается та или иная статистическая гипотеза с известным уровнем значимости. Построение критерия представляет собой выбор подходящей функции от результатов наблюдений (ряда эмпирически полученных значений признака), которая служит для выявления меры расхождения между эмпирическими значениями и гипотетическими.

Дисперсионный анализ — метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях. В отличие от t-критерия, позволяет сравнивать средние значения трёх и более групп. Разработан Р. Фишером для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of VAriance).

В психологии фиксирование установки (эффект предшествования, прайминг) (англ. priming) — это явление имплицитной памяти, при котором обработка воздействия заданного стимула определяется предшествующим действием того же самого или подобного стимула. Реакция на действие данного стимула оказывает влияние на реакцию, возникающую в ответ на последующие стимулы. Действие предшествующего стимула может осознаваться человеком, но также фиксирование установки стимула происходит и при неосознаваемом воздействии…

Причинность по Грэнджеру (англ. Granger causality) — понятие, используемое в эконометрике (анализе временных рядов), формализующее понятие причинно-следственной связи между временными рядами. Причинность по Грэнджеру является необходимым, но не достаточным условием причинно-следственной связи.

Системати́ческий обзо́р — научное исследование ряда опубликованных отдельных однородных оригинальных исследований с целью их критического анализа и оценки. Систематический обзор проводится с использованием методологии, позволяющей исключить случайные и систематические ошибки, а также для обеспечения полного отчета о всех имеющихся исследований по данной теме, включая серую литературу с целью избежания предвзятости. В систематическом обзоре используются стандартизированные методы отбора и проверки…

Метод балльных оценок — один из методов одномерного шкалирования, используемых в психологии, процедура которого заключается в построении шкал на основе балльных оценок, получаемых из суждений испытуемых. Из всех методов психологических измерений, использующих оценочные суждения человека, шкалирование, основанное на балльных оценках, является наиболее популярным в виду своей простоты. Метод распространен как в прикладных, так и в академических разделах психологии, например, при психологической оценке…

Статистика — измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения элементов выборки.

Закон Парето (принцип Парето, принцип 80/20) — эмпирическое правило, названное в честь экономиста и социолога Вильфредо Парето, в наиболее общем виде формулируется как «20 % усилий дают 80 % результата, а остальные 80 % усилий — лишь 20 % результата». Может использоваться как базовая установка в анализе факторов эффективности какой-либо деятельности и оптимизации её результатов: правильно выбрав минимум самых важных действий, можно быстро получить значительную часть от планируемого полного результата…

Фа́кторный анализ — многомерный метод, применяемый для изучения взаимосвязей между значениями переменных. Предполагается, что известные переменные зависят от меньшего количества неизвестных переменных и случайной ошибки.

В математической статистике семплирование — обобщенное название методов манипулирования начальной выборкой при известной цели моделирования, которые позволяют выполнить структурно-параметрическую идентификацию наилучшей статистической модели стационарного эргодического случайного процесса.

Алекситимия (от др.-греч. ἀ- — приставка с отрицательным значением, λέξις — слово, θυμός — чувство, буквально «без слов для чувств») — затруднения в передаче, словесном описании своего состояния.

Приня́тие жела́емого за действи́тельное — формирование убеждений и принятие решений в соответствии с тем, что является приятным человеку, вместо апелляции к имеющимся доказательствам, рациональности или реальности.

Двоичная, бинарная или дихотомическая классификация — это задача классификации элементов заданного множества в две группы (предсказание, какой из групп принадлежит каждый элемент множества) на основе правила классификации. Контекст, в котором требуется решение, имеет ли объект некоторое качественное свойство, некоторые специфичные характеристики или некоторую типичную двоичную классификацию, включает…

Независимая переменная — в эксперименте переменная, которая намеренно манипулируется или выбирается экспериментатором с целью выяснить её влияние на зависимую переменную.

Метод анкети́рования — психологический вербально-коммуникативный метод, в котором в качестве средства для сбора сведений от респондента используется специально оформленный список вопросов — анкета. В социологии анкетирование — это метод опроса, используемый для составления статических (однократное анкетирование) или динамических (при многократном анкетировании) статистических представлений о состоянии общества, общественного мнения, состояния политической, социальной и прочей напряжённости с целью…

Выброс (англ. outlier), промах — в статистике результат измерения, выделяющийся из общей выборки.

Байесовская вероятность — это интерпретация понятия вероятности, используемая в байесовской теории. Вероятность определяется как степень уверенности в истинности суждения. Для определения степени уверенности в истинности суждения при получении новой информации в байесовской теории используется теорема Байеса.

Теория обнаружения сигнала (ТОС) — современный психофизический метод, учитывающий вероятностный характер обнаружения стимула, в котором наблюдатель рассматривается как активный субъект принятия решения в ситуации неопределённости. Теория обнаружения сигнала описывает сенсорный процесс как двухступенчатый: процесс отображения физической энергии стимула в интенсивность ощущения и процесс принятия решения субъектом.

Регрессия прошлой жизни (англ. past life regression, PLR) — техника использования гипноза для обнаружения того, что практикующие эту технику считают воспоминаниями людей о прошлых жизнях или реинкарнациях. Используется в парапсихологии в связи с попытками подтвердить гипотезу существования феномена реинкарнации.

Частотное распределение — метод статистического описания данных (измеренных значений, характерных значений). Математически распределение частот является функцией, которая в первую очередь определяет для каждого показателя идеальное значение, так как эта величина обычно уже измерена. Такое распределение можно представить в виде таблицы или графика, моделируя функциональные уравнения. В описательной статистике частота распределения имеет ряд математических функций, которые используются для выравнивания…

У́мственный во́зраст — понятие в психологии, предложено Альфредом Бине и Т. Симоном в 1908 году. За основу взят уровень умственного развития человека по сравнению с этим уровнем у людей такого же возраста. То есть возраст, в котором — по среднестатистическим данным, — люди могут решить испытательные задания такого же уровня сложности. Таким образом, основное назначение понятия «умственного возраста» в психологии — характеристика интеллектуального развития личности, в основе которой лежит сравнение…

Эмпирические данные (от др.-греч. εμπειρία «опыт») — данные, полученные через органы чувств, в частности, путём наблюдения или эксперимента. В философии после Канта полученное таким образом знание принято называть апостериорным. Оно противопоставляется априорному, доопытному знанию, доступному через чисто умозрительное мышление.

Групповáя поляризáция — психологический феномен расхождения по разным полюсам мнений участников дискуссии во время принятия группового решения. Величина разброса конечных вариантов напрямую зависит от первоначальных позиций участников. То есть, чем дальше от середины находились их мнения в начале дискуссии, тем сильней будет проявляться феномен. Важно разделять «поляризацию» и «экстремизацию». Поляризация — явление, при котором решение члена группы смещается к ранее выбранному им полюсу; при экстремизации…

Подробнее: Групповая поляризация

То́чечная оце́нка в математической статистике — это число, оцениваемое на основе наблюдений, предположительно близкое к оцениваемому параметру.

Рандомизированное контролируемое испытание (рандомизированное контролируемое исследование, РКИ) — тип научного (часто медицинского) эксперимента, при котором его участники случайным образом делятся на группы, в одной из которых проводится исследуемое вмешательство, а в другой (контрольной) применяются стандартные методики или плацебо.

Тест отноше́ния правдоподо́бия (англ. likelihood ratio test, LR) — статистический тест, используемый для проверки ограничений на параметры статистических моделей, оценённых на основе выборочных данных. Является одним из трёх базовых тестов проверки ограничений наряду с тестом множителей Лагранжа и тестом Вальда.

Control of industrial cleaning processes

John Durkee Ph.D., P.E., in Management of Industrial Cleaning Technology and Processes, 2006

4.2.7.2 Systematic Error

Reality is merely an illusion, albeit a very persistent one.20

Systematic error, or bias, is a difference between an observed value and the true value due to all causes other than sampling variability.21 Systematic error can arise from innumerable sources, including factors involved in the choice of sampling plan and factors involved in the definition and measurement of study variables (see above section):

Where there is no systematic error or bias, there is validity. That is also a desirable attribute.

Systematic error or bias is by definition not affected by sample size.22 There is only one strategy for reduction or elimination of systematic error:

Review, criticize, and modify testing procedures.

A user can do this and expect to produce measurements with less bias afterward:

Some testing has been done to elucidate the extent to which the total error is or is not composed of random error.

Validation of the cleaning test has been done to independently suggest what is the true value (see Chapter 5, Section 5.12).

It is a mistake to believe that systematic errors produce a constant bias or offset between the true value and the measured value. Bias can be inconsistent, especially when there are multiple sources of it.

Read full chapter

URL: 

https://www.sciencedirect.com/science/article/pii/B9780080448886500181

Decision Research: Behavioral

B.A. Mellers, in International Encyclopedia of the Social & Behavioral Sciences, 2001

2.2 Conjunctive Probabilities

Systematic errors in subjective probabilities of conjunctive events have also been identified by behavioral decision researchers (Tversky and Kahneman 1983). In another story, Tversky and Kahneman told participants about a woman named Linda who was described as 31 years old, single, outspoken, and very bright. She majored in philosophy and cared deeply about issues of discrimination and social justice. She also participated in anti-nuclear demonstrations. Then participants were asked to rank the likelihood of various statements, including ‘Linda is a bank teller’ and ‘Linda is a bank teller and a feminist.’ Participants report that the statement, ‘Linda is a bank teller and a feminist’ is more probable than ‘Linda is a bank teller.’ Tversky and Kahneman argued that these responses were violations of the conjunction rule, according to which the judged probability of the intersection of two events cannot exceed the judged probability of either single event. They claimed that people base their beliefs on the similarity of the target description to the category prototype, a strategy known as representativeness.

Gigerenzer and his collaborators have challenged this claim and have further explored the use of frequency representations to reduce, and even eliminate, conjunction effects. (Gigerenzer and Hoffrage 1995). They have had remarkable success at reducing base rate neglect and conjunction errors with frequency formats. This topic is yet another area of considerable controversy within the field.

Read full chapter

URL: 

https://www.sciencedirect.com/science/article/pii/B0080430767006264

Recent Advances in Psychological Assessment and Test Construction

Carina Coulacoglou, Donald H. Saklofske, in Psychometrics and Psychological Assessment, 2017

Bias in psychological assessment

Bias refers to systematic error in the estimation of a value. For researchers, test bias is a deviation from examinees real level of performance. Bias goes by many names and has many characteristics but it always involves scores that are too low or too high to represent or predict an individual’s characteristics. Estimates of scores are required to reveal bias. Types of test bias include social desirability bias (self-enhancement and impression management; Paulhus & Trapnell, 2008), acquiescence, and cultural bias. A newly discovered type of bias is examining process bias (Baldini, Parker, Nelson, & Siegel, 2014).

Read full chapter

URL: 

https://www.sciencedirect.com/science/article/pii/B9780128022191000018

Using Eye Movements as an Experimental Probe of Brain Function

A. Palla, … D. Straumann, in Progress in Brain Research, 2008

Discussion

We analysed the systematic errors that healthy human subjects make when estimating the direction of gravity by setting a visual line (SVV) during constant ‘quasi-static’ velocity whole-body rotations about the naso-occipital axis.1 The majority of subjects showed an instability zone around the upside-down position between 90° left-ear and 90° right-ear down where rapid switches between tilt underestimation (A-effect) and tilt overestimation (E-effect) occurred. When comparing SVV deviations measured during CCW and CW turntable rotations, we found that at identical whole-body positions the A-effect was larger when passing through upside-down than by ‘direct’ rotation from upright (peaks in the side positions). Because rotations were performed ‘quasi-statically,’ these results demonstrate that there is hysteresis for SVV estimation that is independent of roll velocity. Moreover, this static SVV hysteresis is already present at roll angles below 90°, where the A-effect dominates. We speculate that the hysteresis found by Kaptein and Van Giesbergen (2004, 2005) for the switching between A- and E-effects around 135° is a direct result of static hysteresis for the A-effect. In the instability zone, the direction-dependent magnitude of the A-effect may influence the roll position for switching between A- and E-effects.

Read full chapter

URL: 

https://www.sciencedirect.com/science/article/pii/S0079612308006389

Neuroepidemiology

M.E. Jacob, M. Ganguli, in Handbook of Clinical Neurology, 2016

Bias

Bias is the result of systematic error in the design and conduct of the study, such that the observed results in the sample will be different from the true results. Bias occurs due to flaws in the method of selection of study participants or in the process of gathering information regarding exposure and disease. This systematic error is different from random error due to sampling variability, which results from the use of a sample to estimate parameters for the reference population. We will discuss two broad categories of bias: selection bias and information bias.

Read full chapter

URL: 

https://www.sciencedirect.com/science/article/pii/B978012802973200001X

Total Survey Error

Tom W. Smith, in Encyclopedia of Social Measurement, 2005

Bias, or Systematic Error

Turning to bias, or systematic error, there is also a sampling component. First, the sample frame (i.e., the list or enumeration of elements in the population) may either omit or double count units. For example, the U.S. Census both misses people (especially African-Americans and immigrants) and counts others twice (especially people with more than one residence), and samples based on the census reflect these limitations. Second, certain housing units, such as new dwellings, secondary units (e.g., basement apartments in what appears to be a single-family dwelling), and remote dwellings, tend to be missed in the field. Likewise, within housing units, certain individuals, such as boarders, tend to be underrepresented and some respondent selection methods fail to work in an unbiased manner (e.g., the last/next birthday method overrepresents those who answer the sample-screening questions). Third, various statistical sampling errors occur. Routinely, the power of samples is overestimated because design effects are not taken into consideration. Also, systematic sampling can turn out to be correlated with various attributes of the target population. For example, in one study, both the experimental form and respondent selection were linked by systematic sampling in such a way that older household members were disproportionately assigned to one experimental version of the questionnaire, thus failing to randomize respondents to both experimental forms.

Nonsampling error comes from both nonobservational and observational errors. The first type of nonobservational error is coverage error, in which a distinct segment of the target population is not included in sample. For example, in the United States, preelection random-digit-dialing (RDD) polls want to generalize to the voting population, but systematically exclude all voters not living in households with telephones. Likewise, samples of businesses often underrepresent smaller firms. The second type of nonobservational error consists of nonresponse (units are included in the sample, but are not successfully interviewed). Nonresponse has three main causes: refusal to participate, failure to contact because people are away from home (e.g., working or on vacation), and all other reasons (such as illness and mental and/or physical handicaps).

Observational error includes collection, processing, and analysis errors. As with variable error, collection error is related to mode, instrument, interviewer, and respondent. Mode affects population coverage. Underrepresentation of the deaf and poor occurs in telephone surveys, and of the blind and illiterate, in mail surveys. Mode also affects the volume and quality of information gathered. Open-ended questions get shorter, less complete answers on telephone surveys, compared to in-person interviews. Bias also is associated with the instrument. Content, or the range of information covered, obviously determines what is collected. One example of content error is when questions presenting only one side of an issue are included, such as is commonly done in what is known as advocacy polling. A second example is specification error, in which one or more essential variable is omitted so that models cannot be adequately constructed and are therefore misspecified.

Various problematic aspects of question wordings can distort questions. These include questions that are too long and complex, are double-barreled, include double negatives, use loaded terms, and contain words that are not widely understood. For example, the following item on the Holocaust is both complex and uses a double negative: “As you know, the term ‘holocaust’ usually refers to the killing of millions of Jews in Nazi death camps during World War II. Does it seem possible or does it seem impossible to you that the Nazi extermination of the Jews never happened?” After being presented with this statement in a national U.S. RDD poll in 1992, 22% of respondents said it was possible that the Holocaust never happened, 65% said that it was impossible that it never happened, and 12% were unsure. Subsequent research, however, demonstrated that many people had been confused by the wording and that Holocaust doubters were actually about 2% of the population, not 22%. Error from question wording also occurs when terms are not understood in a consistent manner.

The response scales offered also create problems. Some formats, such as magnitude measurement scaling, are difficult to follow, leaving many, especially the least educated, unable to express an opinion. Even widely used and simple scales can cause error. The 10-point scalometer has no clear midpoint and many people wrongly select point 5 on the 1–10 scale in a failed attempt to place themselves in the middle. Context, or the order of items in a survey, also influences responses in a number of quite different ways. Prior questions may activate certain topics and make them more accessible (and thus more influential) when later questions are asked. Or they may create a contrast effect under which the prior content is excluded from later consideration under a nonrepetition rule. A norm of evenhandedness may be created that makes people answer later questions in a manner consistent with earlier questions. For example, during the Cold War, Americans, after being asked if American reporters should be allowed to report the news in Russia, were much more likely to say that Russian reporters should be allowed to cover stories in the United States, compared to when the questions about Russian reporters were asked first. Even survey introductions can influence the data quality of the subsequent questions.

Although social science scholars hope that interviewers merely collect information, in actuality, interviewers also affect what information is reported. First, the mere presence of an interviewer usually magnifies social desirability effects, so that there is more underreporting of sensitive behaviors to interviewers than when self- completion is used. Second, basic characteristics of interviewers influence responses. For example, Whites express more support for racial equality and integration when interviewed by Blacks than when interviewed by Whites. Third, interviewers may have points of view that they convey to respondents, leading interviewers to interpret responses, especially to open-ended questions, in light of their beliefs.

Much collection error originates from respondents. Some problems are cognitive. Even given the best of intentions, people are fallible sources. Reports of past behaviors may be distorted due to forgetting the incidents or misdating them. Minor events will often be forgotten, and major events will frequently be recalled as occurring more recently than was actually the case. Of course, respondents do not always have the best of intentions. People tend to underreport behaviors that reflect badly on themselves (e.g., drug use and criminal records) and to overreport positive behaviors (e.g., voting and giving to charities).

Systematic error occurs during the processing of data. One source of error relates to the different ways in which data may be coded. A study of social change in Detroit initially found large changes in respondents’ answers to the same open-ended question asked and coded several decades apart. However, when the original open-ended responses from the earlier survey were recoded by the same coders who coded the latter survey, the differences virtually disappeared, indicating that the change had been in coding protocols and execution, not in the attitudes of Detroiters. Although data-entry errors are more often random, they can seriously bias results. For example, at one point in time, no residents of Hartford, Connecticut were being called for jury duty; it was discovered that the new database of residents had been formatted such that the “d” in “Hartford” fell in a field indicating that the listee was dead. Errors can also occur when data are transferred. Examples include incorrect recoding, misnamed variables, and misspecified data field locations. Sometimes loss can occur without any error being introduced. For example, 20 vocabulary items were asked on a Gallup survey in the 1950s and a summary scale was created. The summary scale data still survive, but the 20 individual variables have been lost. Later surveys included 10 of the vocabulary items, but they cannot be compared to the 20-item summary scale.

Wrong or incomplete documentation can lead to error. For example, documentation on the 1967 Political Participation Study (PPS) indicated that one of the group memberships asked about was “church-affiliated groups.” Therefore, when the group membership battery was later used in the General Social Surveys (GSSs), religious groups were one of the 16 groups presented to respondents. However, it was later discovered that church-affiliated groups had not been explicitly asked about on the earlier survey, but that the designation had been pulled out of an “other-specify” item. Because the GSS explicitly asked about religious groups, it got many more mentions than had appeared in the PPS; this was merely an artifact of different data collection procedures that resulted from unclear documentation.

Most discussions of total survey error stop at the data-processing stage. But data do not speak for themselves. Data “speak” when they are analyzed, and the analysis is reported by researchers. Considerable error is often introduced at this final stage. Models may be misspecified, not only by leaving crucial variables out of the survey, but also by omitting such variables from the analysis, even when they are collected. All sorts of statistical and computational errors occur during analysis. For example, in one analysis of a model explaining levels of gun violence, a 1 percentage point increase from a base incidence level of about 1% was misdescribed as a 1% increase, rather than as a 100% increase. Even when a quantitative analysis is done impeccably, distortion can occur in the write-up. Common problems include the use of jargon, unclear writing, the overemphasis and exaggeration of results, inaccurate descriptions, and incomplete documentation. Although each of the many sources of total survey error can be discussed individually, they constantly interact with one another in complex ways. For example, poorly trained interviewers are more likely to make mistakes with complex questionnaires, the race of the interviewer can interact with the race of respondents to create response effects, long, burdensome questionnaires are more likely to create fatigue among elderly respondents, and response scales using full rankings are harder to do over the phone than in person. In fact, no stage of a survey is really separate from the other stages, and most survey error results from, or is shaped by, interactions between the various components of a survey.

Read full chapter

URL: 

https://www.sciencedirect.com/science/article/pii/B0123693985001262

Validity

Carina Coulacoglou, Donald H. Saklofske, in Psychometrics and Psychological Assessment, 2017

Assessing measurement invariance

Bias is a technical term that addresses systematic errors that lead to differential interpretation of scores. In order to evaluate bias, we must determine whether knowledge of an examinee’s group membership influences the examinee’s score on the measured variance (e.g., an item, subdomain, or test), given the examinee’s status on the latent variance of interest (Millsap, 2011). Consequently, for a test to be fair (from a psychometric perspective) it should exhibit measurement invariance across all distinctive subgroups being evaluated. The degree to which the construct measured by a test is consistent across subgroups is known as construct equivalence (CE). CE is of special concern in cross-cultural research whereby constructs, such as intelligence and morality can be culturally affected (Van de Vijver & Poortinga, 2005). It is also associated with test adaptations or computer-based testing whereby the conditions of test administration are altered. The degree to which such alterations affect the construct is unknown.

CE can be evaluated statistically by Confirmatory Factor Analysis (CFA) and weighted multidimensional scaling (MDS), as they are able to analyze the structure of data from multiple groups simultaneously. CFA evaluated the hypothesized test structure, whereas MDS is an exploratory analysis that fits dimensions to best account for the data in all groups. In CFA the degree to which the hypothetical structure adequately fits the data for multiple groups can be analyzed using descriptive statistics, such as root mean square error of approximation, standardized root mean square residual, and adjusted goodness-of-fit statistic.

There are numerous statistical approaches for assessing measurement in variance. These methods can be classified into three groups: (1) linear measurements models, (2) nonlinear measurements models, and (3) observed score methods (Millsap, 2011). These approaches can be broken down into methods that estimate invariance at the scale and item levels (Zumbo, 2003). Scale-level analyses focus on the degree of invariance observed within common factor analytic models across groups. In contrast, item-level analyses and differential item functioning (DIF) examine invariance separately for each item. DIF examines the situation in which examiners who have equal standing on the target construct but those who come from different groups (e.g., ethnicity, age) have different probabilities of responding to the item (Holland & Thayer, 1988). “DIF represents a statistical interaction between group membership and item performance after matching examinees across groups on some criterion (usually total test score)” (Sireci & Sukin, 2013).

Read full chapter

URL: 

https://www.sciencedirect.com/science/article/pii/B9780128022191000031

Decision Making, Psychology of

J. van der Pligt, in International Encyclopedia of the Social & Behavioral Sciences, 2001

3 Heuristics

The study of heuristics tends to focus on systematic errors in human decision making and these heuristics often help to understand anomalies of inferring expectations from evidence (see Heuristics in Social Cognition).

Three heuristics that deal with probabilistic thinking have received considerable attention: (a) availability, (b) representativeness, and (c) anchoring and adjustment. The availability heuristic refers to the tendency to assess the probability of an event based on the ease with which instances of that event come to mind. This heuristic has been investigated in a variety of domains and relates probability estimates to memory access. Generally people overestimate the probability of an event if concrete instances of that event are easily accessible in memory. Generally, ease of recall and frequency of occurrence are correlated. A number of factors that affect memory are, however, unrelated to probability. For example, vivid images are easier to recall than pallid ones. Thus, having been involved in a serious car accident is likely to be better remembered than annual statistics about the frequency of (types of) traffic accidents. The former is likely to have more impact on probability estimates than the latter. Dawes (1994) argued that the salience of negative and relatively extreme exemplars of drug addicts can bias policy-makers’ perceptions of the entire group and result in negative attitudes toward programs such as the provision of clean needles to prevent a further spread of the AIDS virus.

The representativeness heuristic refers to the tendency to assess the probability that a stimulus belongs to a particular class by judging the degree to which that event corresponds to an appropriate mental model. Kahneman and Tversky (1973) reported a well-known example of how ignoring prior probabilities can affect judgment. In their study, respondents were provided with brief personality sketches, supposedly of engineers and lawyers. They were asked to assess the probability that each sketch described a member of one profession or the other. Half the respondents were told the population from which the sketches were drawn consisted of 30 engineers and 70 lawyers, the remaining respondents were told that there were 70 engineers and 30 lawyers. Findings showed that the prior probabilities were essentially ignored, and that respondents estimated the probability of class membership by judging how similar each personality sketch was to their mental model of an engineer or a lawyer.

Anchoring and adjustment refers to a general judgment process in which an initially given or generated response serves as an anchor, and other information is insufficiently used to adjust that response. The anchoring and adjustment heuristic is based on the assumption that people often start their judgmental process by focusing on some initial value that serves as an anchor. The biases related to this heuristic stem from two distinct aspects. First, one could use irrelevant anchors, second one could insufficiently adjust up or down from an original starting value or anchor.

Read full chapter

URL: 

https://www.sciencedirect.com/science/article/pii/B0080430767017502

Experimenter and Subject Artifacts: Methodology

R.L. Rosnow, in International Encyclopedia of the Social & Behavioral Sciences, 2001

‘Experimenter artifacts’ and ‘subject artifacts’ refer to systematic errors that can be attributed to uncontrolled aspects of the interaction between the researcher and the research participants or to other potentially bias-prone aspects of a research situation, such as the analysis, interpretation, and reporting of the research results. Particular experimenter artifacts that have been studied include observer, interpreter, intentional, biosocial, psychosocial, situational, modeling, and experimenter-expectancy effects. Subject artifacts that have been primarily investigated are generally concerned with the motivation of the research participants and their sensitivity and compliance with task-orienting cues. Discussed in this article are the history of artifacts in the social and behavioral sciences, the specific nature and control of experimenter and subject artifacts, and the delicate balance between ethical accountability, and the avoidance of artifacts in research with human participants.

Read full chapter

URL: 

https://www.sciencedirect.com/science/article/pii/B0080430767007282

Sociocultural and Individual Differences

Cecil R. Reynolds, in Comprehensive Clinical Psychology, 1998

10.03.6 The Problem of Definition

The definition of test bias has produced considerable continuing debate among measurement and assessment experts (Angoff, 1976; Bass, 1976; Bernal, 1975; Bond, 1981; Cleary et al., 1975; Cole & Moss, 1989; Cronbach, 1976; Dana, 1993; Darlington, 1978; Einhorn & Bass, 1970; Flaugher, 1978; Gordon, 1984; Gross & Su, 1975; Helms, 1992; Humphreys, 1973; Hunter & Schmidt, 1976, 1978; Jackson, 1980; Linn, 1976; McNemar, 1975; Moreland, 1996; Novick & Petersen, 1976; Padilla, 1988; Petersen & Novick, 1976; Reschly, 1980; Reynolds, 1978; 1982b, 1995; Reynolds & Brown, 1984; Sawyer, Cole, & Cole, 1976; Schmidt & Hunter, 1974; Thorndike, 1971). Although the resulting debate has generated a number of selection models with which to examine bias, selection models focus on the decision-making system and not on the test itself. The various selection models are discussed at some length in Schmidt and Hunter (1974), Hunter, Schmidt, and Rauschenberger (1984), Jensen (1980), Petersen and Novick (1976), and Ramsey (1979). The choice of a decision-making system (especially a system for educational decision-making) must ultimately be a societal one; as such, it will depend to a large extent on the value system and goals of the society. Thus, before a model for test use in selection (whether ultimately selection is for a treatment program, a job, a college, etc.) can be chosen, it must be decided whether the ultimate goal of selection is equality of opportunity, equality of outcome, or representative equality (these concepts are discussed in more detail in Nichols, 1978).

“Equality of opportunity” is a competitive model wherein selection is based on ability. As more eloquently stated by Lewontin (1970), under equality of opportunity, “true merit … will be the criterion of men’s earthly reward” (p. 92). “Equality of outcome” is a selection model based on ability deficits. Schooling provides a good model to illustrate these concepts that are also applicable to mental health. Compensatory and remedial programs are typically constructed on the basis of the equality-of-outcome model. Children of low ability or children believed to be a high risk for academic failure are selected for remedial, compensatory, or other special educational programs. Adults vying for jobs may be placed in specialized job training programs. In a strictly predictive sense, tests are used in a similar manner under both of these models. However, under equality of opportunity, selection is based on the prediction of a high level of criterion performance; under equality of outcome, selection is determined by the prediction of “failure” or a preselected low level of criterion performance. Interestingly, it is the failure of compensatory and remedial education programs to bring the disadvantaged learner to “average” levels of performance that resulted in the charges of test bias now in vogue.

The model of “representative equality” also relies on selection, but selection that is proportionate to numerical representation of subgroups in the population under consideration. Representative equality is typically thought to be independent of the level of ability within each group; however, models can be constructed that select from each subgroup the desired proportion of individuals (i) according to relative ability level of the group, (ii) independent of group ability, or (iii) according to some decision rule between these two positions. Even under the conditions of representative equality, it is imperative to employ a selection device (test) that will rank order individuals within groups in a reliable and valid manner. The best way to ensure fair selection under any of these models is to employ tests whose scores are equally reliable and equally valid for all groups concerned. The tests employed should also yield the most reliable and most valid scores for all groups under consideration. The question of test bias per se then becomes a question of test validity. Test use (i.e., fairness) may be defined as biased or nonbiased only by the societal value system; at present, this value system within the USA is leaning strongly toward some variant of the representative-equality selection model. In other sociopolitical structures, other models may be more appropriate. As noted above, all models are facilitated by the use of a nonbiased test. That is, the use of a test with equivalent cross-group validities makes for the most parsimonious selection model, greatly simplifying the creation and application of the selection model that has been chosen.

This leads to the essential definitional component of test bias. “Test bias” refers in a global sense to systematic error in the estimation of some “true” value for a group of individuals. The key word here is “systematic”; all measures contain error and in all cultural settings, but this error is assumed to be random unless shown to be otherwise. Bias investigation is a statistical inquiry that does not concern itself with culture loading, labeling effects, or test use/test fairness. Concerning the last of these, Jensen (1980) comments,

[U]nbiased tests can be used unfairly and biased tests can be used fairly. Therefore, the concepts of bias and unfairness should be kept distinct… [A] number of different, and often mutually contradictory, criteria for fairness have been proposed, and no amount of statistical or psychometric reasoning per se can possible settle any arguments as to which is best. (pp. 375-376)

There are three types of validity as traditionally conceived: content, construct, and predictive (or criterion-related). Test bias may exist under any or all of these categories of validity. Though no category of validity is completely independent of any other category, each is discussed separately here for the purposes of clarity and convenience. (All true evidence of validity is as likely as not to be construct validity, and other, more detailed divisions including this one are for convenience of discussion.) Frequently encountered in bias research are the terms “single-group validity” and “differential validity.” Single-group validity refers to the phenomenon of a score interpretation being valid for one group but not another. Differential validity refers to a condition where an interpretation is valid for all groups concerned, but the degree of validity varies as a function of group membership. Although these terms have been most often applied to predictive or criterion-related validity (validity coefficients are then examined for significance and compared across groups), the concepts of single-group and differential validity are equally applicable to content and construct validity.

Read full chapter

URL: 

https://www.sciencedirect.com/science/article/pii/B008042707300105X

Control of industrial cleaning processes

John Durkee Ph.D., P.E., in Management of Industrial Cleaning Technology and Processes, 2006

4.2.7.2 Systematic Error

Reality is merely an illusion, albeit a very persistent one.20

Systematic error, or bias, is a difference between an observed value and the true value due to all causes other than sampling variability.21 Systematic error can arise from innumerable sources, including factors involved in the choice of sampling plan and factors involved in the definition and measurement of study variables (see above section):

Where there is no systematic error or bias, there is validity. That is also a desirable attribute.

Systematic error or bias is by definition not affected by sample size.22 There is only one strategy for reduction or elimination of systematic error:

Review, criticize, and modify testing procedures.

A user can do this and expect to produce measurements with less bias afterward:

Some testing has been done to elucidate the extent to which the total error is or is not composed of random error.

Validation of the cleaning test has been done to independently suggest what is the true value (see Chapter 5, Section 5.12).

It is a mistake to believe that systematic errors produce a constant bias or offset between the true value and the measured value. Bias can be inconsistent, especially when there are multiple sources of it.

Read full chapter

URL: 

https://www.sciencedirect.com/science/article/pii/B9780080448886500181

Decision Research: Behavioral

B.A. Mellers, in International Encyclopedia of the Social & Behavioral Sciences, 2001

2.2 Conjunctive Probabilities

Systematic errors in subjective probabilities of conjunctive events have also been identified by behavioral decision researchers (Tversky and Kahneman 1983). In another story, Tversky and Kahneman told participants about a woman named Linda who was described as 31 years old, single, outspoken, and very bright. She majored in philosophy and cared deeply about issues of discrimination and social justice. She also participated in anti-nuclear demonstrations. Then participants were asked to rank the likelihood of various statements, including ‘Linda is a bank teller’ and ‘Linda is a bank teller and a feminist.’ Participants report that the statement, ‘Linda is a bank teller and a feminist’ is more probable than ‘Linda is a bank teller.’ Tversky and Kahneman argued that these responses were violations of the conjunction rule, according to which the judged probability of the intersection of two events cannot exceed the judged probability of either single event. They claimed that people base their beliefs on the similarity of the target description to the category prototype, a strategy known as representativeness.

Gigerenzer and his collaborators have challenged this claim and have further explored the use of frequency representations to reduce, and even eliminate, conjunction effects. (Gigerenzer and Hoffrage 1995). They have had remarkable success at reducing base rate neglect and conjunction errors with frequency formats. This topic is yet another area of considerable controversy within the field.

Read full chapter

URL: 

https://www.sciencedirect.com/science/article/pii/B0080430767006264

Recent Advances in Psychological Assessment and Test Construction

Carina Coulacoglou, Donald H. Saklofske, in Psychometrics and Psychological Assessment, 2017

Bias in psychological assessment

Bias refers to systematic error in the estimation of a value. For researchers, test bias is a deviation from examinees real level of performance. Bias goes by many names and has many characteristics but it always involves scores that are too low or too high to represent or predict an individual’s characteristics. Estimates of scores are required to reveal bias. Types of test bias include social desirability bias (self-enhancement and impression management; Paulhus & Trapnell, 2008), acquiescence, and cultural bias. A newly discovered type of bias is examining process bias (Baldini, Parker, Nelson, & Siegel, 2014).

Read full chapter

URL: 

https://www.sciencedirect.com/science/article/pii/B9780128022191000018

Using Eye Movements as an Experimental Probe of Brain Function

A. Palla, … D. Straumann, in Progress in Brain Research, 2008

Discussion

We analysed the systematic errors that healthy human subjects make when estimating the direction of gravity by setting a visual line (SVV) during constant ‘quasi-static’ velocity whole-body rotations about the naso-occipital axis.1 The majority of subjects showed an instability zone around the upside-down position between 90° left-ear and 90° right-ear down where rapid switches between tilt underestimation (A-effect) and tilt overestimation (E-effect) occurred. When comparing SVV deviations measured during CCW and CW turntable rotations, we found that at identical whole-body positions the A-effect was larger when passing through upside-down than by ‘direct’ rotation from upright (peaks in the side positions). Because rotations were performed ‘quasi-statically,’ these results demonstrate that there is hysteresis for SVV estimation that is independent of roll velocity. Moreover, this static SVV hysteresis is already present at roll angles below 90°, where the A-effect dominates. We speculate that the hysteresis found by Kaptein and Van Giesbergen (2004, 2005) for the switching between A- and E-effects around 135° is a direct result of static hysteresis for the A-effect. In the instability zone, the direction-dependent magnitude of the A-effect may influence the roll position for switching between A- and E-effects.

Read full chapter

URL: 

https://www.sciencedirect.com/science/article/pii/S0079612308006389

Neuroepidemiology

M.E. Jacob, M. Ganguli, in Handbook of Clinical Neurology, 2016

Bias

Bias is the result of systematic error in the design and conduct of the study, such that the observed results in the sample will be different from the true results. Bias occurs due to flaws in the method of selection of study participants or in the process of gathering information regarding exposure and disease. This systematic error is different from random error due to sampling variability, which results from the use of a sample to estimate parameters for the reference population. We will discuss two broad categories of bias: selection bias and information bias.

Read full chapter

URL: 

https://www.sciencedirect.com/science/article/pii/B978012802973200001X

Total Survey Error

Tom W. Smith, in Encyclopedia of Social Measurement, 2005

Bias, or Systematic Error

Turning to bias, or systematic error, there is also a sampling component. First, the sample frame (i.e., the list or enumeration of elements in the population) may either omit or double count units. For example, the U.S. Census both misses people (especially African-Americans and immigrants) and counts others twice (especially people with more than one residence), and samples based on the census reflect these limitations. Second, certain housing units, such as new dwellings, secondary units (e.g., basement apartments in what appears to be a single-family dwelling), and remote dwellings, tend to be missed in the field. Likewise, within housing units, certain individuals, such as boarders, tend to be underrepresented and some respondent selection methods fail to work in an unbiased manner (e.g., the last/next birthday method overrepresents those who answer the sample-screening questions). Third, various statistical sampling errors occur. Routinely, the power of samples is overestimated because design effects are not taken into consideration. Also, systematic sampling can turn out to be correlated with various attributes of the target population. For example, in one study, both the experimental form and respondent selection were linked by systematic sampling in such a way that older household members were disproportionately assigned to one experimental version of the questionnaire, thus failing to randomize respondents to both experimental forms.

Nonsampling error comes from both nonobservational and observational errors. The first type of nonobservational error is coverage error, in which a distinct segment of the target population is not included in sample. For example, in the United States, preelection random-digit-dialing (RDD) polls want to generalize to the voting population, but systematically exclude all voters not living in households with telephones. Likewise, samples of businesses often underrepresent smaller firms. The second type of nonobservational error consists of nonresponse (units are included in the sample, but are not successfully interviewed). Nonresponse has three main causes: refusal to participate, failure to contact because people are away from home (e.g., working or on vacation), and all other reasons (such as illness and mental and/or physical handicaps).

Observational error includes collection, processing, and analysis errors. As with variable error, collection error is related to mode, instrument, interviewer, and respondent. Mode affects population coverage. Underrepresentation of the deaf and poor occurs in telephone surveys, and of the blind and illiterate, in mail surveys. Mode also affects the volume and quality of information gathered. Open-ended questions get shorter, less complete answers on telephone surveys, compared to in-person interviews. Bias also is associated with the instrument. Content, or the range of information covered, obviously determines what is collected. One example of content error is when questions presenting only one side of an issue are included, such as is commonly done in what is known as advocacy polling. A second example is specification error, in which one or more essential variable is omitted so that models cannot be adequately constructed and are therefore misspecified.

Various problematic aspects of question wordings can distort questions. These include questions that are too long and complex, are double-barreled, include double negatives, use loaded terms, and contain words that are not widely understood. For example, the following item on the Holocaust is both complex and uses a double negative: “As you know, the term ‘holocaust’ usually refers to the killing of millions of Jews in Nazi death camps during World War II. Does it seem possible or does it seem impossible to you that the Nazi extermination of the Jews never happened?” After being presented with this statement in a national U.S. RDD poll in 1992, 22% of respondents said it was possible that the Holocaust never happened, 65% said that it was impossible that it never happened, and 12% were unsure. Subsequent research, however, demonstrated that many people had been confused by the wording and that Holocaust doubters were actually about 2% of the population, not 22%. Error from question wording also occurs when terms are not understood in a consistent manner.

The response scales offered also create problems. Some formats, such as magnitude measurement scaling, are difficult to follow, leaving many, especially the least educated, unable to express an opinion. Even widely used and simple scales can cause error. The 10-point scalometer has no clear midpoint and many people wrongly select point 5 on the 1–10 scale in a failed attempt to place themselves in the middle. Context, or the order of items in a survey, also influences responses in a number of quite different ways. Prior questions may activate certain topics and make them more accessible (and thus more influential) when later questions are asked. Or they may create a contrast effect under which the prior content is excluded from later consideration under a nonrepetition rule. A norm of evenhandedness may be created that makes people answer later questions in a manner consistent with earlier questions. For example, during the Cold War, Americans, after being asked if American reporters should be allowed to report the news in Russia, were much more likely to say that Russian reporters should be allowed to cover stories in the United States, compared to when the questions about Russian reporters were asked first. Even survey introductions can influence the data quality of the subsequent questions.

Although social science scholars hope that interviewers merely collect information, in actuality, interviewers also affect what information is reported. First, the mere presence of an interviewer usually magnifies social desirability effects, so that there is more underreporting of sensitive behaviors to interviewers than when self- completion is used. Second, basic characteristics of interviewers influence responses. For example, Whites express more support for racial equality and integration when interviewed by Blacks than when interviewed by Whites. Third, interviewers may have points of view that they convey to respondents, leading interviewers to interpret responses, especially to open-ended questions, in light of their beliefs.

Much collection error originates from respondents. Some problems are cognitive. Even given the best of intentions, people are fallible sources. Reports of past behaviors may be distorted due to forgetting the incidents or misdating them. Minor events will often be forgotten, and major events will frequently be recalled as occurring more recently than was actually the case. Of course, respondents do not always have the best of intentions. People tend to underreport behaviors that reflect badly on themselves (e.g., drug use and criminal records) and to overreport positive behaviors (e.g., voting and giving to charities).

Systematic error occurs during the processing of data. One source of error relates to the different ways in which data may be coded. A study of social change in Detroit initially found large changes in respondents’ answers to the same open-ended question asked and coded several decades apart. However, when the original open-ended responses from the earlier survey were recoded by the same coders who coded the latter survey, the differences virtually disappeared, indicating that the change had been in coding protocols and execution, not in the attitudes of Detroiters. Although data-entry errors are more often random, they can seriously bias results. For example, at one point in time, no residents of Hartford, Connecticut were being called for jury duty; it was discovered that the new database of residents had been formatted such that the “d” in “Hartford” fell in a field indicating that the listee was dead. Errors can also occur when data are transferred. Examples include incorrect recoding, misnamed variables, and misspecified data field locations. Sometimes loss can occur without any error being introduced. For example, 20 vocabulary items were asked on a Gallup survey in the 1950s and a summary scale was created. The summary scale data still survive, but the 20 individual variables have been lost. Later surveys included 10 of the vocabulary items, but they cannot be compared to the 20-item summary scale.

Wrong or incomplete documentation can lead to error. For example, documentation on the 1967 Political Participation Study (PPS) indicated that one of the group memberships asked about was “church-affiliated groups.” Therefore, when the group membership battery was later used in the General Social Surveys (GSSs), religious groups were one of the 16 groups presented to respondents. However, it was later discovered that church-affiliated groups had not been explicitly asked about on the earlier survey, but that the designation had been pulled out of an “other-specify” item. Because the GSS explicitly asked about religious groups, it got many more mentions than had appeared in the PPS; this was merely an artifact of different data collection procedures that resulted from unclear documentation.

Most discussions of total survey error stop at the data-processing stage. But data do not speak for themselves. Data “speak” when they are analyzed, and the analysis is reported by researchers. Considerable error is often introduced at this final stage. Models may be misspecified, not only by leaving crucial variables out of the survey, but also by omitting such variables from the analysis, even when they are collected. All sorts of statistical and computational errors occur during analysis. For example, in one analysis of a model explaining levels of gun violence, a 1 percentage point increase from a base incidence level of about 1% was misdescribed as a 1% increase, rather than as a 100% increase. Even when a quantitative analysis is done impeccably, distortion can occur in the write-up. Common problems include the use of jargon, unclear writing, the overemphasis and exaggeration of results, inaccurate descriptions, and incomplete documentation. Although each of the many sources of total survey error can be discussed individually, they constantly interact with one another in complex ways. For example, poorly trained interviewers are more likely to make mistakes with complex questionnaires, the race of the interviewer can interact with the race of respondents to create response effects, long, burdensome questionnaires are more likely to create fatigue among elderly respondents, and response scales using full rankings are harder to do over the phone than in person. In fact, no stage of a survey is really separate from the other stages, and most survey error results from, or is shaped by, interactions between the various components of a survey.

Read full chapter

URL: 

https://www.sciencedirect.com/science/article/pii/B0123693985001262

Validity

Carina Coulacoglou, Donald H. Saklofske, in Psychometrics and Psychological Assessment, 2017

Assessing measurement invariance

Bias is a technical term that addresses systematic errors that lead to differential interpretation of scores. In order to evaluate bias, we must determine whether knowledge of an examinee’s group membership influences the examinee’s score on the measured variance (e.g., an item, subdomain, or test), given the examinee’s status on the latent variance of interest (Millsap, 2011). Consequently, for a test to be fair (from a psychometric perspective) it should exhibit measurement invariance across all distinctive subgroups being evaluated. The degree to which the construct measured by a test is consistent across subgroups is known as construct equivalence (CE). CE is of special concern in cross-cultural research whereby constructs, such as intelligence and morality can be culturally affected (Van de Vijver & Poortinga, 2005). It is also associated with test adaptations or computer-based testing whereby the conditions of test administration are altered. The degree to which such alterations affect the construct is unknown.

CE can be evaluated statistically by Confirmatory Factor Analysis (CFA) and weighted multidimensional scaling (MDS), as they are able to analyze the structure of data from multiple groups simultaneously. CFA evaluated the hypothesized test structure, whereas MDS is an exploratory analysis that fits dimensions to best account for the data in all groups. In CFA the degree to which the hypothetical structure adequately fits the data for multiple groups can be analyzed using descriptive statistics, such as root mean square error of approximation, standardized root mean square residual, and adjusted goodness-of-fit statistic.

There are numerous statistical approaches for assessing measurement in variance. These methods can be classified into three groups: (1) linear measurements models, (2) nonlinear measurements models, and (3) observed score methods (Millsap, 2011). These approaches can be broken down into methods that estimate invariance at the scale and item levels (Zumbo, 2003). Scale-level analyses focus on the degree of invariance observed within common factor analytic models across groups. In contrast, item-level analyses and differential item functioning (DIF) examine invariance separately for each item. DIF examines the situation in which examiners who have equal standing on the target construct but those who come from different groups (e.g., ethnicity, age) have different probabilities of responding to the item (Holland & Thayer, 1988). “DIF represents a statistical interaction between group membership and item performance after matching examinees across groups on some criterion (usually total test score)” (Sireci & Sukin, 2013).

Read full chapter

URL: 

https://www.sciencedirect.com/science/article/pii/B9780128022191000031

Decision Making, Psychology of

J. van der Pligt, in International Encyclopedia of the Social & Behavioral Sciences, 2001

3 Heuristics

The study of heuristics tends to focus on systematic errors in human decision making and these heuristics often help to understand anomalies of inferring expectations from evidence (see Heuristics in Social Cognition).

Three heuristics that deal with probabilistic thinking have received considerable attention: (a) availability, (b) representativeness, and (c) anchoring and adjustment. The availability heuristic refers to the tendency to assess the probability of an event based on the ease with which instances of that event come to mind. This heuristic has been investigated in a variety of domains and relates probability estimates to memory access. Generally people overestimate the probability of an event if concrete instances of that event are easily accessible in memory. Generally, ease of recall and frequency of occurrence are correlated. A number of factors that affect memory are, however, unrelated to probability. For example, vivid images are easier to recall than pallid ones. Thus, having been involved in a serious car accident is likely to be better remembered than annual statistics about the frequency of (types of) traffic accidents. The former is likely to have more impact on probability estimates than the latter. Dawes (1994) argued that the salience of negative and relatively extreme exemplars of drug addicts can bias policy-makers’ perceptions of the entire group and result in negative attitudes toward programs such as the provision of clean needles to prevent a further spread of the AIDS virus.

The representativeness heuristic refers to the tendency to assess the probability that a stimulus belongs to a particular class by judging the degree to which that event corresponds to an appropriate mental model. Kahneman and Tversky (1973) reported a well-known example of how ignoring prior probabilities can affect judgment. In their study, respondents were provided with brief personality sketches, supposedly of engineers and lawyers. They were asked to assess the probability that each sketch described a member of one profession or the other. Half the respondents were told the population from which the sketches were drawn consisted of 30 engineers and 70 lawyers, the remaining respondents were told that there were 70 engineers and 30 lawyers. Findings showed that the prior probabilities were essentially ignored, and that respondents estimated the probability of class membership by judging how similar each personality sketch was to their mental model of an engineer or a lawyer.

Anchoring and adjustment refers to a general judgment process in which an initially given or generated response serves as an anchor, and other information is insufficiently used to adjust that response. The anchoring and adjustment heuristic is based on the assumption that people often start their judgmental process by focusing on some initial value that serves as an anchor. The biases related to this heuristic stem from two distinct aspects. First, one could use irrelevant anchors, second one could insufficiently adjust up or down from an original starting value or anchor.

Read full chapter

URL: 

https://www.sciencedirect.com/science/article/pii/B0080430767017502

Experimenter and Subject Artifacts: Methodology

R.L. Rosnow, in International Encyclopedia of the Social & Behavioral Sciences, 2001

‘Experimenter artifacts’ and ‘subject artifacts’ refer to systematic errors that can be attributed to uncontrolled aspects of the interaction between the researcher and the research participants or to other potentially bias-prone aspects of a research situation, such as the analysis, interpretation, and reporting of the research results. Particular experimenter artifacts that have been studied include observer, interpreter, intentional, biosocial, psychosocial, situational, modeling, and experimenter-expectancy effects. Subject artifacts that have been primarily investigated are generally concerned with the motivation of the research participants and their sensitivity and compliance with task-orienting cues. Discussed in this article are the history of artifacts in the social and behavioral sciences, the specific nature and control of experimenter and subject artifacts, and the delicate balance between ethical accountability, and the avoidance of artifacts in research with human participants.

Read full chapter

URL: 

https://www.sciencedirect.com/science/article/pii/B0080430767007282

Sociocultural and Individual Differences

Cecil R. Reynolds, in Comprehensive Clinical Psychology, 1998

10.03.6 The Problem of Definition

The definition of test bias has produced considerable continuing debate among measurement and assessment experts (Angoff, 1976; Bass, 1976; Bernal, 1975; Bond, 1981; Cleary et al., 1975; Cole & Moss, 1989; Cronbach, 1976; Dana, 1993; Darlington, 1978; Einhorn & Bass, 1970; Flaugher, 1978; Gordon, 1984; Gross & Su, 1975; Helms, 1992; Humphreys, 1973; Hunter & Schmidt, 1976, 1978; Jackson, 1980; Linn, 1976; McNemar, 1975; Moreland, 1996; Novick & Petersen, 1976; Padilla, 1988; Petersen & Novick, 1976; Reschly, 1980; Reynolds, 1978; 1982b, 1995; Reynolds & Brown, 1984; Sawyer, Cole, & Cole, 1976; Schmidt & Hunter, 1974; Thorndike, 1971). Although the resulting debate has generated a number of selection models with which to examine bias, selection models focus on the decision-making system and not on the test itself. The various selection models are discussed at some length in Schmidt and Hunter (1974), Hunter, Schmidt, and Rauschenberger (1984), Jensen (1980), Petersen and Novick (1976), and Ramsey (1979). The choice of a decision-making system (especially a system for educational decision-making) must ultimately be a societal one; as such, it will depend to a large extent on the value system and goals of the society. Thus, before a model for test use in selection (whether ultimately selection is for a treatment program, a job, a college, etc.) can be chosen, it must be decided whether the ultimate goal of selection is equality of opportunity, equality of outcome, or representative equality (these concepts are discussed in more detail in Nichols, 1978).

“Equality of opportunity” is a competitive model wherein selection is based on ability. As more eloquently stated by Lewontin (1970), under equality of opportunity, “true merit … will be the criterion of men’s earthly reward” (p. 92). “Equality of outcome” is a selection model based on ability deficits. Schooling provides a good model to illustrate these concepts that are also applicable to mental health. Compensatory and remedial programs are typically constructed on the basis of the equality-of-outcome model. Children of low ability or children believed to be a high risk for academic failure are selected for remedial, compensatory, or other special educational programs. Adults vying for jobs may be placed in specialized job training programs. In a strictly predictive sense, tests are used in a similar manner under both of these models. However, under equality of opportunity, selection is based on the prediction of a high level of criterion performance; under equality of outcome, selection is determined by the prediction of “failure” or a preselected low level of criterion performance. Interestingly, it is the failure of compensatory and remedial education programs to bring the disadvantaged learner to “average” levels of performance that resulted in the charges of test bias now in vogue.

The model of “representative equality” also relies on selection, but selection that is proportionate to numerical representation of subgroups in the population under consideration. Representative equality is typically thought to be independent of the level of ability within each group; however, models can be constructed that select from each subgroup the desired proportion of individuals (i) according to relative ability level of the group, (ii) independent of group ability, or (iii) according to some decision rule between these two positions. Even under the conditions of representative equality, it is imperative to employ a selection device (test) that will rank order individuals within groups in a reliable and valid manner. The best way to ensure fair selection under any of these models is to employ tests whose scores are equally reliable and equally valid for all groups concerned. The tests employed should also yield the most reliable and most valid scores for all groups under consideration. The question of test bias per se then becomes a question of test validity. Test use (i.e., fairness) may be defined as biased or nonbiased only by the societal value system; at present, this value system within the USA is leaning strongly toward some variant of the representative-equality selection model. In other sociopolitical structures, other models may be more appropriate. As noted above, all models are facilitated by the use of a nonbiased test. That is, the use of a test with equivalent cross-group validities makes for the most parsimonious selection model, greatly simplifying the creation and application of the selection model that has been chosen.

This leads to the essential definitional component of test bias. “Test bias” refers in a global sense to systematic error in the estimation of some “true” value for a group of individuals. The key word here is “systematic”; all measures contain error and in all cultural settings, but this error is assumed to be random unless shown to be otherwise. Bias investigation is a statistical inquiry that does not concern itself with culture loading, labeling effects, or test use/test fairness. Concerning the last of these, Jensen (1980) comments,

[U]nbiased tests can be used unfairly and biased tests can be used fairly. Therefore, the concepts of bias and unfairness should be kept distinct… [A] number of different, and often mutually contradictory, criteria for fairness have been proposed, and no amount of statistical or psychometric reasoning per se can possible settle any arguments as to which is best. (pp. 375-376)

There are three types of validity as traditionally conceived: content, construct, and predictive (or criterion-related). Test bias may exist under any or all of these categories of validity. Though no category of validity is completely independent of any other category, each is discussed separately here for the purposes of clarity and convenience. (All true evidence of validity is as likely as not to be construct validity, and other, more detailed divisions including this one are for convenience of discussion.) Frequently encountered in bias research are the terms “single-group validity” and “differential validity.” Single-group validity refers to the phenomenon of a score interpretation being valid for one group but not another. Differential validity refers to a condition where an interpretation is valid for all groups concerned, but the degree of validity varies as a function of group membership. Although these terms have been most often applied to predictive or criterion-related validity (validity coefficients are then examined for significance and compared across groups), the concepts of single-group and differential validity are equally applicable to content and construct validity.

Read full chapter

URL: 

https://www.sciencedirect.com/science/article/pii/B008042707300105X

Смещение в статистическом анализе из-за неслучайного выбора

Выбрать смещение — это смещение, вызванное отбором лиц, групп или данных для анализа таким образом, что не достигается надлежащая рандомизация, что гарантирует, что полученная выборка не репрезентативна для предполагаемой совокупности. подлежат анализу. Иногда его называют эффектом выбора . Фраза «систематическая ошибка отбора» чаще всего относится к искажению статистического анализа, вызванному методом сбора образцов. Если не учитывать систематическую ошибку отбора, то некоторые выводы исследования могут быть ложными.

Содержание

  • 1 Типы
    • 1.1 Смещение выборки
    • 1.2 Временной интервал
    • 1.3 Экспозиция
    • 1.4 Данные
    • 1.5 Исследования
    • 1.6 Истощение
    • 1.7 Выбор наблюдателя
    • 1.8 Предвзятость добровольцев
  • 2 Смягчение
  • 3 Связанные вопросы
  • 4 См. Также
  • 5 Ссылки

Типы

Существует много типов возможной систематической ошибки выбора, в том числе:

Ошибка выборки

Ошибка выборки — это систематическая ошибка из-за не случайной выборки генеральной совокупности, в результате чего вероятность включения одних членов совокупности в выборку ниже, чем у других, что приводит к предвзятая выборка, определяемая как статистическая выборка из совокупности (или нечеловеческих факторов), в которой все участники не одинаково сбалансированы или объективно представлены. Это в основном классифицируется как подтип смещения выборки, иногда конкретно называемый смещением выборки, но некоторые классифицируют его как отдельный тип смещения.

Различие смещения выборки (хотя и не является общепринятым) заключается в том, что он подрывает внешнюю валидность теста (возможность обобщения его результатов для остальной совокупности), в то время как систематическая ошибка отбора в основном касается внутренней валидности различий или сходств, обнаруженных в образец под рукой. В этом смысле ошибки, возникающие в процессе сбора выборки или когорты, вызывают смещение выборки, тогда как ошибки в любом процессе впоследствии вызывают смещение выборки.

Примеры систематической ошибки выборки включают самостоятельный выбор, предварительный отбор участников исследования, дисконтирование субъектов исследования / тестов, которые не были завершены, и систематическую ошибку миграции путем исключения субъектов, которые недавно переехали в или за пределами области исследования.

Временной интервал

  • Досрочное завершение испытания в тот момент, когда его результаты подтверждают желаемый вывод.
  • Испытание может быть прекращено досрочно при экстремальном значении (часто по этическим причины), но экстремальное значение, вероятно, будет достигнуто переменной с наибольшей дисперсией, даже если все переменные имеют одинаковое среднее.

Воздействие

  • Погрешность восприимчивости
    • Ошибка клинической восприимчивости, когда одно заболевание предрасполагает ко второму заболеванию, а лечение первого заболевания ошибочно предрасполагает ко второму заболеванию. Например, синдром постменопаузы дает более высокую вероятность развития рака эндометрия, поэтому эстрогены, назначаемые для лечения постменопаузального синдрома, могут получить более высокую, чем фактическую, вину за возникновение рака эндометрия.
    • Протопатическая предвзятость, когда кажется, что лечение первых симптомов болезни или другого исхода приводит к исходу. Это потенциальная ошибка, когда до постановки диагноза проходит время от первых симптомов и начала лечения. Его можно смягчить с помощью запаздывания, то есть исключения воздействий, имевших место в определенный период времени до постановки диагноза.
    • Смещение показаний, потенциальное смешение между причиной и следствием, когда воздействие зависит от индикация, например лечение проводится людям с высоким риском заражения заболеванием, что потенциально может привести к преобладанию пролеченных людей среди заболевших. Это может привести к ошибочному представлению о том, что лечение является причиной заболевания.

Данные

  • Разбиение (разделение) данных с учетом содержимого разделов, а затем их анализ с помощью тестов, разработанных для слепо выбранных разделов.
  • Постфактум изменение включения данных по произвольным или субъективным причинам, включая:
    • выбор вишни, что на самом деле не смещение выбора, а смещение подтверждения, когда определенные подмножества данные выбираются для подтверждения вывода (например, цитируются примеры авиакатастроф как свидетельство небезопасных полетов авиакомпаний, игнорируется гораздо более распространенный пример безопасных полетов. См.: Эвристика доступности )
    • Отклонение неверных данных о (1) произвольные основания вместо ранее заявленных или общепринятых критериев или (2) отбрасывание «выбросов » на статистических основаниях, которые не принимают во внимание важную информацию, которая может быть получена из «диких» наблюдений.

Исследования

  • Выбор исследований для включения в метаанализ (см. Также комбинаторный метаанализ ).
  • Проведение повторных экспериментов и отчет только о наиболее благоприятных результатах, возможно, перемаркировка лабораторных записей других экспериментов как «калибровочные испытания», «ошибки приборов» или «предварительные исследования».
  • Представление наиболее значимого результата землечерпалки, как если бы это был одиночный эксперимент (что логически то же самое как и предыдущий пункт, но считается менее нечестным).

Истощение

Систематическая ошибка отсева — это своего рода систематическая ошибка отбора, вызванная отсевами (потерей участников), не считая субъектов испытаний / тестов, которые не прошли до завершения. Это тесно связано с смещением выживаемости, когда в анализ включаются только субъекты, которые «пережили» процесс, или с смещением неудач, где только субъекты, которые «не прошли» процесс включены. Сюда входят прекращение обучения, отсутствие ответа (более низкий уровень ответов ), отказ от участия и отклонения от протокола. Он дает предвзятые результаты, если они не одинаковы в отношении воздействия и / или результата. Например, при тестировании программы диеты исследователь может просто отвергнуть всех, кто выбывает из исследования, но большинство из тех, кто выбывает, — это те, для кого она не сработала. Различные потери субъектов в группе вмешательства и группы сравнения могут изменить характеристики этих групп и исходы независимо от изучаемого вмешательства.

Потерянный для последующего наблюдения — это еще одна форма систематической ошибки истощения, которая в основном встречается в медицинских исследованиях. в течение длительного периода времени. Ошибка отсутствия ответов или удержания может зависеть от ряда как материальных, так и нематериальных факторов, таких как: богатство, образование, альтруизм, начальное понимание учебы и ее требований. Исследователи также могут быть не в состоянии провести последующий контакт из-за неадекватной идентифицирующей информации и контактных данных, собранных на начальном этапе набора и исследования.

Выбор наблюдателя

Философ Ник Бостром утверждал, что данные фильтруются не только по дизайну исследования и измерениям, но и по необходимому предварительному условию, что кто-то должен исследование. В ситуациях, когда существование наблюдателя или исследования коррелирует с данными, возникают эффекты выбора наблюдения и требуется антропное обоснование.

Примером может служить прошлое столкновение запись Земли: если большие столкновения вызовут массовые вымирания и экологические нарушения, исключающие эволюцию разумных наблюдателей на длительные периоды, никто не будет наблюдать никаких свидетельств крупных столкновений в недавнем прошлом (поскольку они препятствовали бы развитию разумных наблюдателей). Следовательно, есть потенциальная погрешность в записях столкновений с Землей. Астрономические экзистенциальные риски также могут быть недооценены из-за систематической ошибки отбора, и необходимо ввести антропную поправку.

Предвзятость добровольцев

Предвзятость самоотбора или предвзятость добровольцев в исследования предлагают дополнительную угрозу достоверности исследования, поскольку эти участники могут иметь характеристики, существенно отличающиеся от целевой популяции исследования. Исследования показали, что волонтеры, как правило, имеют более высокое социальное положение, чем более низкое социально-экономическое положение. Кроме того, другое исследование показывает, что женщины более склонны участвовать в исследованиях, чем мужчины. Предвзятость волонтеров очевидна на протяжении всего жизненного цикла исследования, от набора до последующих наблюдений. В более общем плане реакцию добровольцев можно объяснить индивидуальным альтруизмом, желанием одобрения, личным отношением к теме исследования и другими причинами. Как и в большинстве случаев, смягчением последствий в случае предвзятости добровольцев является увеличение размера выборки.

Снижение риска

В общем случае смещения выборки невозможно преодолеть только статистическим анализом существующих данных, хотя поправка Хекмана может использоваться в особых случаях. Оценка степени систематической ошибки отбора может быть сделана путем изучения корреляций между экзогенными (фоновыми) переменными и показателем лечения. Однако в регрессионных моделях именно корреляция между ненаблюдаемыми детерминантами результата и ненаблюдаемыми детерминантами отбора в выборку приводит к смещению оценок, и эта корреляция между ненаблюдаемыми объектами не может быть напрямую оценена наблюдаемыми детерминантами лечения. 48>

Когда данные выбираются для подгонки или прогнозирования, можно настроить коалиционную игру, чтобы можно было определить функцию подгонки или точности прогноза для всех подмножеств переменных данных.

Связанные вопросы

Смещение отбора тесно связано с:

  • смещением публикации или смещением отчетности, искажением восприятия сообществом или мета -анализирует, не публикуя неинтересные (обычно отрицательные) результаты или результаты, которые идут вразрез с предрассудками экспериментатора, интересами спонсора или ожиданиями сообщества.
  • предвзятость подтверждения, общая тенденция людей уделять больше внимания ко всему, что подтверждает нашу ранее существовавшую точку зрения; или, в частности, в экспериментальной науке, искажение, вызванное экспериментами, которые предназначены для поиска подтверждающих доказательств, а не для попытки опровергнуть гипотезу.
  • ошибка исключения возникает в результате применения различных критериев к случаям и средствам контроля в отношении права участия в исследование / различные переменные, служащие основанием для исключения.

См. также

  • Парадокс Берксона — Тенденция неверно истолковывать статистические эксперименты с условными вероятностями
  • Теория черного лебедя — Теория реакции на неожиданные события
  • Сбор вишни — Логическая ошибка
  • Предубеждение в отношении финансирования
  • Список когнитивных предубеждений — Систематические закономерности отклонения от нормы или рациональности суждений
  • Предвзятость участия
  • Предвзятость публикации — Более высокая вероятность публикации результатов, показывающих значительный вывод.
  • Ошибка в отчетности
  • Ошибка выборки
  • Вероятность выборки
  • Теория выборочного воздействия — Теория в психологии, относящаяся к тенденции отдавать предпочтение информации ция, которая усиливает ранее существовавшие взгляды
  • Самоисполняющееся пророчество — Предсказание, которое заставляет себя сбываться
  • Смещение выживаемости — Логическая ошибка, форма смещения выбора
  • Иллюзия частоты

Ссылки

Понравилась статья? Поделить с друзьями:
  • Система не обнаружила msvcp110 dll windows 10 как исправить ошибку
  • Система не обнаружила msvcp110 dll windows 10 как исправить dying light
  • Система не обнаружила msvcp100 dll windows 10 как исправить ошибку
  • Систематическая ошибка обусловлена тест
  • Система не обнаружила mfc140u dll windows 10 как исправить