Систематическая ошибка выборки это

Работа по теме: Лекции по Статистике . Глава: 2.1 Ошибки систематические и случайные. ВУЗ: РГАУ.

Поскольку
выборка охватывает , как правило,
весьма незначительную часть генеральной
совокупности, то следует предполагать,
что будут иметь место различия между
оценкой и характеристикой генеральной
совокупности, которую эта оценка
отображает. Эти различия получили
название ошибок отображения или ошибок
репрезентативности. Ошибки
репрезентативности подразделяются
на два типа : систематические и случайные.

Систематические
ошибки

это постоянное завышение или занижение
значения оценки по сравнению с
характеристикой генеральной совокупности
. Причиной появления систематической
ошибки является несоблюдение принципа
равновероятности попадания каждой
единицы генеральной совокупности в
выборку , то есть выборка формируется
из преимущественно «худших» ( или «
лучших») представителей генеральной
совокупности. Соблюдение принципа
равновозможности попадания каждой
единицы в выборку позволяет полностью
исключить этот тип ошибок .

Случайные
ошибки

это меняющиеся
от выборки к выборке по знаку и величине
различия между оценкой и оцениваемой
характеристикой генеральной совокупности
. Причина возникновения случайных
ошибок- игра случая при формировании
выборки, составляющей лишь часть
генеральной совокупности. Этот тип
ошибок органически присущ выборочному
методу. Исключить их полностью нельзя,
задача состоит в том , чтобы предсказать
их возможную величину и свести их к
минимуму. Порядок связанных в связи
с этим действий вытекает из рассмотрения
трех видов случайных ошибок : конкретной
, средней и предельной.

2.2 Конкретная, средняя и предельная ошибки выборки

2.2.1
Конкретная

ошибка – это ошибка одной проведенной
выборки. Если средняя по этой выборке
(
) является оценкой для генеральной
средней (0
) и, если
предположить, что эта генеральная
средняя нам известна , то разница
=0
и будет
конкретной ошибкой этой выборки. Если
из этой генеральной совокупности
выборку повторим многократно, то каждый
раз получим новую величину конкретной
ошибки :
…,
и так далее.
Относительно этих конкретных ошибок
можно сказать следующее: некоторые из
них будут совпадать между собой по
величине и знаку, то есть имеет место
распределение ошибок, часть из них
будет равна 0, наблюдается совпадение
оценки и параметра генеральной
совокупности;

2.2.2
Средняя ошибка

– это средняя квадратическая из всех
возможных по воле случая конкретных
ошибок оценки :
,
где— величина меняющихся конкретных
ошибок;частота
( вероятность ) встречаемости той или
иной конкретной ошибки. Средняя
ошибка выборки показывает насколько
в среднем можно ошибиться , если на
основе оценки делается суждение о
параметре генеральной совокупности.
Приведенная формула раскрывает
содержание средней ошибки, но она не
может быть использована для практических
расчетов, хотя бы потому, что предполагает
знание параметра генеральной совокупности
, что само по себе исключает необходимость
выборки.

Практические
расчеты средней ошибки оценки
основываются на той предпосылке, что
она ( средняя ошибка ) по сути является
средним квадратическим отклонением
всех возможных значений оценки. Эта
предпосылка позволяет получить алгоритмы
расчета средней ошибки, опирающиеся
на данные одной единственной выборки.
В частности средняя ошибка выборочной
средней может быть установлена на
основе следующих рассуждений. Имеется
выборка (
,) состоящая изединиц. По выборке в качестве оценки
генеральной средней определена
выборочная средняя. Каждое значение(,) , стоящее под знаком суммы, следует
рассматривать как независимую случайную
величину, поскольку при бесконечном
повторении выборки первая, вторая и
т.д. единицы могут принимать любые
значения из присутствующих в генеральной
совокупности. СледовательноПоскольку , как известно, дисперсия
суммы независимых случайных величин
равна сумме дисперсий , то.
Отсюда следует, что средняя ошибка для
выборочной средней будет равнаяи находится она в обратной зависимости
от численности выборки ( через корень
квадратный из нее ) и в прямой от среднего
квадратического отклонения признака
в генеральной совокупности. Это логично,
поскольку выборочная средняя является
состоятельной оценкой для генеральной
средней и по мере увеличения численности
выборки приближается по своему значению
к оцениваемому параметру генеральной
совокупности. Прямая зависимость
средней ошибки от колеблемости признака
обусловлена тем, что чем больше
изменчивость признака в генеральной
совокупности, тем сложнее на основе
выборки построить адекватную модель
генеральной совокупности. На практике
среднее квадратическое отклонение
признака по генеральной совокупности
заменяется его оценкой по выборке, и
тогда формула для расчета средней
ошибки выборочной средней приобретает
вид:,
при этом учитывая смещенность
выборочной дисперсии,
выборочное среднее квадратическое
отклонение рассчитывается по формуле=. Так как символомn
обозначена численность выборки. ,то
в знаменателе при расчете среднего
квадратического отклонения должна
использоваться не численность выборки
( n
), а так называемое число степеней
свободы (n-1).
Под числом степеней свободы понимается
число единиц в совокупности, которые
могут свободно варьировать ( изменяться
), если по совокупности определена
какая-либо характеристика. В нашем
случае , поскольку по выборке определена
ее средняя, свободно варьировать могут

единицы.

В
таблице 2.2 приведены формулы для
расчета средних ошибок различных
выборочных оценок . Как видно из этой
таблицы, величина средней ошибки по
всем оценкам находится в обратной связи
с численностью выборки и в прямой с
колеблемостью. Это можно сказать и
относительно средней ошибки выборочной
доли ( частости ). Под корнем стоит
дисперсия альтернативного признака,
установленная по выборке (
)

Приведенные
в таблице 2.2 формулы относятся к так
называемому случайному , повторному
отбору единиц в выборку. При других
способах отбора , о которых речь пойдет
ниже, формулы будут несколько
видоизменяться.

Таблица
2.2

Формулы для
расчета средних ошибок выборочных
оценок

Выборочные
оценки

Формулы
для расчета средней ошибки выборочной
оценки

Выборочная
средняя (
)

Выборочная
дисперсия
(
)

Выборочное
среднее квадратическое отклонение
( s
)

Выборочная
доля (w
)

2.2.3
Предельная ошибка выборки

Знание оценки и ее средней ошибки в
ряде случаев совершенно недостаточно
. Например , при использовании гормонов
при кормлении животных знать только
средний размер неразложившихся их
вредных остатков и среднюю ошибку,
значит подвергать потребителей продукции
серьезной опасности. Здесь настоятельно
напрашивается необходимость определения
максимальной ( предельной
ошибки
).
При использовании выборочного метода
предельная ошибка устанавливается не
в виде конкретной величины , а виде
равных границ

(
интервалов) в ту и другую сторону от
значения оценки.

Определение
границ предельной ошибки основывается
на особенностях распределения конкретных
ошибок . Для так называемых больших
выборок, численность которых более 30
единиц (
)
, конкретные ошибки распределяются в
соответствии с нормальным законом
распределения; при малых выборках () конкретные ошибки распределяются
в соответствии с законом распределения
Госсета

(
Стьюдента ). Применительно к конкретным
ошибкам выборочной средней функция
нормального распределения имеет
вид:
,
где— плотность вероятности появления тех
или иных значений,
при условии, что,
гдевыборочные средние;
генеральная средняя,— средняя ошибка для выборочной
средней. Поскольку средняя ошибка
()
является величиной постоянной, то в
соответствии с нормальным законом
распределяются конкретные ошибки,
выраженные в долях средней ошибки, или
так называемых нормированных отклонениях
.

Взяв
интеграл функции нормального
распределения, можно установить
вероятность того , что ошибка будет
заключена в некотором интервале
изменения t
и вероятность того, что ошибка выйдет
за пределы этого интервала ( обратное
событие ). Например , вероятность того,
что ошибка не превысит половину средней
ошибки ( в ту и другую сторону от
генеральной средней ) составляет
0,3829, что ошибка будет заключена в
пределах одной средней ошибки — 0,6827,
2-х средних ошибок -0,9545 и так далее.

Взаимосвязь
между уровнем вероятности и интервалом
изменения t
( а в конечном счете интервалом
изменения ошибки ) позволяет подойти
к определению интервала ( или границ )
предельной ошибки, увязав его величину
с вероятностью осуществления..
Вероятность осуществления -это
вероятность того, что ошибка будет
находится в некотором интервале.
Вероятность осуществления будет
«доверительной» в том случае, если
противоположное событие ( ошибка будет
находится вне интервала ) имеет такую
вероятность появления, которой можно
пренебречь. Поэтому доверительный
уровень вероятности устанавливают,
как правило, не ниже 0,90 (вероятность
противоположного события равна 0,10 ).
Чем больше негативных последствий
имеет появление ошибок вне установленного
интервала, тем выше должен быть
доверительный уровень вероятности (
0,95; 0,99 ; 0,999 и так далее ).

Выбрав
доверительный уровень вероятности
по таблице интеграла вероятности
нормального распределения, следует
найти соответствующее значение t,
а затем используя выражение
=определить интервал предельной ошибки.
Смысл полученной величины в следующем
– с принятым доверительным уровнем
вероятности предельная ошибка выборочной
средней не превысит величину.

Для
установления границ предельной ошибки
на основе больших выборок для других
оценок ( дисперсии, среднего квадратического
отклонения, доли и так далее ) используется
выше рассмотренный подход, с учетом
того, что для определения средней
ошибки для каждой оценки используется
свой алгоритм.

Что
касается малых выборок () то, как уже говорилось, распределение
ошибок оценок соответствует в этом
случае распределениюt
— Стьюдента. Особенность этого
распределения состоит в том, что в
качестве параметра в нем , наряду с
ошибкой, присутствует численность
выборки ,вернее не численность выборки,
а число степеней свободы
При увеличении численности выборки
распределениеt-Стьюдента
приближается к нормальному, а при
эти распределения практически совпадают.
Сопоставляя значения величиныt-Стьюдента
и t
— нормального распределения при одной
и той же доверительной вероятности
можно сказать , что величина t-Стьюдента
всегда больше t
— нормального распределения, причем,
различия возрастают с уменьшением
численности выборки и с повышением
доверительного уровня вероятности.
Следовательно, при использовании малых
выборок имеют место по сравнению с
выборками большими , более широкие
границы предельной ошибки, причем , эти
границы расширяются с уменьшением
численности выборки и повышением
доверительного уровня вероятности.

Вопросы для
повторения

6-1.Какова
природа конкретной, средней и предельной
ошибок ?

6-2.Как
соблюсти принцип равновероятности
каждой единицы попасть в выборку при
выборочном устном опросе студентов ?

6-3 Каков источник
систематической ошибки ?

6-4.Какова
вероятность появления ошибки в 2.5 раза
превышающей среднюю?

6-5.Какие
различия в знаках ( + , — ) имеют
систематические и случайные ошибки?

6-6.Каковы основные
пути уменьшения средней и предельной
ошибки ?

6-7.При какой
выборочной доле имеет место ее наибольшая
ошибка ?

6-8.При какой доле
признака имеет место ее наименьшая
ошибка 7

6-9.При
каких выборках ( больших или малых )
при прочих равных условиях имеет место
большая предельная ошибка ?

Резюме по
модульной единице 2

Использование
выборочного метода неизбежно сопряжено
с появлением ошибок. Случайный характер
этих ошибок, нормальный или t
— Стьюдента закон их распределения
позволяет определить их средний и
предельный размер и видеть пути их
снижения

Модульная
единица 3 Типовые задачи решаемые на
основе выборочного метода

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Когда исследователи рассматривают вопросы, представляющие интерес для аналитиков или портфельных менеджеров, они могут исключить из анализа определенные акции, облигации, портфели, или периоды времени, по разным причинам — возможно, из-за недоступности данных.

Когда недоступность данных приводит к исключению из анализа определенных активов, мы называем эту проблему систематической ошибкой или смещением выборки (англ. ‘sample selection bias’ или ‘sampling bias’).

Например, вы можете сделать выборку из базы данных, которая отслеживает только компании, существующие в настоящее время. Например, многие базы данных взаимных фондов предоставляют историческую информацию только о тех фондах, которые существуют в настоящее время.

Базы данных, в которых хранятся балансовые отчеты и отчеты о прибылях и убытках страдают от той же систематической ошибки, что и базы данных фондов: в них нет фондов или компаний, которые прекратили деятельность.

Исследование, которое использует подобные базы данных, подвержено разновидности систематической ошибки выборки, известной как систематическая ошибка выжившего (англ. ‘survivorship bias’).

Исследователи Димсон, Марш и Стонтон (Dimson, Marsh, and Staunton, 2002) подняли вопрос о систематической ошибке выжившего в международных финансовых индексах:

Известной проблемой является влияние выживания рынков на долгосрочную оценку доходности. Рынки могут испытывать не только разочаровывающие результаты, но и полную потерю стоимости за счет конфискации, гиперинфляции, национализации и кризисов.

При оценке результатов рынков, которые выживают в течение длительных интервалов времени, мы сделали выводы о том, чем обусловлено выживание. Тем не менее, как отметили в исследовании Браун, Готцман и Росс (Brown, Goetzmann, и Ross) в 1995 г. и Готцман и Джорион (Goetzmann and Jorion) в 1999 г., человек не способен заранее определить, какие рынки выживут, а какие нет. (стр. 41)

Систематическая ошибка выжившего иногда появляется, когда мы используем совместно цены акций и данные бухгалтерского учета.

Например, многие исследования в области финансов использовали соотношение рыночной стоимости компании к бухгалтерской стоимости компании на одну акцию (т.е. коэффициент котировки акций, англ. P/B, от ‘price-to-book ratio’ или ‘market-to-book ratio’) и обнаружили, что коэффициент P/B обратно пропорционален доходности компании (см. Fama and French 1992, 1993).

Коэффициент P/B также используется для многих популярных индексов стоимости и роста.

Если база данных, которую мы используем для сбора данных бухгалтерского учета, исключает обанкротившиеся компании, это может привести к систематической ошибке выжившего.


Котхари, Шанкен и Слоун (Kothari, Shanken, and Sloan) в 1995 г. исследовали именно этот вопрос, и оспорили то, что акциям обанкротившихся компаний свойственна самая низкая доходность и коэффициент P/B.

Если мы исключаем из выборки акции обанкротившихся компаний, то акции с низким P/B, которые включены в выборку, будут иметь в среднем более высокую доходность, по сравнению со средней доходностью при включении в выборку всех акций с низким P/B. Котхари, Шанкен и Слоун предположили, что эта систематическая ошибка привела к выводу об обратной связи между средней доходностью и P/B.

См. Fama and French (1996, стр. 80) о интеллектуальном анализе данных и систематической ошибке выжившего в их тестах.

Единственный совет, который мы можем предложить в этой ситуации, — это быть в курсе каких-либо смещений, потенциально присущих в выборке. Очевидно, что смещения выборки могут затуманить результаты любого исследования.

Выборка также может быть смещена из-за удаления (или делистинга) акций компании.

Делистинг (англ. ‘delisting’), т.е. исключение акций компании из котировального списка биржи, может происходить по разным причинам: слияние, банкротство, ликвидация, или переход на другую биржу.

Например, Центр исследований котировок ценных бумаг (CRSP, от англ. Center for Research in Security Prices) в Университете Чикаго является основным поставщиком данных о доходности, используемых в научных исследованиях. Когда происходит делистинг, CRSP пытается собрать данные о доходности исключенной компании, но во многих случаях он не может сделать этого из-за связанных с делистингом трудностях. CRSP вынужден просто указать значение доходности исключенной компании как отсутствующее.


Исследование, опубликованное в Финансовом журнале (см. The Journal of Finance) Шумвеем и Вортером (Shumway and Warther) в 1999 году, задокументировало смещение данных доходности NASDAQ в CRSP, вызванное делистингом.

Авторы показали, что делистинг, связанный с плохой работой компании (например, банкротством) исключается из данных чаще, чем делистинг, связанный с хорошей или нейтральной эффективностью компании (например, слиянием или перемещением на другой рынок). Кроме того, делистинг чаще происходит с небольшими компаниями.

Систематическая ошибка выборки встречается даже на рынках, где качество и согласованность данных весьма высоки. Новые классы активов, такие как хедж-фонды могут представлять еще большие проблемы смещения выборки.


Хедж-фонды (англ. ‘hedge funds’) представляют собой гетерогенную группу инвестиционных инструментов, как правило, организованных таким образом, чтобы быть свободными от регулирующего контроля. В целом, хедж-фонды не обязаны публично раскрывать свою эффективность (в отличие, скажем, от взаимных фондов). Хедж-фонды сами решают, нужно ли им включаться в какую-либо базу данных хедж-фондов.

Хедж фонды с плохой репутацией явно не желают, чтобы их результаты публиковались в базе данных, создавая проблему смещения самовыборки (англ. ‘self-selection bias’) в базах данных хедж-фондов.

Кроме того, как отметили Фанг и Хсие (Fung and Hsieh) в исследовании 2002 г., поскольку только хедж-фонды с хорошими показателями добровольно попадают в базу данных, в целом, историческая эффективность отрасли хедж-фондов имеет тенденцию казаться лучше, чем она есть на самом деле.

Кроме того, многие базы данных хедж-фондов исключают фонды, которые выходят из бизнеса, создавая в базе данных систематическую ошибку выжившего. Даже если база данных не удаляет несуществующие хедж-фонды, в попытке устранить ошибку выжившего, остается проблема хедж-фондов, которые перестают отчитываться об эффективности из-за плохих результатов.

См. Fung and Hsieh (2002) и Horst and Verbeek (2007) для более подробной информации о проблемах интерпретации эффективности хедж-фондов.

Обратите внимание, что систематическая ошибка также возможна, когда успешные фонды перестают отчитываться об эффективности, поскольку они больше не нуждаются в новых потоках денежных средств.

Систематическая ошибка опережения.

Процесс тестирования также подвержен систематической ошибке опережения (англ. ‘look-ahead bias’), если он использует информацию, которая не была доступна на момент тестирования.

Например, тесты правил биржевой торговли, которые используют ставки доходности фондового рынка и данные бухгалтерских балансов должны учитывать систематическую ошибку опережения.

В таких тестах, балансовая стоимость компании на акцию обычно используются для расчета коэффициента P/B.

Хотя рыночная цена акции доступна для всех участников рынка на заданный момент времени, балансовая стоимость на акцию на конец финансового года может стать общедоступной только в будущем — когда-то в следующем квартале.

Систематическая ошибка временного периода.

Тесты также подвержены систематической ошибке или смещению временного периода (англ. ‘time-period bias’), если они основаны на временном периоде, для которого результаты тестирования будут специфичными (т.е., характерными только для данного периода).

Ряды коротких временных периодов, скорее всего, дадут результаты, специфичные для определенного периода, которые могут не отражать более длительный период.

Ряды длительных временных периодов могут дать более точную картину истинной эффективности инвестиций. Недостаток длительных периодов заключается в потенциальных структурных изменениях, происходящих в течение периода, что приведет к двум различным распределениям доходности.

В этой ситуации, распределение, отражающее условия до изменений, будет отличаться от распределения, которые описывают условия после изменений.

Пример (7) систематических ошибок в инвестиционных исследованиях.

Финансовый аналитик рассматривает эмпирические данные об исторической доходности акций США.

Она выясняет, что недооцененные акции (то есть, акции с низким P/B) превзошли по эффективности растущие акции (то есть, акции с высоким P/B) в некоторых последних периодах времени.

После изучения американского рынка, аналитик задается вопросом, могут ли недооцененные акции быть привлекательными в Великобритании. Она исследует эффективность недооцененных и растущих акций на британском рынке за 14-летний период с января 2000 года по декабрь 2013 года.

Для проведения этого исследования, аналитик делает следующее:

  • Получает текущий состав компаний Индекса всех акций FTSE (Financial Times Stock Exchange All Share Index), который является взвешенным индексом рыночной капитализации;
  • Исключает несколько компаний, у которых финансовый год не заканчивается в декабре;
  • Использует балансовую и рыночную стоимость компаний на конец года, чтобы ранжировать остальные пространство компаний по коэффициенту P/B на конец года;
  • На основе этих рейтингов, она делит пространство ценных бумаг на 10 портфелей, каждый из которых содержит одинаковое количество акций;
  • Вычисляет равновзвешенную доходность каждого портфеля и доходность FTSE All Share Index за 12 месяцев после даты расчета каждого рейтинга; а также
  • Вычитает доходность FTSE из доходности каждого портфеля, чтобы получить избыточную доходность для каждого портфеля.

Опишите и обсудите каждую из следующих систематических ошибок, которым подвержен план исследований аналитика:

  • систематическую ошибку выжившего;
  • систематическую ошибку опережения; а также
  • систематическую ошибку временного периода.

Систематическая ошибка выжившего.

План тестирования подвержен систематической ошибке выжившего, если он не принимает в расчет обанкротившиеся компании, слившиеся компании, а также компании, иным образом покинувшие базу.

В этом примере, аналитик использовала текущий список акций FTSE, а не фактический список акций на начало каждого года. В той степени, в которой расчет доходности не учитывает компании, исключенные из индекса, эффективность портфелей с наименьшим P/B подвершена систематической ошибке выжившего и, соответственно, может быть завышена.

В какой-то момент периода тестирования, эти ныне не существующие компании, были исключены из тестирования. У них, вероятно, были низкие цены на акции (и низкий P/ B) и плохая доходность.

Систематическая ошибка опережения.

План тестирования подвержен систематической ошибке опережения, если он использует информацию, недоступную на момент тестирования.

В этом примере, аналитик провела тест, сделав допущение о том, что необходимая бухгалтерская информация была доступна в конце финансового года.

Например, аналитик предположила, что балансовая стоимость на акцию за 2 000 финансовый года был известна на 31 декабря 2000 года. Поскольку эта информация, как правило, не публикуется в течение нескольких месяцев после завершения финансового года, тест, возможно, содержал систематическую ошибку опережения.

Эта ошибка может привести к стратегии, которая окажется успешной, но при этом потребуется идеальная способность прогнозировать бухгалтерские результаты.

Систематическая ошибка временного периода.

План тестирования подвержен систематической ошибке временного периода, если он основан на периоде, для которого результаты будут специфичны.

Хотя тестирование охватывает период более 10 лет, этот период может оказаться слишком коротким для тестирования аномалии.

В идеале, аналитик должна протестировать рыночные аномалии в течение нескольких бизнес-циклов, чтобы гарантировать, что результаты не являются специфичными для рассматриваемого периода.

Эта систематическая ошибка может способствовать предлагаемой стратегии, если выбрать временной период, благоприятный для стратегии.

Как мы уже знаем, репрезентативность — свойство выборочной совокупности представлять характеристику генеральной. Если совпадения нет, говорят об ошибке репрезентативности — мере отклонения статистической структуры выборки от структуры соответствующей генеральной совокупности. Предположим, что средний ежемесячный семейный доход пенсионеров в генеральной совокупности составляет 2 тыс. руб., а в выборочной — 6 тыс. руб. Это означает, что социолог опрашивал только зажиточную часть пенсионеров, а в его исследование вкралась ошибка репрезентативности. Иными словами, ошибкой репрезентативности называется расхождение между двумя совокупностями — генеральной, на которую направлен теоретический интерес социолога и представление о свойствах которой он хочет получить в конечном итоге, и выборочной, на которую направлен практический интерес социолога, которая выступает одновременно как объект обследования и средство получения информации о генеральной совокупности.

Наряду с термином «ошибка репрезентативности» в отечественной литературе можно встретить другой — «ошибка выборки». Иногда они употребляются как синонимы, а иногда «ошибка выборки» используется вместо «ошибки репрезентативности» как количественно более точное понятие.

Ошибка выборки — отклонение средних характеристик выборочной совокупности от средних характеристик генеральной совокупности.

На практике ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выборочными средними. В социологии при обследованиях взрослого населения чаще всего используют данные переписей населения, текущего статистического учета, результаты предшествующих опросов. В качестве контрольных параметров обычно применяются социально-демографические признаки. Сравнение средних генеральной и выборочной совокупностей, на основе этого определение ошибки выборки и ее уменьшение называется контролированием репрезентативности. Поскольку сравнение своих и чужих данных можно сделать по завершении исследования, такой способ контроля называется апостериорным, т.е. осуществляемым после опыта.

В опросах Института Дж. Гэллапа репрезентативность контролируется по имеющимся в национальных переписях данным о распределении населения по полу, возрасту, образованию, доходу, профессии, расовой принадлежности, месту проживания, величине населенного пункта. Всероссийский центр изучения общественного мнения (ВЦИОМ) использует для подобных целей такие показатели, как пол, возраст, образование, тип поселения, семейное положение, сфера занятости, должностной статус респондента, которые заимствуются в Государственном комитете по статистике РФ. В том и другом случае генеральная совокупность известна. Ошибку выборки невозможно установить, если неизвестны значения переменной в выборочной и генеральной совокупностях.

Специалисты ВЦИОМ обеспечивают при анализе данных тщательный ремонт выборки, чтобы минимизировать отклонения, возникшие на этапе полевых работ. Особенно сильные смещения наблюдаются по параметрам пола и возраста. Объясняется это тем, что женщины и люди с высшим образованием больше времени проводят дома и легче идут на контакт с интервьюером, т.е. являются легко достижимой группой по сравнению с мужчинами и людьми «необразованными»35.

Ошибка выборки обусловливается двумя факторами: методом формирования выборки и размером выборки.

Ошибки выборки подразделяются на два типа — случайные и систематические. Случайная ошибка — это вероятность того, что выборочная средняя выйдет (или не выйдет) за пределы заданного интервала. К случайным ошибкам относят статистические погрешности, присущие самому выборочному методу. Они уменьшаются при возрастании объема выборочной совокупности.

Второй тип ошибок выборки — систематические ошибки. Если социолог решил узнать мнение всех жителей города о проводимой местными органами власти социальной политике, а опросил только тех, у кого есть телефон, то возникает предумышленное смещение выборки в пользу зажиточных слоев, т.е. систематическая ошибка.

Таким образом, систематические ошибки — результат деятельности самого исследователя. Они наиболее опасны, поскольку приводят к довольно значительным смещениям результатов исследования. Систематические ошибки считаются страшнее случайных еще и потому, что они не поддаются контролю и измерению.

Они возникают, когда, например:

  1. выборка не соответствует задачам исследования (социолог решил изучить только работающих пенсионеров, а опросил всех подряд);
  2. налицо незнание характера генеральной совокупности (социолог думал, что 70% всех пенсионеров не работает, а оказалось, что не работает только 10%);
  3. отбираются только «выигрышные» элементы генеральной совокупности (например, только обеспеченные пенсионеры).

Внимание! В отличие от случайных ошибок систематические ошибки при возрастании объема выборки не уменьшаются.

Обобщив все случаи, когда происходят систематические ошибки, методисты составили их реестр. Они полагают, что источником неконтролируемых перекосов в распределении выборочных наблюдений могут быть следующие факторы:

  • нарушены методические и методологические правила проведения социологического исследования;
  • выбраны неадекватные способы формирования выборочной совокупности, методы сбора и расчета данных;
  • произошла замена требуемых единиц наблюдения другими, более доступными;
  • отмечен неполный охват выборочной совокупности (недополучение анкет, неполное их заполнение, труднодоступность единиц наблюдения).

Намеренные ошибки социолог допускает редко. Чаще ошибки возникают из-за того, что социологу плохо известна структура генеральной совокупности: распределение людей по возрасту, профессии, доходам и т.д.

Систематические ошибки легче предупредить (по сравнению со случайными), но их очень трудно устранить. Предупреждать систематические ошибки, точно предвидя их источники, лучше всего заранее — в самом начале исследования.

Вот некоторые способы избежать ошибок выборки:

  • каждая единица генеральной совокупности должна иметь равную вероятность попасть в выборку;
  • отбор желательно производить из однородных совокупностей;
  • надо знать характеристики генеральной совокупности;
  • при составлении выборочной совокупности надо учитывать случайные и систематические ошибки.

Если выборочная совокупность (или просто выборка) составлена правильно, то социолог получает надежные результаты, харастеризующие всю генеральную совокупность. Если она составлена неправильно, то ошибка, возникшая на этапе составления выборки, на каждом следующем этапе проведения социологического исследования приумножается и достигает в конечном счете такой величины, которая перевешивает ценность проведенного исследования. Говорят, что от такого исследования больше вреда, нежели пользы.

Подобные ошибки могут произойти только с выборочной совокупностыо. Чтобы избежать или уменьшить вероятность ошибки, самый простой способ — увеличивать размеры выборки (в идеале до объема генеральной: когда обе совокупности совпадут, ошибка выборки вообще исчезнет). Экономически такой метод невозможен. Остается другой путь — совершенствовать математические методы составления выборки. Они то и применяются на практике. Таков первый канал проникновения в социологию математики. Второй канал — математическая обработка данных.

Особенно важной проблема ошибок становится в маркетинговых исследованиях, где используются не очень большие выборки. Обычно они составляют несколько сотен, реже — тысячу респондентов. Здесь исходным пунктом расчета выборки выступает вопрос об определении размеров выборочной совокупности. Численность выборочной совокупности зависит от двух факторов:

  1. стоимости сбора информации,
  2. стремления к определенной степени статистической достоверности результатов, которую надеется получить исследователь.

Конечно, даже не искушенные в статистике и социологии люди интуитивно понимают, что чем больше размеры выборки, т.е. чем ближе они к размерам генеральной совокупности в целом, тем более надежны и достоверны полученные данные. Однако выше мы уже говорили о практической невозможности сплошных опросов в тех случаях, когда они проводятся на объектах, численность которых превышает десятки, сотни тысяч и даже миллионы. Понятно, что стоимость сбора информации (включающая оплату тиражирования инструментария, труда анкетеров, полевых менеджеров и операторов по компьютерному вводу) зависит от той суммы, которую готов выделить заказчик, и слабо зависит от исследователей. Что же касается второго фактора, то мы остановимся на нем чуть подробнее.

Итак, чем больше величина выборки, тем меньше возможная ошибка. Хотя необходимо отметить, что при желании увеличить точность вдвое вам придется увеличить выборку не в два, а в четыре раза. Например, чтобы сделать в два раза более точной оценку данных, полученных путем опроса 400 человек, вам потребуется опросить не 800, а 1600 человек. Впрочем, вряд ли маркетинговое исследование испытывает нужду в стопроцентной точности. Если пивовару необходимо узнать, какая часть потребителей пива предпочитает именно его марку, а не сорт его конкурента, — 60% или 40%, то на его планы никак не повлияет разница между 57%, 60 или 63%.

Ошибка выборки может зависеть не только от ее величины, но и от степени различий между отдельными единицами внутри генеральной совокупности, которую мы исследуем. Например, если нам нужно узнать, какое количество пива потребляется, то мы обнаружим, что внутри нашей генеральной совокупности нормы потребления у различных людей существенно различаются (гетерогенная генеральная совокупность). В другом случае мы будем изучать потребление хлеба и установим, что у разных людей оно различается гораздо менее существенно {гомогенная генеральная совокупность). Чем больше различия (или гетерогенность) внутри генеральной совокупности, тем больше величина возможной ошибки выборки. Указанная закономерность лишь подтверждает то, что нам подсказывает простой здравый смысл. Таким образом, как справедливо утверждает В. Ядов, «численность (объем) выборки зависит от уровня однородности или разнородности изучаемых объектов. Чем более они однородны, тем меньшая численность может обеспечить статистически достоверные выводы».

Определение объема выборки зависит также от уровня доверительного интервала допустимой статистической ошибки. Здесь имеются в виду так называемые случайные ошибки, которые связаны с природой любых статистических погрешностей. В.И. Паниотто приводит следующие расчеты репрезентативной выборки с допущением 5%-ной ошибки:
Это означает,что если вы, опросив, предположим, 400 человек в районном городе, где численность взрослого платежеспособного населения составляет 100 тыс. человек, выявили, что 33% опрошенных покупателей предпочитают продукцию местного мясокомбината, то с 95%-ной вероятностью можете утверждать, что постоянными покупателями этой продукции являются 33+5% (т.е. от 28 до 38%) жителей этого города.

Можно также воспользоваться расчетами института Гэллапа для оценки соотношения размеров выборки и ошибки выборки.

From Wikipedia, the free encyclopedia

«Systematic bias» redirects here. For the sociological and organizational phenomenon, see Systemic bias.

Observational error (or measurement error) is the difference between a measured value of a quantity and its true value.[1] In statistics, an error is not necessarily a «mistake». Variability is an inherent part of the results of measurements and of the measurement process.

Measurement errors can be divided into two components: random and systematic.[2]
Random errors are errors in measurement that lead to measurable values being inconsistent when repeated measurements of a constant attribute or quantity are taken. Systematic errors are errors that are not determined by chance but are introduced by repeatable processes inherent to the system.[3] Systematic error may also refer to an error with a non-zero mean, the effect of which is not reduced when observations are averaged.[citation needed]

Measurement errors can be summarized in terms of accuracy and precision.
Measurement error should not be confused with measurement uncertainty.

Science and experiments[edit]

When either randomness or uncertainty modeled by probability theory is attributed to such errors, they are «errors» in the sense in which that term is used in statistics; see errors and residuals in statistics.

Every time we repeat a measurement with a sensitive instrument, we obtain slightly different results. The common statistical model used is that the error has two additive parts:

  1. Systematic error which always occurs, with the same value, when we use the instrument in the same way and in the same case.
  2. Random error which may vary from observation to another.

Systematic error is sometimes called statistical bias. It may often be reduced with standardized procedures. Part of the learning process in the various sciences is learning how to use standard instruments and protocols so as to minimize systematic error.

Random error (or random variation) is due to factors that cannot or will not be controlled. One possible reason to forgo controlling for these random errors is that it may be too expensive to control them each time the experiment is conducted or the measurements are made. Other reasons may be that whatever we are trying to measure is changing in time (see dynamic models), or is fundamentally probabilistic (as is the case in quantum mechanics — see Measurement in quantum mechanics). Random error often occurs when instruments are pushed to the extremes of their operating limits. For example, it is common for digital balances to exhibit random error in their least significant digit. Three measurements of a single object might read something like 0.9111g, 0.9110g, and 0.9112g.

Characterization[edit]

Measurement errors can be divided into two components: random error and systematic error.[2]

Random error is always present in a measurement. It is caused by inherently unpredictable fluctuations in the readings of a measurement apparatus or in the experimenter’s interpretation of the instrumental reading. Random errors show up as different results for ostensibly the same repeated measurement. They can be estimated by comparing multiple measurements and reduced by averaging multiple measurements.

Systematic error is predictable and typically constant or proportional to the true value. If the cause of the systematic error can be identified, then it usually can be eliminated. Systematic errors are caused by imperfect calibration of measurement instruments or imperfect methods of observation, or interference of the environment with the measurement process, and always affect the results of an experiment in a predictable direction. Incorrect zeroing of an instrument leading to a zero error is an example of systematic error in instrumentation.

The Performance Test Standard PTC 19.1-2005 “Test Uncertainty”, published by the American Society of Mechanical Engineers (ASME), discusses systematic and random errors in considerable detail. In fact, it conceptualizes its basic uncertainty categories in these terms.

Random error can be caused by unpredictable fluctuations in the readings of a measurement apparatus, or in the experimenter’s interpretation of the instrumental reading; these fluctuations may be in part due to interference of the environment with the measurement process. The concept of random error is closely related to the concept of precision. The higher the precision of a measurement instrument, the smaller the variability (standard deviation) of the fluctuations in its readings.

Sources[edit]

Sources of systematic error[edit]

Imperfect calibration[edit]

Sources of systematic error may be imperfect calibration of measurement instruments (zero error), changes in the environment which interfere with the measurement process and sometimes imperfect methods of observation can be either zero error or percentage error. If you consider an experimenter taking a reading of the time period of a pendulum swinging past a fiducial marker: If their stop-watch or timer starts with 1 second on the clock then all of their results will be off by 1 second (zero error). If the experimenter repeats this experiment twenty times (starting at 1 second each time), then there will be a percentage error in the calculated average of their results; the final result will be slightly larger than the true period.

Distance measured by radar will be systematically overestimated if the slight slowing down of the waves in air is not accounted for. Incorrect zeroing of an instrument leading to a zero error is an example of systematic error in instrumentation.

Systematic errors may also be present in the result of an estimate based upon a mathematical model or physical law. For instance, the estimated oscillation frequency of a pendulum will be systematically in error if slight movement of the support is not accounted for.

Quantity[edit]

Systematic errors can be either constant, or related (e.g. proportional or a percentage) to the actual value of the measured quantity, or even to the value of a different quantity (the reading of a ruler can be affected by environmental temperature). When it is constant, it is simply due to incorrect zeroing of the instrument. When it is not constant, it can change its sign. For instance, if a thermometer is affected by a proportional systematic error equal to 2% of the actual temperature, and the actual temperature is 200°, 0°, or −100°, the measured temperature will be 204° (systematic error = +4°), 0° (null systematic error) or −102° (systematic error = −2°), respectively. Thus the temperature will be overestimated when it will be above zero and underestimated when it will be below zero.

Drift[edit]

Systematic errors which change during an experiment (drift) are easier to detect. Measurements indicate trends with time rather than varying randomly about a mean. Drift is evident if a measurement of a constant quantity is repeated several times and the measurements drift one way during the experiment. If the next measurement is higher than the previous measurement as may occur if an instrument becomes warmer during the experiment then the measured quantity is variable and it is possible to detect a drift by checking the zero reading during the experiment as well as at the start of the experiment (indeed, the zero reading is a measurement of a constant quantity). If the zero reading is consistently above or below zero, a systematic error is present. If this cannot be eliminated, potentially by resetting the instrument immediately before the experiment then it needs to be allowed by subtracting its (possibly time-varying) value from the readings, and by taking it into account while assessing the accuracy of the measurement.

If no pattern in a series of repeated measurements is evident, the presence of fixed systematic errors can only be found if the measurements are checked, either by measuring a known quantity or by comparing the readings with readings made using a different apparatus, known to be more accurate. For example, if you think of the timing of a pendulum using an accurate stopwatch several times you are given readings randomly distributed about the mean. Hopings systematic error is present if the stopwatch is checked against the ‘speaking clock’ of the telephone system and found to be running slow or fast. Clearly, the pendulum timings need to be corrected according to how fast or slow the stopwatch was found to be running.

Measuring instruments such as ammeters and voltmeters need to be checked periodically against known standards.

Systematic errors can also be detected by measuring already known quantities. For example, a spectrometer fitted with a diffraction grating may be checked by using it to measure the wavelength of the D-lines of the sodium electromagnetic spectrum which are at 600 nm and 589.6 nm. The measurements may be used to determine the number of lines per millimetre of the diffraction grating, which can then be used to measure the wavelength of any other spectral line.

Constant systematic errors are very difficult to deal with as their effects are only observable if they can be removed. Such errors cannot be removed by repeating measurements or averaging large numbers of results. A common method to remove systematic error is through calibration of the measurement instrument.

Sources of random error[edit]

The random or stochastic error in a measurement is the error that is random from one measurement to the next. Stochastic errors tend to be normally distributed when the stochastic error is the sum of many independent random errors because of the central limit theorem. Stochastic errors added to a regression equation account for the variation in Y that cannot be explained by the included Xs.

Surveys[edit]

The term «observational error» is also sometimes used to refer to response errors and some other types of non-sampling error.[1] In survey-type situations, these errors can be mistakes in the collection of data, including both the incorrect recording of a response and the correct recording of a respondent’s inaccurate response. These sources of non-sampling error are discussed in Salant and Dillman (1994) and Bland and Altman (1996).[4][5]

These errors can be random or systematic. Random errors are caused by unintended mistakes by respondents, interviewers and/or coders. Systematic error can occur if there is a systematic reaction of the respondents to the method used to formulate the survey question. Thus, the exact formulation of a survey question is crucial, since it affects the level of measurement error.[6] Different tools are available for the researchers to help them decide about this exact formulation of their questions, for instance estimating the quality of a question using MTMM experiments. This information about the quality can also be used in order to correct for measurement error.[7][8]

Effect on regression analysis[edit]

If the dependent variable in a regression is measured with error, regression analysis and associated hypothesis testing are unaffected, except that the R2 will be lower than it would be with perfect measurement.

However, if one or more independent variables is measured with error, then the regression coefficients and standard hypothesis tests are invalid.[9]: p. 187  This is known as attenuation bias.[10]

See also[edit]

  • Bias (statistics)
  • Cognitive bias
  • Correction for measurement error (for Pearson correlations)
  • Errors and residuals in statistics
  • Error
  • Replication (statistics)
  • Statistical theory
  • Metrology
  • Regression dilution
  • Test method
  • Propagation of uncertainty
  • Instrument error
  • Measurement uncertainty
  • Errors-in-variables models
  • Systemic bias

References[edit]

  1. ^ a b Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP. ISBN 978-0-19-920613-1
  2. ^ a b John Robert Taylor (1999). An Introduction to Error Analysis: The Study of Uncertainties in Physical Measurements. University Science Books. p. 94, §4.1. ISBN 978-0-935702-75-0.
  3. ^ «Systematic error». Merriam-webster.com. Retrieved 2016-09-10.
  4. ^ Salant, P.; Dillman, D. A. (1994). How to conduct your survey. New York: John Wiley & Sons. ISBN 0-471-01273-4.
  5. ^ Bland, J. Martin; Altman, Douglas G. (1996). «Statistics Notes: Measurement Error». BMJ. 313 (7059): 744. doi:10.1136/bmj.313.7059.744. PMC 2352101. PMID 8819450.
  6. ^ Saris, W. E.; Gallhofer, I. N. (2014). Design, Evaluation and Analysis of Questionnaires for Survey Research (Second ed.). Hoboken: Wiley. ISBN 978-1-118-63461-5.
  7. ^ DeCastellarnau, A. and Saris, W. E. (2014). A simple procedure to correct for measurement errors in survey research. European Social Survey Education Net (ESS EduNet). Available at: http://essedunet.nsd.uib.no/cms/topics/measurement Archived 2019-09-15 at the Wayback Machine
  8. ^ Saris, W. E.; Revilla, M. (2015). «Correction for measurement errors in survey research: necessary and possible» (PDF). Social Indicators Research. 127 (3): 1005–1020. doi:10.1007/s11205-015-1002-x. hdl:10230/28341. S2CID 146550566.
  9. ^ Hayashi, Fumio (2000). Econometrics. Princeton University Press. ISBN 978-0-691-01018-2.
  10. ^ Angrist, Joshua David; Pischke, Jörn-Steffen (2015). Mastering ‘metrics : the path from cause to effect. Princeton, New Jersey. p. 221. ISBN 978-0-691-15283-7. OCLC 877846199. The bias generated by this sort of measurement error in regressors is called attenuation bias.

Further reading[edit]

  • Cochran, W. G. (1968). «Errors of Measurement in Statistics». Technometrics. 10 (4): 637–666. doi:10.2307/1267450. JSTOR 1267450.

From Wikipedia, the free encyclopedia

«Systematic bias» redirects here. For the sociological and organizational phenomenon, see Systemic bias.

Observational error (or measurement error) is the difference between a measured value of a quantity and its true value.[1] In statistics, an error is not necessarily a «mistake». Variability is an inherent part of the results of measurements and of the measurement process.

Measurement errors can be divided into two components: random and systematic.[2]
Random errors are errors in measurement that lead to measurable values being inconsistent when repeated measurements of a constant attribute or quantity are taken. Systematic errors are errors that are not determined by chance but are introduced by repeatable processes inherent to the system.[3] Systematic error may also refer to an error with a non-zero mean, the effect of which is not reduced when observations are averaged.[citation needed]

Measurement errors can be summarized in terms of accuracy and precision.
Measurement error should not be confused with measurement uncertainty.

Science and experiments[edit]

When either randomness or uncertainty modeled by probability theory is attributed to such errors, they are «errors» in the sense in which that term is used in statistics; see errors and residuals in statistics.

Every time we repeat a measurement with a sensitive instrument, we obtain slightly different results. The common statistical model used is that the error has two additive parts:

  1. Systematic error which always occurs, with the same value, when we use the instrument in the same way and in the same case.
  2. Random error which may vary from observation to another.

Systematic error is sometimes called statistical bias. It may often be reduced with standardized procedures. Part of the learning process in the various sciences is learning how to use standard instruments and protocols so as to minimize systematic error.

Random error (or random variation) is due to factors that cannot or will not be controlled. One possible reason to forgo controlling for these random errors is that it may be too expensive to control them each time the experiment is conducted or the measurements are made. Other reasons may be that whatever we are trying to measure is changing in time (see dynamic models), or is fundamentally probabilistic (as is the case in quantum mechanics — see Measurement in quantum mechanics). Random error often occurs when instruments are pushed to the extremes of their operating limits. For example, it is common for digital balances to exhibit random error in their least significant digit. Three measurements of a single object might read something like 0.9111g, 0.9110g, and 0.9112g.

Characterization[edit]

Measurement errors can be divided into two components: random error and systematic error.[2]

Random error is always present in a measurement. It is caused by inherently unpredictable fluctuations in the readings of a measurement apparatus or in the experimenter’s interpretation of the instrumental reading. Random errors show up as different results for ostensibly the same repeated measurement. They can be estimated by comparing multiple measurements and reduced by averaging multiple measurements.

Systematic error is predictable and typically constant or proportional to the true value. If the cause of the systematic error can be identified, then it usually can be eliminated. Systematic errors are caused by imperfect calibration of measurement instruments or imperfect methods of observation, or interference of the environment with the measurement process, and always affect the results of an experiment in a predictable direction. Incorrect zeroing of an instrument leading to a zero error is an example of systematic error in instrumentation.

The Performance Test Standard PTC 19.1-2005 “Test Uncertainty”, published by the American Society of Mechanical Engineers (ASME), discusses systematic and random errors in considerable detail. In fact, it conceptualizes its basic uncertainty categories in these terms.

Random error can be caused by unpredictable fluctuations in the readings of a measurement apparatus, or in the experimenter’s interpretation of the instrumental reading; these fluctuations may be in part due to interference of the environment with the measurement process. The concept of random error is closely related to the concept of precision. The higher the precision of a measurement instrument, the smaller the variability (standard deviation) of the fluctuations in its readings.

Sources[edit]

Sources of systematic error[edit]

Imperfect calibration[edit]

Sources of systematic error may be imperfect calibration of measurement instruments (zero error), changes in the environment which interfere with the measurement process and sometimes imperfect methods of observation can be either zero error or percentage error. If you consider an experimenter taking a reading of the time period of a pendulum swinging past a fiducial marker: If their stop-watch or timer starts with 1 second on the clock then all of their results will be off by 1 second (zero error). If the experimenter repeats this experiment twenty times (starting at 1 second each time), then there will be a percentage error in the calculated average of their results; the final result will be slightly larger than the true period.

Distance measured by radar will be systematically overestimated if the slight slowing down of the waves in air is not accounted for. Incorrect zeroing of an instrument leading to a zero error is an example of systematic error in instrumentation.

Systematic errors may also be present in the result of an estimate based upon a mathematical model or physical law. For instance, the estimated oscillation frequency of a pendulum will be systematically in error if slight movement of the support is not accounted for.

Quantity[edit]

Systematic errors can be either constant, or related (e.g. proportional or a percentage) to the actual value of the measured quantity, or even to the value of a different quantity (the reading of a ruler can be affected by environmental temperature). When it is constant, it is simply due to incorrect zeroing of the instrument. When it is not constant, it can change its sign. For instance, if a thermometer is affected by a proportional systematic error equal to 2% of the actual temperature, and the actual temperature is 200°, 0°, or −100°, the measured temperature will be 204° (systematic error = +4°), 0° (null systematic error) or −102° (systematic error = −2°), respectively. Thus the temperature will be overestimated when it will be above zero and underestimated when it will be below zero.

Drift[edit]

Systematic errors which change during an experiment (drift) are easier to detect. Measurements indicate trends with time rather than varying randomly about a mean. Drift is evident if a measurement of a constant quantity is repeated several times and the measurements drift one way during the experiment. If the next measurement is higher than the previous measurement as may occur if an instrument becomes warmer during the experiment then the measured quantity is variable and it is possible to detect a drift by checking the zero reading during the experiment as well as at the start of the experiment (indeed, the zero reading is a measurement of a constant quantity). If the zero reading is consistently above or below zero, a systematic error is present. If this cannot be eliminated, potentially by resetting the instrument immediately before the experiment then it needs to be allowed by subtracting its (possibly time-varying) value from the readings, and by taking it into account while assessing the accuracy of the measurement.

If no pattern in a series of repeated measurements is evident, the presence of fixed systematic errors can only be found if the measurements are checked, either by measuring a known quantity or by comparing the readings with readings made using a different apparatus, known to be more accurate. For example, if you think of the timing of a pendulum using an accurate stopwatch several times you are given readings randomly distributed about the mean. Hopings systematic error is present if the stopwatch is checked against the ‘speaking clock’ of the telephone system and found to be running slow or fast. Clearly, the pendulum timings need to be corrected according to how fast or slow the stopwatch was found to be running.

Measuring instruments such as ammeters and voltmeters need to be checked periodically against known standards.

Systematic errors can also be detected by measuring already known quantities. For example, a spectrometer fitted with a diffraction grating may be checked by using it to measure the wavelength of the D-lines of the sodium electromagnetic spectrum which are at 600 nm and 589.6 nm. The measurements may be used to determine the number of lines per millimetre of the diffraction grating, which can then be used to measure the wavelength of any other spectral line.

Constant systematic errors are very difficult to deal with as their effects are only observable if they can be removed. Such errors cannot be removed by repeating measurements or averaging large numbers of results. A common method to remove systematic error is through calibration of the measurement instrument.

Sources of random error[edit]

The random or stochastic error in a measurement is the error that is random from one measurement to the next. Stochastic errors tend to be normally distributed when the stochastic error is the sum of many independent random errors because of the central limit theorem. Stochastic errors added to a regression equation account for the variation in Y that cannot be explained by the included Xs.

Surveys[edit]

The term «observational error» is also sometimes used to refer to response errors and some other types of non-sampling error.[1] In survey-type situations, these errors can be mistakes in the collection of data, including both the incorrect recording of a response and the correct recording of a respondent’s inaccurate response. These sources of non-sampling error are discussed in Salant and Dillman (1994) and Bland and Altman (1996).[4][5]

These errors can be random or systematic. Random errors are caused by unintended mistakes by respondents, interviewers and/or coders. Systematic error can occur if there is a systematic reaction of the respondents to the method used to formulate the survey question. Thus, the exact formulation of a survey question is crucial, since it affects the level of measurement error.[6] Different tools are available for the researchers to help them decide about this exact formulation of their questions, for instance estimating the quality of a question using MTMM experiments. This information about the quality can also be used in order to correct for measurement error.[7][8]

Effect on regression analysis[edit]

If the dependent variable in a regression is measured with error, regression analysis and associated hypothesis testing are unaffected, except that the R2 will be lower than it would be with perfect measurement.

However, if one or more independent variables is measured with error, then the regression coefficients and standard hypothesis tests are invalid.[9]: p. 187  This is known as attenuation bias.[10]

See also[edit]

  • Bias (statistics)
  • Cognitive bias
  • Correction for measurement error (for Pearson correlations)
  • Errors and residuals in statistics
  • Error
  • Replication (statistics)
  • Statistical theory
  • Metrology
  • Regression dilution
  • Test method
  • Propagation of uncertainty
  • Instrument error
  • Measurement uncertainty
  • Errors-in-variables models
  • Systemic bias

References[edit]

  1. ^ a b Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP. ISBN 978-0-19-920613-1
  2. ^ a b John Robert Taylor (1999). An Introduction to Error Analysis: The Study of Uncertainties in Physical Measurements. University Science Books. p. 94, §4.1. ISBN 978-0-935702-75-0.
  3. ^ «Systematic error». Merriam-webster.com. Retrieved 2016-09-10.
  4. ^ Salant, P.; Dillman, D. A. (1994). How to conduct your survey. New York: John Wiley & Sons. ISBN 0-471-01273-4.
  5. ^ Bland, J. Martin; Altman, Douglas G. (1996). «Statistics Notes: Measurement Error». BMJ. 313 (7059): 744. doi:10.1136/bmj.313.7059.744. PMC 2352101. PMID 8819450.
  6. ^ Saris, W. E.; Gallhofer, I. N. (2014). Design, Evaluation and Analysis of Questionnaires for Survey Research (Second ed.). Hoboken: Wiley. ISBN 978-1-118-63461-5.
  7. ^ DeCastellarnau, A. and Saris, W. E. (2014). A simple procedure to correct for measurement errors in survey research. European Social Survey Education Net (ESS EduNet). Available at: http://essedunet.nsd.uib.no/cms/topics/measurement Archived 2019-09-15 at the Wayback Machine
  8. ^ Saris, W. E.; Revilla, M. (2015). «Correction for measurement errors in survey research: necessary and possible» (PDF). Social Indicators Research. 127 (3): 1005–1020. doi:10.1007/s11205-015-1002-x. hdl:10230/28341. S2CID 146550566.
  9. ^ Hayashi, Fumio (2000). Econometrics. Princeton University Press. ISBN 978-0-691-01018-2.
  10. ^ Angrist, Joshua David; Pischke, Jörn-Steffen (2015). Mastering ‘metrics : the path from cause to effect. Princeton, New Jersey. p. 221. ISBN 978-0-691-15283-7. OCLC 877846199. The bias generated by this sort of measurement error in regressors is called attenuation bias.

Further reading[edit]

  • Cochran, W. G. (1968). «Errors of Measurement in Statistics». Technometrics. 10 (4): 637–666. doi:10.2307/1267450. JSTOR 1267450.

Систематическая ошибка отбора — статистическое понятие, показывающее, что выводы, сделанные применительно к какой-либо группе, могут оказаться неточными вследствие неправильного отбора в эту группу.

Содержание

  • 1 Ошибки отбора результатов
  • 2 Типы систематических ошибок
    • 2.1 Пространство
    • 2.2 Данные
    • 2.3 Участники
  • 3 Устранение систематической ошибки
  • 4 См. также

Ошибки отбора результатов

Могут включать предварительный или последующий отбор с превалированием или исключением некоторых видов. Это может быть, конечно, разновидностью научного мошенничества, манипуляцией данными, но гораздо чаще является добровольным заблуждением, например, вследствие использования неподходящего инструмента.

Например, в эпоху использования плёнки для фотографирования неба независимый наблюдатель определённо пришёл бы к выводу, что количество голубых галактик явно больше, чем количество красных. Не потому, что голубые галактики более распространены, но лишь вследствие того, что большинство плёнок более чувствительны к голубой части спектра. Тот же независимый наблюдатель сделал бы прямо противоположный вывод сейчас, в эпоху цифровой фотографии, потому что матрицы цифровых фотоаппаратов более чувствительны к красной части спектра.

Типы систематических ошибок

Существует большое количество возможных систематических ошибок, основные типы:

Пространство

  • Выбор первой и последней точки в серии. К примеру, для того, чтобы максимизировать заявленный тренд, можно начать серию с года с необычно низкими показателями и закончить годом с самыми высокими показателями.
  • «Своевременное» окончание, то есть тогда, когда результаты укладываются в желаемую теорию.
  • Отделение части данных на основе знаний обо всей выборке и затем применение математического аппарата к этой части как к слепой (случайной) выборке. См. Районированная выборка, en:cluster sampling, Ошибка меткого стрелка.
  • Изучение процесса на интервале (во времени или пространстве) длиной заведомо меньшей, чем требуется для полного представления о явлении.

Данные

  • Вычёркивание неких «плохих» данных в соответствии с правилами, хотя бы эти правила и шли вразрез с предварительно объявленными правилами для этой выборки.

Участники

  • Предварительный отбор участников, или, к примеру, размещение объявления о наборе добровольцев для участия в испытаниях среди определённой группы людей. К примеру, для доказательства, что курение никак не вредит результатам фитнеса, можно разместить в местном фитнесцентре объявление для набора добровольцев, но курящих набирать в мастерклассе, а некурящих среди начинающих или в секции желающих сбросить вес.
  • Выбрасывание из выборки участников, не дошедших до конца теста. В программе похудения мы рассматриваем подробные графики сброса веса как доказательство правильности методики, но в эти графики не включены не дошедшие до конца участники, посчитавшие, что на них эта методика не работает (так называемая систематическая ошибка выжившего).
  • Систематическая ошибка самоотбора. То есть группа людей для изучения формируется частично по собственной воле, так как не все опрошенные пожелают участвовать в тесте.

Устранение систематической ошибки

В общем случае невозможно выделить систематическую ошибку выборки только на основе статистических методов, хотя, как показано в работе нобелевского лауреата Джеймса Хекмана (англ. James Heckman), в некоторых специальных случаях существуют работающие стратегии.

Известной является фраза — рассказы об уме и доброте дельфинов основаны на рассказах уставших пловцов, которых они толкали к берегу, но мы лишены возможности услышать рассказ тех, кого они толкали в другую сторону.

См. также

  • Парадокс Берксона
  • Проверка статистических гипотез
  • Систематическая ошибка выжившего

Понравилась статья? Поделить с друзьями:
  • Системная ошибка e101 00000504 8b050041 xbox one
  • Систематическая ошибка внимания когнитивное искажение
  • Системная ошибка 1067 при запуске службы
  • Системная ошибка e101 00000503 80070003
  • Система экстренного вызова недоступна bmw g30 как убрать ошибку