В выборочном наблюдении используются понятия «ге-нералъная совокупность» – изучаемая совокупность единиц, подлежащая изучению по интересующим исследователя признакам, и «выборочная совокупность» – случайно отобранная из генеральной совокупности некоторая ее часть. К данной выборке предъявляется требование репрезентативности, т. е. при изучении лишь части генеральной совокупности полученные выводы можно применять ко всей совокупности. Характеристиками генеральной и выборочной совокупностей могут служить средние значения изучаемых признаков, их дисперсии и средние квадрати-ческие отклонения, мода и медиана и др.
Исследователя могут интересовать и распределения единиц по изучаемым признакам в генеральной и выборочной совокупностях. В этом случае частоты называются соответственно генеральными и выборочными.
Система правил отбора и способов характеристики единиц изучаемой совокупности составляет содержание выборочного метода, суть которого состоит в получении первичных данных при наблюдении выборки с последующим обобщением, анализом и их распространением на всю генеральную совокупность с целью получения достоверной информации об исследуемом явлении.
Репрезентативность выборки обеспечивается соблюдением принципа случайности отбора объектов совокупности в выборку. Если совокупность является качественно однородной, то принцип случайности реализуется простым случайным отбором объектов выборки. Простым случайным отбором называют такую процедуру образования выборки, которая обеспечивает для каждой единицы совокупности одинаковую вероятность быть выбранной для наблюдения, для любой выборки заданного объема.
Таким образом, цель выборочного метода – сделать вывод о значении признаков генеральной совокупности на основе информации случайной выборки из этой совокупности.
6.2. Ошибки выборочного наблюдения
Между признаками выборочной совокупности и признаками генеральной совокупности, как правило, существует некоторое расхождение, которое называется ошибкой статистического наблюдения. При массовом наблюдении ошибки неизбежны, но возникают они в результате действия различных причин. Величина возможной ошибки выборочного признака происходит из-за ошибок регистрации и ошибок репрезентативности. Ошибки регистрации, или технические ошибки, связаны с недостаточной квалификацией наблюдателей, неточностью подсчетов, несовершенством приборов и т. п.
Под ошибкой репрезентативности (представительства) понимают расхождение между выборочной характеристикой и предполагаемой характеристикой генеральной совокупности. Ошибки репрезентативности бывают случайными и систематическими. Систематические ошибки связаны с нарушением установленных правил отбора. Случайные ошибки объясняются недостаточно равномерным представлением в выборочной совокупности различных категорий единиц генеральной совокупности.
В результате первой причины выборка легко может оказаться смещенной, так как при отборе каждой единицы допускается ошибка, всегда направленная в одну и ту же сторону. Эта ошибка получила название ошибки смещения. Ее размер может превышать величину случайной ошибки. Особенность ошибки смещения состоит в том, что, являясь постоянной частью ошибки репрезентативности, она увеличивается с увеличением объема выборки. Случайная же ошибка с увеличением объема выборки уменьшается. Кроме того, величину случайной ошибки можно определить, тогда как размер ошибки смещения практически определить очень сложно, а иногда и невозможно, поэтому важно знать причины, вызывающие ошибку смещения, и предусмотреть мероприятия по ее устранению.
Ошибки смещения бывают преднамеренные и непреднамеренные. Причиной возникновения преднамеренной ошибки является тенденциозный подход к выбору единиц из генеральной совокупности. Чтобы не допустить появление такой ошибки, необходимо соблюдать принцип случайности отбора единиц.
Непреднамеренные ошибки могут возникать на стадии подготовки выборочного наблюдения, формирования выборочной совокупности и анализа ее данных. Чтобы не допустить появление таких ошибок, необходима хорошая основа выборки, т. е. та генеральная совокупность, из которой предполагается производить отбор, например список единиц отбора. Основа выборки должна быть достоверной, полной и соответствовать цели исследования, а единицы отбора и их характеристики должны соответствовать действительному их состоянию на момент подготовки выборочного наблюдения. Нередки случаи, когда в отношении некоторых единиц, попавших в выборку, трудно собрать сведения из-за их отсутствия на момент наблюдения, нежелания дать сведения и т. п. В таких случаях эти единицы приходится заменять другими. Необходимо следить, чтобы замена осуществлялась равноценными единицами.
Случайная ошибка выборки возникает в результате случайных различий между единицами, попавшими в выборку, и единицами генеральной совокупности, т. е. она связана со случайным отбором. Теоретическим обоснованием появления случайных ошибок выборки является теория вероятностей и ее предельные теоремы.
Сущность предельных теорем состоит в том, что в массовых явлениях совокупное влияние различных случайных причин на формирование закономерностей и обобщающих характеристик будет сколь угодно малой величиной или практически не зависит от случая. Так как случайная ошибка выборки возникает в результате случайных различий между единицами выборочной и генеральной совокупностей, то при достаточно большом объеме выборки она будет сколь угодно мала.
Предельные теоремы теории вероятностей позволяют определять размер случайных ошибок выборки. Различают среднюю (стандартную) и предельную ошибку выборки. Под средней (стандартной) ошибкой выборки понимают такое расхождение между средней выборочной и генеральной совокупностями (~ —), которое не превышает ±. Предельной ошибкой выборки принято считать максимально возможное расхождение (~ —), т. е. максимум ошибки при заданной вероятности ее появления.
В математической теории выборочного метода сравниваются средние характеристики признаков выборочной и генеральной совокупностей и доказывается, что с увеличением объема выборки вероятность появления больших ошибок и пределы максимально возможной ошибки уменьшаются. Чем больше обследуется единиц, тем меньше будет величина расхождений выборочных и генеральных характеристик. На основании теоремы, доказанной П.Л. Чебышевым, величину стандартной ошибки простой случайной выборки при достаточно большом объеме выборки (n) можно определить по формуле
– стандартная ошибка.
Из этой формулы средней (стандартной) ошибки простой случайной выборки видно, что величина зависит от изменчивости признака в генеральной совокупности (чем больше вариация признака, тем больше ошибка выборки) и от объема выборки n (чем больше обследуется единиц, тем меньше будет величина расхождений выборочных и генеральных характеристик).
Академик A.M. Ляпунов доказал, что вероятность появления случайной ошибки выборки при достаточно большом ее объеме подчиняется закону нормального распределения. Эта вероятность определяется по формуле
В математической статистике употребляют коэффициент доверия t, значения функции F(t) табулированы при разных его значениях, при этом получают соответствующие уровни доверительной вероятности (табл. 6.1).
Таблица 6.1
Коэффициент доверия t и соответствующие уровни доверительной вероятности
Коэффициент доверия позволяет вычислить предельную ошибку выборки,
т. е. предельная ошибка выборки равна t-кратному числу средних ошибок выборки.
Смещение в машинном обучении означает, что алгоритм дает ошибочные результаты из-за неточных предположений, сделанных на одном из этапов процесса.
Чтобы разработать любой процесс машинного обучения, специалисту по обработке данных необходимо выполнить ряд шагов: сбор и очистка данных, обучение алгоритма и его развертывание. Во время этого могут возникать ошибки. Если они случаются на любом из этапов, то оказывают влияние на оставшиеся, усугубляя ситуацию к концу.
Все подразделы науки о данных, будь то машинное обучение, обработка естественного языка или любая другая область, зависят от качества и количества наборов данных, используемых для построения, обучения и разработки их основных алгоритмов. Следовательно, данные низкого качества или ошибочные могут привести к неточным прогнозам и неудовлетворительным результатам в целом.
Существуют разные причины смещения в приложениях машинного обучения. Наша работа как специалистов по обработке данных — сделать все возможное, чтобы уменьшить и предотвратить это. Лучший способ — полностью понять причину смещения. Дальше уже можно предпринимать действия для его устранения и нивелирования всех последствий.
В этой статье мы рассмотрим 5 основных причин смещения в машинном обучении и способы уменьшения их влияния.
№1: Ошибка в алгоритме
Одна из причин смещения возникает, когда алгоритм, лежащий в основе процесса машинного обучения, неисправен или не подходит для текущего приложения. Это можно обнаружить, когда оно начинает выдавать неверные результаты для определенной группы людей (входные параметры).
Если ваш алгоритм дает разные результаты для почти идентичных случаев, то вернитесь назад, перепроверьте его и убедитесь, что он подходит для решения поставленной задачи. Такое смещение бывает преднамеренным или непреднамеренным. Его могут вызвать технические проблемы в ядре алгоритма или изначально неправильный выбора алгоритма.
№2: Ошибка в выборке
Следующая причина смещения возникает из-за ошибки на ранних этапах разработки приложения, то есть при сборе и очистке данных. Данные — это ядро любого приложения машинного обучения. Ведь алгоритм не может узнать то, чего не видел.
Если разработчик взял неправильную выборку — маленькую по размеру, содержащую много ошибочных точек данных или представляющую не весь пул данных для обучения модели — результаты будут неточными для точек данных, которые от неё отличаются.
К счастью, такое смещение не очень сложно исправить. Попробуйте использовать более крупный и разнообразный набор данных для обучения своей модели. Вы можете тренировать ее несколько раз, наблюдать за поведением и настраивать параметры, чтобы получить лучший результат.
№3: Предвзятость
Допустим, у вас есть правильный алгоритм решения задачи, и вы сделали все возможное, чтобы использовать лучшую выборку данных, а результаты необъективны. Одна из причин, по которой могло произойти смещение — предвзятость.
Когда дело касается стереотипных и ошибочных суждений о каких-либо ситуациях, тогда чаще всего смещение обусловлено изначальной предвзятостью данных. В таком случае вы получите необъективные результаты, независимо от используемого алгоритма.
Это смещение довольно сложно устранить. Попробуйте использовать совершенно новый набор данных или изменить имеющиеся данные, чтобы устранить любую существующую предвзятость.
№4: Ошибка в измерениях
Смещение может возникать в самом начале процесса разработки: на этапе сбора данных. Если они неточны, а от них зависит функциональность и корректность модели, то весь остальной процесс окажется ошибочным.
Речь идет о данных, которые получаются в результате вычислений и измерений человека или компьютера и хранятся в базе данных. Если они неверны, значит точки данных для обучения модели будут ошибочные. Один из вариантов, как этого избежать, — использовать несколько измерительных устройств.
Выбор правильного набора данных для обучения и построения модели — это непростая задача. Одна из проблем, с которой вы можете столкнуться, — смещение в результате некорректных исключений. В этом случае важные точки данных удаляются, и, следовательно, полученная модель их не учитывает. Поэтому отбирайте данные тщательно.
Заключение
Технологии помогают нам принимать большинство решений: что покупать, какую школу выбрать для детей, в какой город безопаснее переехать, будет ли одобрена заявка на кредит и многое другое. Однако эти системы могут быть некорректны в зависимости от используемых данных и специалиста, который их строит.
И люди, и алгоритмы склонны к ошибкам и предвзятости. Но это не означает, что наши модели тоже должны быть такими. Поэтому важным этапом разработки любого приложения для машинного обучения является попытка уменьшить и устранить смещение, насколько это возможно. Для этого нужно понять, почему и на каком этапе разработки оно возникает.
Поиск и устранение причины смещения в приложениях машинного обучения — это не точная наука. Я предпочитаю думать об этом как о форме искусства. Или навыке, который становится лучше, по мере того как вы создаете больше проектов, взаимодействуете с большим количеством данных и устраняете различные смещения.
Читайте также:
- 5 минут на машинное обучение
- Когда ИИ или машинное обучение неуместны
- Машинное обучение. С чего начать? Часть 1
Читайте нас в Telegram, VK и Яндекс.Дзен
Перевод статьи Sara A. Metwalli: 5 Types of Machine Learning Bias Every Data Scientist Should Know.
Выборочное наблюдение
Общее понятие о выборочном наблюдении
Статистическое наблюдение можно организовать как сплошное и несплошное. Сплошное предусматривает обследование всех единиц изучаемой совокупности явления, несплошное – лишь ее части. К несплошному относится и выборочное наблюдение.
Выборочное наблюдение является одним из наиболее широко применяемых видов несплошного наблюдения. В основе этого наблюдения лежит идея о том, что отобранная в случайном порядке некоторая часть единиц может представлять всю изучаемую совокупность явления по интересующим исследователя признакам. Целью выборочного наблюдения является получение информации прежде всего для определения сводных обобщающих характеристик всей изучаемой совокупности. По своей цели выборочное наблюдение совпадает с одной из задач сплошного наблюдения, и поэтому встает вопрос о том, какое из двух видов наблюдения – сплошное или выборочное – целесообразнее провести.
При решении этого вопроса необходимо исходить из следующих основных требований, предъявляемых к статистическому наблюдению:
- информация должна быть достоверной, т. е. максимально соответствовать реальной действительности;
- сведения должны быть достаточно полными для решения задач исследования;
- отбор информации должен быть проведен в максимально сжатые сроки для использования ее в оперативных целях;
- денежные и трудовые затраты на организацию и проведение должны быть минимальными.
При выборочном наблюдении эти требования обеспечиваются в большей мере, чем при сплошном. Преимущества этого метода по сравнению со сплошным можно оценить, если оно организовано и проведено в строгом соответствии с научными принципами теории выборочного метода, а именно обеспечение случайности отбора единиц и достаточного их числа. Соблюдение этих принципов позволяет получить такую совокупность единиц, которая представляет всю изучаемую совокупность по интересующим исследователя признакам, т. е. является репрезентативной (представительной).
При проведении выборочного наблюдения обследуются не все единицы изучаемого объекта, т. е. не все единицы совокупности, а лишь некоторая специально отобранная часть. Первый принцип отбора– обеспечение случайности – заключается в том, что при отборе каждой из единиц изучаемой совокупности обеспечивается равная возможность попасть в выборку. Случайный отбор – это не беспорядочный отбор, а отбор при соблюдении определенной методики, например осуществление отбора по жребию, применение таблицы случайных чисел и т. д.
Второй принцип отбора – обеспечение достаточного числа отобранных единиц – тесно связан с понятием репрезентативности выборки. Так как любое выборочное наблюдение проводится с определенной целью и четко сформулированными конкретными задачами, то понятие репрезентативности как раз и связано с целью и задачами исследования. Отобранная из всей изучаемой совокупности часть должна быть репрезентативной прежде всего в отношении тех признаков, которые изучаются или оказывают существенное влияние на формирование сводных обобщающих характеристик.
В выборочном наблюдении используются понятия «генералъная совокупность» – изучаемая совокупность единиц, подлежащая изучению по интересующим исследователя признакам, и «выборочная совокупность» – случайно отобранная из генеральной совокупности некоторая ее часть. К данной выборке предъявляется требование репрезентативности, т. е. при изучении лишь части генеральной совокупности полученные выводы можно применять ко всей совокупности. Характеристиками генеральной и выборочной совокупностей могут служить средние значения изучаемых признаков, их дисперсии и средние квадратические отклонения, мода и медиана и др.
Исследователя могут интересовать и распределения единиц по изучаемым признакам в генеральной и выборочной совокупностях. В этом случае частоты называются соответственно генеральными и выборочными.
Система правил отбора и способов характеристики единиц изучаемой совокупности составляет содержание выборочного метода, суть которого состоит в получении первичных данных при наблюдении выборки с последующим обобщением, анализом и их распространением на всю генеральную совокупность с целью получения достоверной информации об исследуемом явлении.
Репрезентативность выборки обеспечивается соблюдением принципа случайности отбора объектов совокупности в выборку. Если совокупность является качественно однородной, то принцип случайности реализуется простым случайным отбором объектов выборки. Простым случайным отбором называют такую процедуру образования выборки, которая обеспечивает для каждой единицы совокупности одинаковую вероятность быть выбранной для наблюдения, для любой выборки заданного объема.
Таким образом, цель выборочного метода – сделать вывод о значении признаков генеральной совокупности на основе информации случайной выборки из этой совокупности.
Ошибки выборочного наблюдения
Между признаками выборочной совокупности и признаками генеральной совокупности, как правило, существует некоторое расхождение, которое называется ошибкой статистического наблюдения. При массовом наблюдении ошибки неизбежны, но возникают они в результате действия различных причин. Величина возможной ошибки выборочного признака происходит из-за ошибок регистрации и ошибок репрезентативности. Ошибки регистрации, или технические ошибки, связаны с недостаточной квалификацией наблюдателей, неточностью подсчетов, несовершенством приборов и т. п.
Под ошибкой репрезентативности (представительства) понимают расхождение между выборочной характеристикой и предполагаемой характеристикой генеральной совокупности. Ошибки репрезентативности бывают случайными и систематическими. Систематические ошибки связаны с нарушением установленных правил отбора. Случайные ошибки объясняются недостаточно равномерным представлением в выборочной совокупности различных категорий единиц генеральной совокупности.
В результате первой причины выборка легко может оказаться смещенной, так как при отборе каждой единицы допускается ошибка, всегда направленная в одну и ту же сторону. Эта ошибка получила название ошибки смещения. Ее размер может превышать величину случайной ошибки. Особенность ошибки смещения состоит в том, что, являясь постоянной частью ошибки репрезентативности, она увеличивается с увеличением объема выборки. Случайная же ошибка с увеличением объема выборки уменьшается. Кроме того, величину случайной ошибки можно определить, тогда как размер ошибки смещения практически определить очень сложно, а иногда и невозможно, поэтому важно знать причины, вызывающие ошибку смещения, и предусмотреть мероприятия по ее устранению.
Ошибки смещения бывают преднамеренные и непреднамеренные. Причиной возникновения преднамеренной ошибки является тенденциозный подход к выбору единиц из генеральной совокупности. Чтобы не допустить появление такой ошибки, необходимо соблюдать принцип случайности отбора единиц.
Непреднамеренные ошибки могут возникать на стадии подготовки выборочного наблюдения, формирования выборочной совокупности и анализа ее данных. Чтобы не допустить появление таких ошибок, необходима хорошая основа выборки, т. е. та генеральная совокупность, из которой предполагается производить отбор, например список единиц отбора. Основа выборки должна быть достоверной, полной и соответствовать цели исследования, а единицы отбора и их характеристики должны соответствовать действительному их состоянию на момент подготовки выборочного наблюдения. Нередки случаи, когда в отношении некоторых единиц, попавших в выборку, трудно собрать сведения из-за их отсутствия на момент наблюдения, нежелания дать сведения и т. п. В таких случаях эти единицы приходится заменять другими. Необходимо следить, чтобы замена осуществлялась равноценными единицами.
Случайная ошибка выборки возникает в результате случайных различий между единицами, попавшими в выборку, и единицами генеральной совокупности, т. е. она связана со случайным отбором. Теоретическим обоснованием появления случайных ошибок выборки является теория вероятностей и ее предельные теоремы.
Сущность предельных теорем состоит в том, что в массовых явлениях совокупное влияние различных случайных причин на формирование закономерностей и обобщающих характеристик будет сколь угодно малой величиной или практически не зависит от случая. Так как случайная ошибка выборки возникает в результате случайных различий между единицами выборочной и генеральной совокупностей, то при достаточно большом объеме выборки она будет сколь угодно мала.
Предельные теоремы теории вероятностей позволяют определять размер случайных ошибок выборки. Различают среднюю (стандартную) и предельную ошибку выборки. Под средней (стандартной) ошибкой выборки понимают такое расхождение между средней выборочной и генеральной совокупностями (
—), которое не превышает ±. Предельной ошибкой выборки принято считать максимально возможное расхождение (
—), т. е. максимум ошибки при заданной вероятности ее появления.
В математической теории выборочного метода сравниваются средние характеристики признаков выборочной и генеральной совокупностей и доказывается, что с увеличением объема выборки вероятность появления больших ошибок и пределы максимально возможной ошибки уменьшаются. Чем больше обследуется единиц, тем меньше будет величина расхождений выборочных и генеральных характеристик. На основании теоремы, доказанной П.Л. Чебышевым, величину стандартной ошибки простой случайной выборки при достаточно большом объеме выборки (n) можно определить по формуле
Из этой формулы средней (стандартной) ошибки простой случайной выборки видно, что величина зависит от изменчивости признака в генеральной совокупности (чем больше вариация признака, тем больше ошибка выборки) и от объема выборки n (чем больше обследуется единиц, тем меньше будет величина расхождений выборочных и генеральных характеристик).
Академик A.M. Ляпунов доказал, что вероятность появления случайной ошибки выборки при достаточно большом ее объеме подчиняется закону нормального распределения. Эта вероятность определяется по формуле
В математической статистике употребляют коэффициент доверия t, значения функции F(t) табулированы при разных его значениях, при этом получают соответствующие уровни доверительной вероятности (табл. 6.1).
Коэффициент доверия t и соответствующие уровни доверительной вероятности
Коэффициент доверия позволяет вычислить предельную ошибку выборки,
т. е. предельная ошибка выборки равна t-кратному числу средних ошибок выборки.
Таким образом, величина предельной ошибки выборки может быть установлена с определенной вероятностью. Как видно из последней графы табл. 6.1, вероятность появления ошибки равной или большей утроенной средней ошибки выборки, т. е.
крайне мала и равна 0,003(1–0,997). Такие маловероятные события считаются практически невозможными, а потому величину
можно принять за предел возможной ошибки выборки.
Выборочное наблюдение дает возможность определить среднюю арифметическую выборочной совокупности и величину предельной ошибки этой средней, которая показывает (с определенной вероятностью), насколько выборочная величина может отличаться от генеральной средней в большую или меньшую сторону. Тогда величина генеральной средней будет представлена интервальной оценкой, для которой нижняя граница будет равна
Интервал, в который с данной степенью вероятности будет заключена неизвестная величина оцениваемого параметра, называют доверительным, а вероятность Р – доверительной вероятностью. Чаще всего доверительную вероятность принимают равной 0,95 или 0,99, тогда коэффициент доверия t равен соответственно 1,96 и 2,58. Это означает, что доверительный интервал с заданной вероятностью заключает в себе генеральную среднюю.
Наряду с абсолютной величиной предельной ошибки выборки рассчитывается и относительная ошибка выборки, которая определяется как процентное отношение предельной ошибки выборки к соответствующей характеристике выборочной совокупности:
Чем больше величина предельной ошибки выборки, тем больше величина доверительного интервала и тем, следовательно, ниже точность оценки. Средняя (стандартная) ошибка выборки зависит от объема выборки и степени вариации признака в генеральной совокупности.
Определение необходимой численности выборки
Одним из научных принципов в теории выборочного метода является обеспечение достаточного числа отобранных единиц. Теоретически необходимость соблюдения этого принципа представлена в доказательствах предельных теорем теории вероятностей, которые позволяют установить, какой объем единиц следует выбрать из генеральной совокупности, чтобы он был достаточным и обеспечивал репрезентативность выборки.
Уменьшение стандартной ошибки выборки, а следовательно, увеличение точности оценки всегда связано с увеличением объема выборки, поэтому уже на стадии организации выборочного наблюдения приходится решать вопрос о том, каков должен быть объем выборочной совокупности, чтобы была обеспечена требуемая точность результатов наблюдений. Расчет необходимого объема выборки строится с помощью формул, выведенных из формул предельных ошибок выборки (Δ), соответствующих тому или иному виду и способу отбора. Так, для случайного повторного объема выборки (n) имеем:
Суть этой формулы – в том, что при случайном повторном отборе необходимой численности объем выборки прямо пропорционален квадрату коэффициента доверия (t 2 ) и дисперсии вариационного признака (σ 2 ) и обратно пропорционален квадрату предельной ошибки выборки (σ 2 ). В частности, с увеличением предельной ошибки в два раза необходимая численность выборки может быть уменьшена в четыре раза. Из трех параметров два (t и σ) задаются исследователем. При этом исследователь исходя из цели
и задач выборочного обследования должен решить вопрос: в каком количественном сочетании лучше включить эти параметры для обеспечения оптимального варианта? В одном случае его может больше устраивать надежность полученных результатов (t), нежели мера точности (σ), в другом – наоборот. Сложнее решить вопрос в отношении величины предельной ошибки выборки, так как этим показателем исследователь на стадии проектировки выборочного наблюдения не располагает, поэтому в практике принято задавать величину предельной ошибки выборки, как правило, в пределах до 10 % предполагаемого среднего уровня признака. К установлению предполагаемого среднего уровня можно подходить по разному: использовать данные подобных ранее проведенных обследований или же воспользоваться данными основы выборки и произвести небольшую пробную выборку.
Наиболее сложно установить при проектировании выборочного наблюдения третий параметр в формуле (5.2) – дисперсию выборочной совокупности. В этом случае необходимо использовать всю информацию, имеющуюся в распоряжении исследователя, полученную в ранее проведенных подобных и пробных обследованиях.
Вопрос об определении необходимой численности выборки усложняется, если выборочное обследование предполагает изучение нескольких признаков единиц отбора. В этом случае средние уровни каждого из признаков и их вариация, как правило, различны, и поэтому решить вопрос о том, дисперсии какого из признаков отдать предпочтение, возможно лишь с учетом цели и задач обследования.
При проектировании выборочного наблюдения предполагаются заранее заданная величина допустимой ошибки выборки в соответствии с задачами конкретного исследования и вероятность выводов по результатам наблюдения.
В целом формула предельной ошибки выборочной средней величины позволяет определять:
- величину возможных отклонений показателей генеральной совокупности от показателей выборочной совокупности;
- необходимую численность выборки, обеспечивающую требуемую точность, при которой пределы возможной ошибки не превысят некоторой заданной величины;
- вероятность того, что в проведенной выборке ошибка будет иметь заданный предел.
Способы отбора и виды выборки
В теории выборочного метода разработаны различные способы отбора и виды выборки, обеспечивающие репрезентативность. Под способом отбора понимают порядок отбора единиц из генеральной совокупности. Различают два способа отбора: повторный и бесповторный. При повторном отборе каждая отобранная в случайном порядке единица после ее обследования возвращается в генеральную совокупность и при последующем отборе может снова попасть в выборку. Этот способ отбора построен по схеме «возвращенного шара»: вероятность попасть в выборку для каждой единицы генеральной совокупности не меняется независимо от числа отбираемых единиц. При бесповторном отборе каждая единица, отобранная в случайном порядке, после ее обследования в генеральную совокупность не возвращается. Этот способ отбора построен по схеме «невозвращенного шара»: вероятность попасть в выборку для каждой единицы генеральной совокупности увеличивается по мере производства отбора.
В зависимости от методики формирования выборочной совокупности различают следующие основные виды выборки:
- собственно случайную;
- механическую;
- типическую (стратифицированную, районированную);
- серийную (гнездовую);
- комбинированную;
- многоступенчатую;
- многофазную;
- взаимопроникающую.
Собственно случайная выборка формируется в строгом соответствии с научными принципами и правилами случайного отбора. Для получения собственно случайной выборки генеральная совокупность строго подразделяется на единицы отбора, и затем в случайном повторном или бесповторном порядке отбирается достаточное число единиц.
Случайный порядок подобен жеребьевке. На практике он чаще всего применяется при использовании специальных таблиц случайных чисел. Если, например, из совокупности, содержащей 1587 единиц, следует отобрать 40 единиц, то из таблицы отбирают 40 четырехзначных чисел, которые меньше 1587.
В том случае, когда собственно случайная выборка организуется как повторная, расчет стандартной ошибки производится в соответствии с формулой (6.1). При бесповторном способе отбора формула для расчета стандартной ошибки будет:
где 1 – n / N – доля единиц генеральной совокупности, не попавших в выборку. Так как эта доля всегда меньше единицы, то ошибка при бесповторном отборе при прочих равных условиях всегда меньше, чем при повторном. Бесповторный отбор организовать легче, чем повторный, и он применяется намного чаще. Однако величину стандартной ошибки при бесповторном отборе можно определять по более простой формуле (5.1). Такая замена возможна, если доля единиц генеральной совокупности, не попавших в выборку, большая и, следовательно, величина близка к единице.
Формировать выборку в строгом соответствии с правилами случайного отбора практически очень сложно, а иногда невозможно, так как при использовании таблиц случайных чисел необходимо пронумеровать все единицы генеральной совокупности. Довольно часто генеральная совокупность такая большая, что провести подобную предварительную работу чрезвычайно сложно и нецелесообразно, поэтому на практике применяют другие виды выборок, каждая из которых не является строго случайной. Однако организуются они так, чтобы было обеспечено максимальное приближение к условиям случайного отбора.
При чисто механической выборке вся генеральная совокупность единиц должна быть прежде всего представлена в виде списка единиц отбора, составленного в каком-то нейтральном по отношению к изучаемому признаку порядке, например по алфавиту. Затем список единиц отбора разбивается на столько равных частей, сколько необходимо отобрать единиц. Далее по заранее установленному правилу, не связанному с вариацией исследуемого признака, из каждой части списка отбирается одна единица. Этот вид выборки не всегда может обеспечить случайный характер отбора, и полученная выборка может оказаться смещенной. Объясняется это тем, что, во-первых, упорядочение единиц генеральной совокупности может иметь элемент неслучайного характера. Во-вторых, отбор из каждой части генеральной совокупности при неправильном установлении начала отсчета может также привести к ошибке смещения. Однако практически легче организовать механическую выборку, чем собственно случайную, и при проведении выборочных обследований чаще всего пользуются этим видом выборки. Стандартную ошибку при механической выборке определяют по формуле собственно случайной бесповторной выборки (6.2).
Типическая (районированная, стратифицированная) выборка преследует две цели:
- обеспечить представительство в выборке соответствующих типических групп генеральной совокупности по интересующим исследователя признакам;
- увеличить точность результатов выборочного обследования.
При типической выборке до начала ее формирования генеральная совокупность единиц разбивается на типические группы. При этом очень важным моментом является правильный выбор группировочного признака. Выделенные типические группы могут содержать одинаковое или различное число единиц отбора. В первом случае выборочная совокупность формируется с одинаковой долей отбора из каждой группы, во втором – с долей, пропорциональной ее доле в генеральной совокупности. Если выборка формируется с равной долей отбора, по существу она равносильна ряду собственно случайных выборок из меньших генеральных совокупностей, каждая из которых и есть типическая группа. Отбор из каждой группы осуществляется в случайном (повторном или бесповторном) либо механическом порядке. При типической выборке, как с равной, так и неравной долей отбора, удается устранить влияние межгрупповой вариации изучаемого признака на точность ее результатов, так как обеспечивается обязательное представительство в выборочной совокупности каждой из типических групп. Стандартная ошибка выборки будет зависеть не от величины общей дисперсии σ 2 , а от величины средней из групповых дисперсий σi 2 . Поскольку средняя из групповых дисперсий всегда меньше общей дисперсии, постольку при прочих равных условиях стандартная ошибка типической выборки будет меньше стандартной ошибки собственно случайной выборки.
При определении стандартных ошибок типической выборки применяются следующие формулы:
- при повторном способе отбора
- при бесповторном способе отбора:
– средняя из групповых дисперсий в выборочной совокупности.
Серийная (гнездовая) выборка – это такой вид формирования выборочной совокупности, когда в случайном порядке отбираются не единицы, подлежащие обследованию, а группы единиц (серии, гнезда). Внутри отобранных серий (гнезд) обследованию подвергаются все единицы. Серийную выборку практически организовать и провести легче, чем отбор отдельных единиц. Однако при этом виде выборки, во-первых, не обеспечивается представительство каждой из серий и, во-вторых, не устраняется влияние межсерийной вариации изучаемого признака на результаты обследования. В том случае, когда эта вариация значительна, она приведет к увеличению случайной ошибки репрезентативности. При выборе вида выборки исследователю необходимо учитывать это обстоятельство. Стандартная ошибка серийной выборки определяется по формулам:
- при повторном способе отбора —
где σ – межсерийная дисперсия выборочной совокупности; r – число отобранных серий;
при бесповторном способе отбора —
где R – число серий в генеральной совокупности.
В практике те или иные способы и виды выборок применяются в зависимости от цели и задач выборочных обследований, а также возможностей их организации и проведения. Чаще всего применяется комбинирование способов отбора и видов выборки. Такие выборки получили название комбинированные. Комбинирование возможно в разных сочетаниях: механической и серийной выборки, типической и механической, серийной и собственно случайной и т. д. К комбинированной выборке прибегают для обеспечения наибольшей репрезентативности с наименьшими трудовыми и денежными затратами на организацию и проведение обследования.
При комбинированной выборке величина стандартной ошибки выборки состоит из ошибок на каждой ее ступени и может быть определена как корень квадратный из суммы квадратов ошибок соответствующих выборок. Так, если при комбинированной выборке в сочетании использовались механическая и типическая выборки, то стандартную ошибку можно определить по формуле
где μ1 и μ2 – стандартные ошибки соответственно механической и типической выборок.
Особенность многоступенчатой выборки состоит в том, что выборочная совокупность формируется постепенно, по ступеням отбора. На первой ступени с помощью заранее определенного способа и вида отбора отбираются единицы первой ступени. На второй ступени из каждой единицы первой ступени, попавшей в выборку, отбираются единицы второй ступени и т. д. Число ступеней может быть и больше двух. На последней ступени формируется выборочная совокупность, единицы которой подлежат обследованию. Так, например, для выборочного обследования бюджетов домашних хозяйств на первой ступени отбираются территориальные субъекты страны, на второй – районы в отобранных регионах, на третьей – в каждом муниципальном образовании отбираются предприятия или организации и, наконец, на четвертой ступени – в отобранных предприятиях отбираются семьи.
Таким образом, выборочная совокупность формируется на последней ступени. Многоступенчатая выборка более гибкая, чем другие виды, хотя в общем она дает менее точные результаты, чем выборка того же объема, но сформированная в одну ступень. Однако при этом она имеет одно важное преимущество, которое заключается в том, что основу выборки при многоступенчатом отборе нужно строить на каждой из ступеней только для тех единиц, которые попали в выборку, а это очень важно, так как нередко готовой основы выборки нет.
Стандартную ошибку выборки при многоступенчатом отборе при группах разных объемов определяют по формуле
где μ1, μ2, μ3. – стандартные ошибки на разных ступенях;
n1, n2, n3, . – численность выборок на соответствующих ступенях отбора.
В том случае, если группы неодинаковы по объему, то теоретически этой формулой пользоваться нельзя. Но если общая доля отбора на всех ступенях постоянна, то практически расчет по этой формуле не приведет к искажению величины ошибки.
Сущность многофазной выборки состоит в том, что на основе первоначально сформированной выборочной совокупности образуют подвыборку, из этой подвыборки – следующую подвыборку и т. д. Первоначальная выборочная совокупность представляет собой первую фазу, подвыборка из нее – вторую и т. д. Многофазную выборку целесообразно применять в случаях, если:
- для изучения различных признаков требуется неодинаковый объем выборки;
- колеблемость изучаемых признаков неодинакова и требуемая точность различна;
- в отношении всех единиц первоначальной выборочной совокупности (первая фаза) необходимо собрать менее подробные сведения, а в отношении единиц каждой последующей фазы – более подробные.
Одним из несомненных достоинств многофазной выборки является то обстоятельство, что сведениями, полученными на первой фазе, можно пользоваться как дополнительной информацией на последующих фазах, информацией второй фазы – как дополнительной информацией на следующих фазах и т. д. Такое использование сведений повышает точность результатов выборочного обследования.
При организации многофазной выборки можно применять сочетание различных способов и видов отбора (типическую выборку с механической и т. д.). Многофазный отбор можно сочетать с многоступенчатым. На каждой ступени выборка может быть многофазной.
Стандартная ошибка при многофазной выборке рассчитывается на каждой фазе в отдельности в соответствии с формулами того способа отбора и вида выборки, при помощи которых формировалась ее выборочная совокупность.
Взаимопроникающие выборки – это две или более независимые выборки из одной и той же генеральной совокупности, образованные одним и тем же способом и видом. К взаимопроникающим выборкам целесообразно прибегать, если необходимо за короткий срок получить предварительные итоги выборочных обследований. Взаимопроникающие выборки эффективны для оценки результатов обследования. Если в независимых выборках результаты одинаковы, то это свидетельствует о надежности данных выборочного обследования. Взаимопроникающие выборки иногда можно применять для проверки работы различных исследователей, поручив каждому из них провести обследование разных выборок.
Стандартная ошибка при взаимопроникающих выборках определяется по той же формуле, что и типическая пропорциональная выборка (5.3). Взаимопроникающие выборки по сравнению с другими видами требуют больших трудовых затрат и денежных расходов, поэтому исследователь должен учитывать это обстоятельство при проектировании выборочного обследования.
Предельные ошибки при различных способах отбора и видах выборки определяются по формуле ? = t?, где ? – соответствующая стандартная ошибка.
ОСНОВЫ МАТЕМАТИЧЕСКОЙ ТЕОРИИ ВЫБОРОЧНОГО МЕТОДА
Общие сведения о выборочном методе
В практике статистических наблюдений различают два вида наблюдений: сплошное, когда изучаются все объекты (элементы, единицы) совокупности, и несплошное, выборочное, когда изучается часть объектов. Примером сплошного наблюдения является перепись населения, охватывающая все население страны. Выборочными наблюдениями являются, например, проводимые социологические исследования, охватывающие часть населения страны, области, района и т.д.
Вся подлежащая изучению совокупность объектов <наблюдений) называется генеральной совокупностью. В математической статистике понятие генеральной совокупности трактуется как совокупность всех мыслимых наблюдений, которые могли бы быть произведены при данном реальном комплексе условий, и в этом смысле его не следует смешивать с реальными совокупностями, подлежащими статистическому изучению. Так, обследовав даже все предприятия подотрасли по определенным технико-экономическим показателям, мы можем рассматривать обследованную совокупность лишь как представителя гипотетически возможной более широкой совокупности предприятий, которые могли бы функционировать в рамках того же реального комплекса условий.
Понятые генеральной совокупности в определенном смысле аналогично понятию случайной величины <закону распределения вероятностей, вероятностному пространству), так как полностью обусловлено определенным комплексом условий.
Та часть объектов, которая отобрана для непосредственного изучения из генеральной совокупности, называется выборочной совокупностью, или выборкой. Числа объектов (наблюдений) в генеральной или выборочной совокупности называются их объемами. Генеральная совокупность может иметь как конечный, так и бесконечный объем.
Выборку можно рассматривать как некий эмпирический аналог генеральной совокупности. Сущность выборочного метода состоит в том, чтобы по некоторой части генеральной совокупности <по выборке) выносить суждение о ее свойствах в целом.
Концепция выборки лежит в основе методологии математической статистики.
Отметим преимущества выборочного метода наблюдения по сравнению со сплошным:
- • позволяет существенно экономить затраты ресурсов (материальных, трудовых, временных);
- • является единственно возможным в случае бесконечной генеральной совокупности или в случае, когда исследование связано с уничтожением наблюдаемых объектов (например, исследование долговечности электрических лампочек, предельных режимов работы приборов и т.п.);
- • позволяет снизить ошибки регистрации, т.е. расхождения между истинным и зарегистрированным значениями признака.
Основной недостаток выборочного метода — ошибки исследования, называемые ошибками репрезентативности (представительства), о которых речь пойдет ниже.
Однако неизбежные ошибки, возникающие при выборочном методе исследования в связи с изучением только части объектов, могут быть заранее оценены и посредством правильной организации выборки сведены к практически незначимым величинам. Между тем использование сплошного наблюдения даже там, где это принципиально возможно, не говоря уже о росте трудоемкости, стоимости и увеличении необходимого времени, часто приводит к тому, что каждое отдельное наблюдение поневоле проводится с меньшей точностью. А это уже сопряжено с неустранимыми ошибками и в конечном счете может привести к снижению точности сплошного наблюдения по сравнению с выборочным.
Чтобы по данным выборки иметь возможность судить о генеральной совокупности, она должна быть отобрана случайно. Случайность отбора элементов в выборку достигается соблюдением принципа равной возможности всем элементам генеральной совокупности быть отобранными в выборку. На практике это достигается тем, что извлечение элементов в выборку проводится путем жеребьевки (лотереи) или с помощью случайных чисел, имеющихся в специальных таблицах или вырабатываемых ЭВМ с помощью датчика случайных чисел.
Выборка называется репрезентативной (представительной), если она достаточно хорошо воспроизводит генеральную совокупность.
Различают следующие виды выборок:
- • собственно-случайная выборка, образованная случайным выбором элементов без расчленения на части или группы;
- • механическая выборка, в которую элементы из генеральной совокупности отбираются через определенный интервал. Например, если объем выборки должен составлять 10% (10%-ная выборка), то отбирается каждый 10-й ее элемент и т.д.;
- • типическая (стратифицированная) выборка, в которую случайным образом отбираются элементы из типических групп, на которые по некоторому признаку разбивается генеральная совокупность;
- • серийная (гнездовая) выборка, в которую случайным образом отбираются не элементы, а целые группы совокупности (серии), а сами серии подвергаются сплошному наблюдению.
Используют два способа образования выборки:
- • повторный отбор (по схеме возвращенного шара), когда каждый элемент, случайно отобранный и обследованный, возвращается в общую совокупность и может быть повторно отобран;
- • бесповторный отбор (по схеме невозвращенного шара), когда отобранный элемент не возвращается в общую совокупность.
Математическая теория выборочного метода основывается на анализе собственно-случайной выборки. Рассмотрением этой выборки мы и ограничимся.
Xj — значения признака (случайной величины X);
N и п — объемы генеральной и выборочной совокупностей;
Nj и и, — число элементов генеральной и выборочной совокупностей со значением признака xf,
М и т — число элементов генеральной и выборочной совокупностей, обладающих данным признаком.
Средние арифметические распределений признака в генеральной и выборочной совокупностях называются соответственно генеральной и выборочной средними, а дисперсии этих распределений — генеральной и выборочной дисперсиями. Отношение числа элементов генеральной и выборочной совокупностей, обладающих некоторым признаком Л, к их объемам, называются соответственно генеральной и выборочной долями. Все формулы сведем в таблицу (табл. 9.1).
Замечание. В случае бесконечной генеральной совокупности [N = оо) под генеральными средней и дисперсией понимается соответственно математическое ожидание а = х0 и дисперсия а 2 распределения признака X (генеральной совокупности), а под генеральной долей р — вероятность данного события.
Важнейшей задачей выборочного метода является оценка параметров (.характеристик) генеральной совокупности по данным выборки.
Теоретическую основу применимости выборочного метода составляет закон больших чисел, согласно которому при неограниченном увеличении объема выборки практически достоверно, что случайные выборочные характеристики как угодно близко приближаются (сходятся по вероятности) к определенным параметрам генеральной совокупности.
10 Выборочное наблюдение
Выборочное наблюдение как источник статистической информации в изучении социально-экономических явлений и процессов
Статистическая методология исследования массовых явлений различает, как известно, два способа наблюдения в зависимости от полноты охвата объекта: сплошное и несплошное. Разновидностью несплошного наблюдения является выборочное, которое в условиях рыночных отношений в России находит все более широкое применение. Переход статистики РФ на международные стандарты системы национального счетоводства требует более широкого применения выборки для получения и анализа показателей СНС не только в промышленности, но и в других секторах экономики.
Под выборочным наблюдением понимается несплошное наблюдение, при котором статистическому обследованию (наблюдению) подвергаются единицы изучаемой совокупности, отобранные случайным способом. Выборочное наблюдение ставит перед собой задачу ‑ по обследуемой части дать характеристику всей совокупности единиц при условии соблюдения всех правил и принципов проведения статистического наблюдения и научно организованной работы по отбору единиц.
К выборочному наблюдению статистика прибегает по различным причинам. На современном этапе появилось множество субъектов хозяйственной деятельности, которые характерны для рыночной экономики. Речь идет об акционерных обществах, малых и совместных предприятиях, фермерских хозяйствах и т.д. Сплошное обследование этих статистических совокупностей, состоящих из десятков и сотен тысяч единиц, потребовало бы огромных материальных, финансовых и иных затрат. Использование же выборочного обследования позволяет значительно сэкономить силы и средства, что имеет немаловажное значение.
Наряду с экономией ресурсов одной из причин превращения выборочного наблюдения в важнейший источник статистической информации является возможность значительно ускорить получение необходимых данных. Ведь при обследовании, скажем, 10% единиц совокупности будет затрачено гораздо меньше времени, а результаты могут быть представлены быстрее, и будут более актуальными. Фактор времени важен для статистического исследования особенно в условиях изменяющейся социально-экономической ситуации.
Реализация выборочного метода базируется на понятиях генеральной и выборочной совокупностей.
Генеральной совокупностью называется вся исходная изучаемая статистическая совокупность, из которой на основе отбора единиц или групп единиц формируется совокупность выборочная. Поэтому генеральную совокупность также называют основой выборки.
Отбор единиц в выборочную совокупность может быть повторным или бесповторным.
При повторном отборе попавшая в выборку единица подвергается обследованию, т.е. регистрации значений ее признаков, возвращается в генеральную совокупность и наравне с другими единицами участвует в дальнейшей процедуре отбора. Таким образом, некоторые единицы могут попадать в выборку дважды, трижды или даже большее число раз. И при изучении выборочной совокупности они будут рассматриваться как отдельные независимые наблюдения.
Отметим, что число единиц генеральной совокупности, участвующих в отборе, при таком подходе остается постоянным. Поэтому вероятность попадания в выборку для всех единиц совокупности на протяжении всего процесса отбора также не меняется.
На практике методология повторного отбора обычно используется в тех случаях, когда объем генеральной совокупности не известен и теоретически возможно повторение единиц с уже встречавшимися значениями всех регистрируемых признаков.
Например, при проведении маркетинговых исследований мы не можем сколько-нибудь точно оценить, какое число потребителей предпочитают стиральный порошок конкретной торговой марки, сколько покупателей предпочитают делать покупки именно в данном супермаркете и т.д. Поэтому возможно повторение совершенно идентичных единиц как по причине практически неограниченных объемов совокупности, так и вследствие возможной повторной регистрации. Предположим, при проведении обследования один и тот же покупатель может дважды прийти в магазин и дважды подвергнуться обследованию.
При выборочном контроле качества продукции объем генеральной совокупности также часто не определен, так как процесс производства может осуществляться постоянно, каждый день дополняя генеральную совокупность новыми единицами-изделиями. Поэтому в выборочную совокупность могут попасть два и более изделий с абсолютно одинаковыми характеристиками. Следовательно, и в этом случае при обработке результатов выборки необходимо ориентироваться на методологию, используемую при повторном отборе.
При бесповоротном отборе попавшая в выборку единица подвергается обследованию и в дальнейшей процедуре отбора не участвует. Такой отбор целесообразен и практически возможен в тех случаях, когда объем генеральной совокупности четко определен. Получаемые при этом результаты, как правило, являются более точными по сравнению с результатами, основанными на повторной выборке.
Как уже отмечалось выше, выборочное наблюдение всегда связано с определенными ошибками получаемых характеристик. Эти ошибки называются ошибками репрезентативности (представительности).
Ошибки репрезентативности обусловлены тем обстоятельством, что выборочная совокупность не может по всем параметрам в точности воспроизвести совокупность генеральную. Получаемые расхождения или ошибки репрезентативности позволяют заключить, в какой степени попавшие в выборку единицы могут представлять всю генеральную совокупность. При этом следует различать систематические и случайные ошибки репрезентативности.
Систематические ошибки репрезентативности связаны с нарушением принципов формирования выборочной совокупности. Например, вследствие каких-либо причин, связанных с организацией отбора, в выборку попали единицы, характеризующиеся несколько большими или, наоборот, несколько меньшими по сравнению с другими единицами значениями наблюдаемых признаков. В этом случае и рассчитанные выборочные характеристики будут завышенными или заниженными.
Случайные ошибки репрезентативности обусловлены действием случайных факторов, не содержащих каких-либо элементов системности в направлении воздействия на рассчитываемые выборочные характеристики. Но даже при строгом соблюдении всех принципов формирования выборочной совокупности выборочные и генеральные характеристики будут несколько различаться. Получаемые случайные ошибки могут быть статистически оценены и учтены при распространении результатов выборочного наблюдения на всю генеральную совокупность. Оценка ошибок выборочного наблюдения основана на теоремах теории вероятностей.
При дальнейшем рассмотрении теории и методов выборочного наблюдения используются следующие общепринятые условные обозначения:
N ‑ объем (число единиц) генеральной совокупности;
n ‑ объем (число единиц) выборочной совокупности;
‑ генеральная средняя, т.е. среднее значение изучаемого признака по генеральной совокупности (средняя прибыль, средняя величина активов, средняя численность работников предприятия и т.п.);
‑ выборочная средняя,
т.е. среднее значение изучаемого признака по выборочной совокупности;
М ‑ численность единиц генеральной совокупности, обладающих определенным вариантом или вариантами изучаемого признака (численность городского населения, численность сельского населения, количество бракованных изделий, число нерентабельных предприятий и т.п.);
р ‑ генеральная доля, т.е. доля единиц, обладающих определенным вариантом или вариантами изучаемого признака, во всей генеральной совокупности (доля городского населения в общей численности населения, доля бракованной продукции в общем выпуске, доля нерентабельных предприятий в общей численности предприятий и т.п.); определяетcя как
m ‑ численность единиц выборочной совокупности, обладающих определенным вариантом или вариантами изучаемого признака;
w ‑ выборочная доля, т.е. доля единиц, обладающих определенным вариантом или вариантами изучаемого признака, в выборочной совокупности,
‑ средняя ошибка выборки;
‑ предельная ошибка выборки;
‑ коэффициент доверия, определяемый в зависимости от уровня вероятности.
Ошибка выборки или отклонение выборочной средней от средней генеральной находится в прямой зависимости от дисперсии изучаемого признака в генеральной совокупности, и в обратной зависимости ‑ от объема выборки.
Таким образом среднюю ошибку выборки можно представить как
При проведении выборочного наблюдения дисперсия изучаемого признака в генеральной совокупности, как правило, не известна. В то же время, между генеральной дисперсией и средней из всех возможных выборочных дисперсий существует следующее соотношение:
В связи с тем, что на практике в большинстве случаев из генеральной совокупности в определенный момент времени производится только одна выборка, дисперсия изучаемого признака по этой выборке и используется при расчете ошибки.
Учитывая, что при достаточно большом объеме выборки отношение близко к 1, формула средней ошибки повторной выборки принимает следующий вид:
Где ‑ дисперсия изучаемого признака по выборочной совокупности.
При определении возможных границ значений характеристик генеральной совокупности рассчитывается предельная ошибка выборки, которая зависит от величины ее средней ошибки и уровня вероятности, с которым гарантируется, что генеральная средняя не выйдет за указанные границы.
Согласно теореме А.М. Ляпунова, вероятность той или иной величины предельной ошибки, при достаточно большом объеме выборочной совокупности, подчиняется нормальному закону распределения и может быть определена на основе интеграла Лапласа.
Значения интеграла Лапласа при различных величинах t табулированы и представлены в статистических справочниках.
При обобщении результатов выборочного наблюдения наиболее часто используются следующие уровни вероятности и соответствующие им значения t:
Таблица 10.1 ‑ . Некоторые значения t
Вероятность, рi. | 0,683 | 0,866 | 0,954 | 0,988 | 0,997 | 0,999 |
Значение t | 1,0 | 1,5 | 2,0 | 2,5 | 3,0 | 3,5 |
Например, если при расчете предельной ошибки выборки мы используем значение t=2, то с вероятностью 0,954 можно утверждать, что расхождение между выборочной средней и генеральной средней не превысит двукратной величины средней ошибки выборки.
Теоретической основой для определения границ генеральной доли, т.е. доли единиц, обладающих тем или иным вариантом признака, является теорема Вернули. Согласно данной теореме вероятность получения сколь угодно малого расхождения между выборочной долей и генеральной долей при достаточно большом объеме выборки будет стремиться к единице. С учетом того, что вероятность расхождения между выборочной и генеральной долями подчиняется нормальному закону распределения, эта вероятность также определяется по функции F(t) при заданном значении t.
Процесс подготовки и проведения выборочного наблюдения включает ряд последовательных этапов:
- Определение цели обследования.
- Установление границ генеральной совокупности.
- Составление программы наблюдения и программы разработки данных
- Определение вида выборки, процента отбора и метода отбора
- Отбор и регистрация наблюдаемых признаков у отобранных единиц.
- Насчет выборочных характеристик и их ошибок.
- Распространение полученных результатов на генеральную совокупность.
В зависимости от состава и структуры генеральной совокупности выбирается вид выборки или способ отбора.
К наиболее распространенным на практике видам относятся:
- собственно-случайная (простая случайная) выборка;
- механическая (систематическая) выборка;
- типическая (стратифицированная, расслоенная) выборка;
- серийная (гнездовая) выборка.
Отбор единиц из генеральной совокупности может быть комбинированным, многоступенчатым и многофазным.
Комбинированный отбор предполагает объединение нескольких видов выборки. Так, например, можно комбинировать типическую и серийную, серийную и собственно-случайную выборки. Ошибка такой выборки определяется ступенчатостью отбора.
Многоступенчатым называется отбор, при котором из генеральной совокупности сначала извлекаются укрупненные группы, потом ‑ более мелкие и так до тех пор, пока не будут отобраны те единицы, которые подвергаются обследованию.
Многофазная выборка, в отличие от многоступенчатой, предполагает сохранение одной и той же единицы отбора на всех этапах его проведения; при этом отобранные на каждой стадии единицы подвергаются обследованию, каждый раз – по более расширенной программе.
Собственно-случайная (простая случайная) выборка заключается в отборе единиц из генеральной совокупности наугад или наудачу без каких-либо элементов системности.
Однако прежде чем производить собственно-случайный отбор, необходимо убедиться, что все без исключения единицы генеральной совокупности имеют абсолютно равные шансы попадания в выборку, в списках или перечне отсутствуют пропуски, игнорирования отдельных единиц и т.п. Следует также установить четкие границы генеральной совокупности таким образом, чтобы включение или не включение в нее отдельных единиц не вызывало сомнений. Так, например, при обследовании студентов необходимо указать, будут ли приниматься во внимание лица, находящиеся в академическом отпуске, студенты негосударственных вузов, военных училищ и т.п.; при обследовании торговых предприятий важно определиться, включит ли генеральная совокупность торговые павильоны, коммерческие палатки и прочие подобные объекты.
Технически собственно-случайный отбор проводят методом жеребьевки или по таблице случайных чисел.
Расчет ошибок позволяет решить одну из главных проблем организации выборочного наблюдения – оценить репрезентативность (представительность) выборочной совокупности.
Различают среднюю и предельную ошибки выборки. Эти два вида связаны следующим соотношением:
Величина средней ошибки выборки рассчитывается дифференцированно в зависимости от способа отбора и процедуры выборки.
Так, при собственно-случайном повторном отборе средняя ошибка определяется по формуле:
а при расчете средней ошибки собственно-случайной бесповторной выборки:
Расчет средней и предельной ошибок выборки позволяет определить возможные пределы, в которых будут находиться характеристики генеральной совокупности.
Например, для выборочной средней такие пределы устанавливаются на основе следующих соотношений:
где и
‑ генеральная и выборочная средняя соответственно;
‑ предельная ошибка выборочной средней.
Пример.
При проверке веса импортируемого груза на таможне методом случайной повторной выборки было отобрано 200 изделий. В результате был установлен средний вес изделия 30 г. при среднем квадратическом отклонении 4 г. С вероятностью 0,997 определите пределы, в которых находится средний вес изделия в генеральной совокупности.
Решение. Рассчитаем сначала предельную ошибку выборки. Так как при р = 0,997, t = 3, она равна:
Определим пределы генеральной средней:
или
Вывод: Следовательно, с вероятностью 0,997 можно утверждать, что средний вес изделий в генеральной совокупности находится в пределах от 29,16 г. до 30,84 г.
Пример 2.
В городе проживает 250 тыс. семей. Для определения среднего числа детей в семье была организована 2%-ная случайная бесповторная выборка семей. По ее результатам было получено следующее распределение семей по числу детей:
Таблица 10.2 ‑ Распределение семей по числу детей в городе N
Число детей в семье | 0 | 1 | 2 | 3 | 4 | 5 |
Количество
семей |
1000 | 2000 | 1200 | 400 | 200 | 200 |
С вероятностью 0,954 определите пределы, в которых будет находиться среднее число детей в генеральной совокупности.
Решение. В начале на основе имеющегося распределения семей определим выборочные среднюю и дисперсию:
Таблица 10.3 ‑ Вспомогательная таблица для расчета среднего числа детей
источники:
http://studme.org/230570/matematika_himiya_fizik/osnovy_matematicheskoy_teorii_vyborochnogo_metoda
http://stat-ist.ru/statistika-kurs-lektsij/vyborochnoe-nablyudenie
Общая теория статистики (Щербина Л.В.) |
Ошибки выборочного наблюденияМежду признаками выборочной совокупности и признаками генеральной совокупности существует некоторое расхождение, которое называют ошибкой статистического наблюдения. Величина возможной ошибки выборочного признака слагается из ошибок регистрации и ошибок репрезентативности. Под ошибкой репрезентативности (представительства) понимают расхождение между выборочной характеристикой и предполагаемой характеристикой генеральной совокупности. Ошибки репрезентативности бывают случайными и систематическими. Систематические ошибки связаны с нарушением установленных правил отбора. Случайные ошибки объясняются недостаточно равномерным представлением в выборочной совокупности различных категорий единиц генеральной совокупности. В результате первой причины выборка легко может оказаться смещенной, так как при отборе каждой единицы допускается ошибка, всегда направленная в одну и ту же сторону. Эта ошибка получила название ошибки смещения. Ее размер может превышать величину случайной ошибки. Особенность ошибки смещения состоит в том, что, представляя собой постоянную часть ошибки репрезентативности, она увеличивается с увеличением объема выборки. Случайная же ошибка с увеличением объема выборки уменьшается. Ошибки смещения бывают преднамеренными и непреднамеренными. Причиной возникновения преднамеренной ошибки является тенденциозный подход к выбору единиц из генеральной совокупности. Случайная ошибка выборки возникает в результате случайных различий между единицами, попавшими в выборку, и единицами генеральной совокупности. Теоретическим обоснованием появления случайных ошибок выборки являются теория вероятностей и ее предельные теоремы. Предельные теоремы теории вероятностей позволяют определять размер случайных ошибок выборки. Различают среднюю (стандартную) и предельную ошибки выборки. Под средней (стандартной) ошибкой выборки понимают расхождение между средней выборочной и генеральной совокупностями. Предельной ошибкой выборки принято считать максимально возможное расхождение. В математической теории выборочного метода сравниваются средние характеристики признаков выборочной и генеральной совокупностей и доказывается, что с увеличением объема выборки вероятность появления больших ошибок и пределы максимально возможной ошибки уменьшаются. Интервал, в который с данной степенью вероятности будет заключена неизвестная величина оцениваемого параметра, называют доверительным, а вероятность Р – доверительной вероятностью. Наряду с абсолютной величиной предельной ошибки выборки рассчитывается и относительная ошибка выборки, которая определяется как процентное отношение предельной ошибки выборки к соответствующей характеристике выборочной совокупности. Средняя (стандартная) ошибка выборки зависит от объема выборки и степени вариации признака в генеральной совокупности. Бурханова И.В. Теория статистики | Неганова Л.М. Статистика | Щербина Л.В. Общая теория статистики |
Статистика (СП)
Государственная статистическая отчетность подразделятся на __________ и специализированную
Статистика (СП)
_____________ — статистический показатель, рассчитываемый как отношение абсолютного прироста к абсолютному уровню, принятому за базу сравнения
Статистика (СП)
Показатели, представляющие собой количественную характеристику социально-экономических явлений и процессов в условиях качественной определенности, называются _______________ показатели
Статистика (СП)
_______________ статистических показателей — это совокупность взаимосвязанных показателей, имеющая одно- или многоуровневую структуру, нацеленная на решение конкретной статистической задачи
Статистика (СП)
___________ отчетность — официальный документ, в котором содержатся сведения о работе, состоянии (развитии) подотчетного объекта, занесенные в специальную форму
Статистика (СП)
_____________ группировка – разделение исследуемой качественно разнородной совокупности на классы, социально-экономические типы, однородные группы единиц в соответствии с правилами научной группировки
Статистика (СП)
Статистический ________________ – это качественная, а также количественная характеристика любого свойства какой-то совокупности
Статистика (СП)
___________ – последовательность упорядоченных во времени числовых показателей, характеризующих уровень развития изучаемого явления
Статистика (СП)
Совокупность признаков можно разделить на две группы: факторные и _____________.
Статистика (СП)
__________ выступает как количественная закономерность изменения в пространстве и во времени массовых явлений и процессов общественной жизни, состоящих из множества элементов (единиц совокупности)
Статистика (СП)
___________ — это признак, по которому проводится разбивка единиц совокупности на отдельные группы.
Статистика (СП)
_____________ статистики — количественная сторона массовых социально-экономических явлений и процессов, которая изучается неразрывно с их качественной стороной
Статистика (СП)
__________ индексы — индексы, которые характеризуют соотношение совокупности статистических процессов или явлений, состоящей из разнородных, непосредственно несоизмеримых элементов
Статистика (СП)
___________– количество элементов совокупности, которые имеют данное значение признака
Статистика (СП)
Признак, имеющий только два варианта значений называется -_______________.
Статистика (СП)
В _____________ отчетности программа разработана с учетом особенностей отдельных отраслей экономики или видов деятельности
Статистика (СП)
__________ — общественная наука, которая изучает количественную сторону качественно определенных массовых социально-экономических явлений и процессов, выявляет действующие количественные зависимости, тенденции и закономерности в конкретных условиях места и времени
Статистика (СП)
________________ ошибка выборки – ошибка, которая возникает в результате случайных различий между единицами, попавшими в выборку, и единицами генеральной совокупности, т.е. ошибка, связанная со случайным отбором
Статистика (СП)
_______________ – различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени
Статистика (СП)
____________ величины – обобщающие показатели, выражающие меру количественных соотношений, присущих статистическим объектам
Статистика (СП)
Применяя выборочный метод в статистике, обычно используют два основных вида обобщающих показателей: 1) среднюю величину количественного признака; 2) ________________ величину альтернативного признака
Статистика (СП)
Установите соответствие между понятиями и их определениями:
Монографическое обследование
обследованию подвергается только часть единиц изучаемой совокупности
наблюдение, основанное на принципе случайного отбора тех единиц изучаемой совокупности, которые должны быть подвергнуты наблюдению
обследованию подвергаются все единицы изучаемой совокупности
детальное, глубокое изучение и описание отдельных, характерных в каком-либо отношении единиц совокупности, как правило, по расширенной программе
Статистика (СП)
______________ статистические показатели – показатели, которые отражают количественную сторону изучаемой совокупности общественных явлений и представляют собой их величину, выраженную соответствующими единицами измерения
Статистика (СП)
________________ величина — обобщающий показатель, характеризующий типичный уровень варьирующего признака в расчете на единицу однородной совокупности в конкретных условиях места и времени
Статистика (СП)
____________ статистической отчетности — специальный документ, бланк, содержащий перечень определенных показателей, сведений, характеризующих ту или иную хозяйственную единицу и результаты ее деятельности, представляемый в государственные статистические органы для дальнейшего обобщения
Статистика (СП)
_______________ — частота, выраженные в долях единицы или в процентах к итогу (сумма частостей равна 1 или 100 %)
Статистика (СП)
Закон _____________ — общий принцип, в силу которого количественные закономерности, присущие массовым явлениям, отчетливо проявляются лишь при достаточно большом числе наблюдений
Статистика (СП)
Каждое числовое значение показателя, характеризующее величину явления, называется ___________ — количественной оценкой развития во времени исследуемого явления или процесса
Статистика (СП)
Установите соответствие между видами отбора и их характеристиками:
все единицы ГС нумеруются, а выпавшие в результате жеребьевки номера соответствуют единицам, попавшим в выборку, причем число номеров равно запланированному объему выборки
Стратифицированный (расслоенный) отбор
случайным или механическим способом выбирают не отдельные единицы, а определенные серии, внутри которых производится сплошное наблюдение
Серийный (гнездовой) отбор
осуществляется из неоднородной генеральной совокупности, когда ее предварительно разбивают на однородные группы, после чего производят отбор единиц из каждой группы в выборочную совокупность случайным или механическим способом пропорционально их численности в генеральной совокупности
Собственно случайный отбор
отбираются единицы генеральной совокупности с постоянным шагом N/п. Так, если она генеральная совокупность содержит 100 тыс. ед., а требуется выбрать 1 тыс. ед., то в выборку попадет каждая сотая единица
Статистика (СП)
Группировка, в которой группы образованы по одному признаку, называется ___________.
Статистика (СП)
____________ – статистический показатель, который отражает интенсивность изменения уровней ряда динамики и показывает, во сколько раз увеличился уровень по сравнению с предыдущим или базисным, а в случае уменьшения – какую часть базисного уровня составляет сравниваемый уровень; измеряется отношением текущего уровня к предыдущему или базисному
Статистика (СП)
__________ наблюдением называется такое несплошное обследование, при котором признаки регистрируются у отдельных единиц изучаемой статистической совокупности, отобранных с использованием специальных методов, а полученные в процессе обследования результаты с определенным уровнем вероятности распространяются на всю исходную совокупность
Статистика (СП)
______________ индексы — индексы, которые характеризуют результат сравнения двух показателей, относящихся к одному объекту, например сравнение цен какого-либо товара, объема его реализации и т.д.
Статистика (СП)
Статистическая ___________ — документ, разъясняющий вопросы программы статистического наблюдения, порядок заполнения статистического формуляра и частично планово-организационные вопросы
Статистика (СП)
Под __________ репрезентативности (представительства) понимают расхождение между выборочной характеристикой и предполагаемой характеристикой генеральной совокупности
Статистика (СП)
_____________ — относительный показатель, характеризующий изменение величины какого-либо явления (простого или сложного, состоящего из соизмеримых или несоизмеримых элементов) во времени, пространстве или по сравнению с любым эталоном (нормативом, планом, прогнозом и т.д.)
Статистика (СП)
______________ — группа, состоящая из множества относительно однородных элементов, взятых вместе в известных границах пространства и времени и обладающих признаками сходства и различия
Статистика (СП)
Различают два вида показателей экономического и социального развития общества: плановые (прогнозные) и _____________ (статистические)
Статистика (СП)
Группировка, в которой разделение совокупности на группы производится по двум и более признакам, взятым в сочетании (комбинации) называется ___________.
Статистика (СП)
___________ статистического наблюдения — это статистическая совокупность, в которой проистекают исследуемые социально-экономические явления и процессы
Статистика (СП)
Ряды динамики подразделяются на моментные, ____________ и ряды средних величин.
Статистика (СП)
Общее число единиц, образующих статистическую совокупность, называется ______________ совокупности
Статистика (СП)
Формы государственной статистической отчетности утверждаются ____________
Статистика (СП)
Сущность ________________ теорем состоит в том, что в массовых явлениях совокупное влияние различных случайных причин на формирование закономерностей и обобщающих характеристик будет сколь угодно малой величиной или практически не зависит от случая
Статистика (СП)
Группировка, выявляющая взаимосвязи между изучаемыми явлениями и их признаками, называется _______________ группировкой
Статистика (СП)
__________ наблюдения — перечень признаков, подлежащих регистрации (при непосредственном наблюдении), либо перечень вопросов, по которым собираются сведения (при опросах)
Статистика (СП)
Федеральная служба государственной ___________ (Росстат) — федеральный орган исполнительной власти, осуществляющий функции по формированию официальной статистической информации о социальном, экономическом, демографическом и экологическом положении страны, а также функции по контролю и надзору в области государственной статистической деятельности на территории РФ
Статистика (СП)
____________ отчетность – отчетность, обязательная к представлению организациями и предприятиями в органы государственной статистики
Текущая страница: 7 (всего у книги 11 страниц) [доступный отрывок для чтения: 2 страниц]
ЛЕКЦИЯ №6. Выборочное наблюдение
1. Общее понятие о выборочном наблюдении
Статистическое наблюдение можно организовать как сплошное и несплошное. Сплошное предусматривает обследование всех единиц изучаемой совокупности явления, несплошное – лишь ее части. К несплошному относится и выборочное наблюдение.
Выборочное наблюдение является одним из наиболее широко применяемых видов несплошного наблюдения. В основе этого наблюдения лежит идея о том, что отобранная в случайном порядке некоторая часть единиц может представлять всю изучаемую совокупность явления по интересующим исследователя признакам. Целью выборочного наблюдения является получение информации прежде всего для определения сводных обобщающих характеристик всей изучаемой совокупности. По своей цели выборочное наблюдение совпадает с одной из задач сплошного наблюдения, и поэтому речь может идти о том, какое из двух видов наблюдения – сплошное или выборочное – целесообразнее провести.
При решении этого вопроса необходимо исходить из следующих основных требований, предъявляемых к статистическому наблюдению:
1) информация должна быть достоверной, т. е. максимально соответствовать реальной действительности;
2) сведения должны быть достаточно полными для решения задач исследования;
3) отбор информации должен быть проведен в максимально сжатые сроки для обеспечения ее использования в оперативных целях;
4) денежные и трудовые затраты на организацию и проведение должны быть минимальными.
При выборочном наблюдении эти требования обеспечиваются в большей мере, чем при сплошном. Преимущества выборочного наблюдения по сравнению со сплошным в полной мере можно оценить, если оно организовано и проведено в строгом соответствии с научными принципами теории выборочного метода. Таким принципом является обеспечение случайности отбора единиц и достаточного их числа. Соблюдение принципа позволяет получить такую совокупность единиц, которая по интересующим исследователя признакам представляет всю изучаемую совокупность, т. е. является репрезентативной (представительной).
При проведении выборочного наблюдения обследуются не все единицы изучаемого объекта, т. е. не все единицы генеральной совокупности, а лишь ее некоторая часть, специальным образом отобранная. Первый принцип отбора – обеспечение случайности – заключается в том, что при отборе каждой из единиц изучаемой совокупности обеспечивается равная возможность попасть в выборку. Случайный отбор – это не беспорядочный отбор. Случайный отбор можно обеспечить только при соблюдении определенной методики (например, осуществляя отбор по жребию, применяя таблицы случайных чисел и т. д.).
Второй принцип отбора – обеспечение достаточного числа отобранных единиц – тесно связан с понятием репрезентативности выборки. Понятие репрезентативности отобранной совокупности единиц не следует понимать как ее представительность во всех отношениях, т. е. по всем признакам изучаемой совокупности. Такое представительство обеспечить практически невозможно. Любое выборочное наблюдение проводится с определенной целью и четко сформулированными конкретными задачами, и понятие репрезентативности должно быть связано с целью и задачами исследования. Отобранная из всей изучаемой совокупности часть должна быть репрезентативной прежде всего в отношении тех признаков, которые изучаются или оказывают существенное влияние на формирование сводных обобщающих характеристик.
Введем некоторые понятия, используемые в выборочном наблюдении. Генеральной совокупностью называется вся изучаемая совокупность единиц, подлежащая изучению по интересующим исследователя признакам. Выборочной совокупностью называется отобранная в случайном порядке из генеральной совокупности некоторая ее часть. К данной выборке предъявляется требование репрезентативности, что означает возможность, изучая лишь часть генеральной совокупности, распространять полученные выводы на всю совокупность. Характеристиками генеральной и выборочной совокупностей могут служить средние значения изучаемых признаков, их дисперсии и средние квадратические отклонения, мода и медиана и др.
Исследователя могут интересовать и распределения единиц по изучаемым признакам в генеральной и выборочной совокупностях. В этом случае частоты называются соответственно генеральными и выборочными.
Система правил отбора и способов характеристики единиц изучаемой совокупности составляет содержание выборочного метода. Суть выборочного метода состоит в получении первичных данных, осуществляемых наблюдением выборки с последующим обобщением, анализом и их распространением на всю генеральную совокупность с целью получения достоверной информации об исследуемом явлении.
Репрезентативность выборки обеспечивается соблюдением принципа случайности отбора объектов совокупности в выборку. Если совокупность является качественно однородной, то принцип случайности реализуется простым случайным отбором объектов выборки. Простым случайным отбором называют такую процедуру образования выборки, которая обеспечивает одинаковую вероятность для каждой единицы совокупности быть выбранной для наблюдения, для любой выборки заданного объема.
Итак, цель выборочного метода – сделать вывод о значении признаков генеральной совокупности на основе информации от случайной выборки из этой совокупности.
2. Ошибки выборочного наблюдения
Между признаками выборочной совокупности и признаками генеральной совокупности, как правило, существует некоторое расхождение, которое называют ошибкой статистического наблюдения. При массовом наблюдении ошибки неизбежны, но возникают они в результате действия различных причин. Величина возможной ошибки выборочного признака слагается из ошибок регистрации и ошибок репрезентативности. Ошибки регистрации, или технические ошибки, связаны с недостаточной квалификацией наблюдателей, неточностью подсчетов, несовершенством приборов и т. п.
Под ошибкой репрезентативности (представительства) понимают расхождение между выборочной характеристикой и предполагаемой характеристикой генеральной совокупности. Ошибки репрезентативности бывают случайными и систематическими.
Систематические ошибки связаны с нарушением установленных правил отбора. Случайные ошибки объясняются недостаточно равномерным представлением в выборочной совокупности различных категорий единиц генеральной совокупности. В результате первой причины выборка легко может оказаться смещенной, так как при отборе каждой единицы допускается ошибка, всегда направленная в одну и ту же сторону. Эта ошибка получила название ошибки смещения. Ее размер может превышать величину случайной ошибки. Особенность ошибки смещения состоит в том, что, представляя собой постоянную часть ошибки репрезентативности, она увеличивается с увеличением объема выборки. Случайная же ошибка с увеличением объема выборки уменьшается. Кроме того, величину случайной ошибки можно определить, тогда как размер ошибки смещения непосредственно практически определить очень сложно, а иногда и невозможно. Поэтому важно знать причины, вызывающие ошибку смещения, и предусмотреть мероприятия по ее устранению.
Ошибки смещения бывают преднамеренными и непреднамеренными. Причиной возникновения преднамеренной ошибки является тенденциозный подход к выбору единиц из генеральной совокупности. Чтобы не допустить появления такой ошибки, необходимо соблюдать принцип случайности отбора единиц.
Непреднамеренные ошибки могут возникать на стадии подготовки выборочного наблюдения, формирования выборочной совокупности и анализа ее данных. Чтобы не допустить появления таких ошибок, необходима хорошая основа выборки, т. е. та генеральная совокупность, из которой предполагается производить отбор, например список единиц отбора. Основа выборки должна быть достоверной, полной и соответствовать цели исследования, а единицы отбора и их характеристики должны соответствовать действительному их состоянию на момент подготовки выборочного наблюдения. Нередки случаи, когда в отношении некоторых единиц, попавших в выборку, трудно собрать сведения из-за их отсутствия на момент наблюдения, нежелания дать сведения и т. п. В таких случаях эти единицы приходится заменять другими. Необходимо следить, чтобы замена осуществлялась равноценными единицами.
Случайная ошибка выборки возникает в результате случайных различий между единицами, попавшими в выборку, и единицами генеральной совокупности, т. е. она связана со случайным отбором. Теоретическим обоснованием появления случайных ошибок выборки являются теория вероятностей и ее предельные теоремы.
Сущность предельных теорем состоит в том, что в массовых явлениях совокупное влияние различных случайных причин на формирование закономерностей и обобщающих характеристик будет сколь угодно малой величиной или практически не зависит от случая. Так как случайная ошибка выборки возникает в результате случайных различий между единицами выборочной и генеральной совокупностей, то при достаточно большом объеме выборки она будет сколь угодно мала.
Предельные теоремы теории вероятностей позволяют определять размер случайных ошибок выборки. Различают среднюю (стандартную) и предельную ошибку выборки. Под средней (стандартной) ошибкой выборки понимают расхождение между средней выборочной и генеральной совокупностей. Предельной ошибкой выборки принято считать максимально возможное расхождение, т. е. максимум ошибки при заданной вероятности ее появления.
В математической теории выборочного метода сравниваются средние характеристики признаков выборочной и генеральной совокупностей и доказывается, что с увеличением объема выборки вероятность появления больших ошибок и пределы максимально возможной ошибки уменьшаются. Чем больше обследуется единиц, тем меньше будет величина расхождений выборочных и генеральных характеристик. На основании теоремы, доказанной П. Л. Чебышевым, величину стандартной ошибки простой случайной выборки при достаточно большом объеме выборки (n) можно определить по формуле:
где µx– стандартная ошибка.
Из этой формулы средней (стандартной) ошибки простой случайной выборки видно, что величина µx зависит от изменчивости признака в генеральной совокупности (чем больше вариация признака, тем больше ошибка выборки) и от объема выборки n чем больше обследуется единиц, тем меньше будет величина расхождений выборочных и генеральных характеристик).
Академик А. М. Ляпунов доказал, что вероятность появления случайной ошибки выборки при достаточно большом ее объеме подчиняется закону нормального распределения. Эта вероятность определяется по формуле:
В математической статистике употребляют коэффициент доверия t, и значения функции F(t) табулированы при разных его значениях, при этом получают соответствующие уровни доверительной вероятности.
Коэффициент доверия позволяет вычислить предельную ошибку выборки, вычисляемую по формуле:
Из формулы вытекает, что предельная ошибка выборки равна -кратному числу средних ошибок выборки.
Таким образом, величина предельной ошибки выборки может быть установлена с определенной вероятностью.
Выборочное наблюдение дает возможность определить среднюю арифметическую выборочной совокупности x и величину предельной ошибки этой средней ∆x, которая показывает с определенной вероятностью), насколько выборочная может отличаться от генеральной средней в большую или меньшую сторону. Тогда величина генеральной средней будет представлена интервальной оценкой, для которой нижняя граница будет равна
Интервал, в который с данной степенью вероятности будет заключена неизвестная величина оцениваемого параметра, называют доверительным, а вероятность Р – доверительной вероятностью. Чаще всего доверительную вероятность принимают равной 0,95 или 0,99, тогда коэффициент доверия t равен соответственно 1,96 и 2,58. Это означает, что доверительный интервал с заданной вероятностью заключает в себе генеральную среднюю.
Наряду с абсолютной величиной предельной ошибки выборки рассчитывается и относительная ошибка выборки, которая определяется как процентное отношение предельной ошибки выборки к соответствующей характеристике выборочной совокупности:
Чем больше величина предельной ошибки выборки, тем больше величина доверительного интервала и тем, следовательно, ниже точность оценки. Средняя (стандартная) ошибка выборки зависит от объема выборки и степени вариации признака в генеральной совокупности.
3. Определение необходимой численности выборки
Одним из научных принципов в теории выборочного метода является обеспечение достаточного числа отобранных единиц. Теоретически необходимость соблюдения этого принципа представлена в доказательствах предельных теорем теории вероятностей, которые позволяют установить, какой объем единиц следует выбрать из генеральной совокупности, чтобы он был достаточным и обеспечивал репрезентативность выборки.
Уменьшение стандартной ошибки выборки (а следовательно, увеличение точности оценки) всегда связано с увеличением объема выборки. Поэтому уже на стадии организации выборочного наблюдения приходится решать вопрос о том, каков должен быть объем выборочной совокупности, чтобы была обеспечена требуемая точность результатов наблюдений. Расчет необходимого объема выборки строится с помощью формул, выведенных из формул предельных ошибок выборки (∆), соответствующих тому или иному виду и способу отбора. Так, для случайного повторного объема выборки (n) имеем:
Смысл этой формулы в том, что при случайном повторном отборе необходимой численности объем выборки прямо пропорционален квадрату коэффициента доверия (t2) и дисперсии вариационного признака (σ2) и обратно пропорционален квадрату предельной ошибки выборки (∆2). В частности, с увеличением предельной ошибки в 2 раза необходимая численность выборки может быть уменьшена в 4 раза. Из трех параметров два (t и ∆) задаются исследователем. При этом исследователь исходя из цели и задач выборочного обследования должен решить вопрос, в каком количественном сочетании лучше включить эти параметры для обеспечения оптимального варианта. В одном случае его может устраивать в большей мере надежность полученных результатов (t), нежели мера точности (∆), в другом – наоборот. Сложнее решить вопрос в отношении величины предельной ошибки выборки, так как этим показателем исследователь на стадии проектировки выборочного наблюдения не располагает. Поэтому в практике принято задавать величину предельной ошибки выборки, как правило, в пределах до 10% предполагаемого среднего уровня признака. К установлению предполагаемого среднего уровня можно подходить по-разному: использовать данные подобных ранее проведенных обследований или же воспользоваться данными основы выборки и произвести небольшую пробную выборку.
Вопрос об определении необходимой численности выборки усложняется, если выборочное обследование предполагает изучение нескольких признаков единиц отбора. В этом случае средние уровни каждого из признаков и их вариация, как правило, различны, и поэтому решить вопрос о том, дисперсии какого из признаков отдать предпочтение, возможно лишь с учетом цели и задач обследования.
При проектировании выборочного наблюдения предполагаются заранее заданной величина допустимой ошибки выборки в соответствии с задачами конкретного исследования и вероятность выводов по результатам наблюдения.
В целом формула предельной ошибки выборочной средней позволяет решать следующие задачи:
1) определять величину возможных отклонений показателей генеральной совокупности от показателей выборочной совокупности;
2) определять необходимую численность выборки, обеспечивающую требуемую точность, при которой пределы возможной ошибки не превысят некоторой, наперед заданной величины;
3) определять вероятность того, что в проведенной выборке ошибка будет иметь заданный предел.
4. Способы отбора и виды выборки
В теории выборочного метода разработаны различные способы отбора и виды выборки, обеспечивающие репрезентативность. Под способом отбора понимают порядок отбора единиц из генеральной совокупности. Различают два способа отбора: повторный и бесповторный. При повторном отборе каждая отобранная в случайном порядке единица после ее обследования возвращается в генеральную совокупность и при последующем отборе может снова попасть в выборку. Этот способ отбора построен по схеме «возвращенного шара». При таком способе отбора вероятность попасть в выборку для каждой единицы генеральной совокупности не меняется независимо от числа отбираемых единиц. При бесповторном отборе каждая единица, отобранная в случайном порядке, после ее обследования в генеральную совокупность не возвращается. Этот способ отбора построен по схеме «невозвращенного шара». Вероятность попасть в выборку для каждой единицы генеральной совокупности увеличивается по мере производства отбора.
В зависимости от методики формирования выборочной совокупности различают следующие основные виды выборки: собственно случайную, механическую, типическую (стратифицированную, районированную), серийную (гнездовую), комбинированную, многоступенчатую, многофазную, взаимопроникающую.
Собственно случайная выборка формируется в строгом соответствии с научными принципами и правилами случайного отбора. Для получения собственно-случайной выборки генеральная совокупность строго подразделяется на единицы отбора, и затем в случайном повторном или бесповторном порядке отбирается достаточное число единиц. Случайный порядок – это порядок, равносильный жеребьевке. На практике такой порядок лучшим образом обеспечивается при использовании специальных таблиц случайных чисел. Если, например, из совокупности, содержащей 1587 единиц, следует отобрать 40 единиц, то из таблицы отбирают 40 четырехзначных чисел, которые меньше 1587.
При бесповторном способе отбора расчета стандартной ошибки осуществляется с помощью формулы:
– доля единиц генеральной совокупности, не попавших в выборку.
Так как эта доля всегда меньше единицы, то ошибка при бесповторном отборе при прочих равных условиях всегда меньше, чем при повторном. Бесповторный отбор практически организовать всегда легче, чем повторный, и он применяется чаще.
Формировать выборку в строгом соответствии с правилами случайного отбора практически очень сложно, а иногда невозможно, так как при использовании таблиц случайных чисел необходимо пронумеровать все единицы генеральной совокупности. Довольно часто генеральная совокупность такая большая, что провести подобную предварительную работу чрезвычайно сложно и нецелесообразно. Поэтому на практике применяют другие виды выборок, каждая из которых не является строго случайной. Однако организуются они так, чтобы было обеспечено максимальное приближение к условиям случайного отбора.
При чисто механической выборке вся генеральная совокупность единиц должна быть прежде всего представлена в виде списка единиц отбора, составленного в каком-то нейтральном по отношению к изучаемому признаку порядке, например по алфавиту. Затем список единиц отбора разбивается на столько равных частей, сколько необходимо отобрать единиц. Далее по заранее установленному правилу, не связанному с вариацией исследуемого признака, из каждой части списка отбирается одна единица. Этот вид выборки не всегда может обеспечить случайный характер отбора, и полученная выборка может оказаться смещенной. Объясняется это тем, что, во-первых, упорядочение единиц генеральной совокупности может иметь элемент неслучайного характера. Во-вторых, отбор из каждой части генеральной совокупности при неправильном установлении начала отсчета может также привести к ошибке смещения. Однако практически легче организовать механическую выборку, чем собственно случайную, и при проведении выборочных обследований чаще всего пользуются этим видом выборки. Типическая (районированная, стратифицированная) выборка преследует две цели:
1) обеспечить представительство в выборке соответствующих типических групп генеральной совокупности по интересующим исследователя признакам;
2) увеличить точность результатов выборочного обследования.
При типической выборке до начала ее формирования генеральная совокупность единиц разбивается на типические группы. При этом очень важным моментом является правильный выбор группировочного признака. Выделенные типические группы могут содержать одинаковое или различное число единиц отбора. В первом случае выборочная совокупность формируется с одинаковой долей отбора из каждой группы, во втором – с долей, пропорциональной ее доле в генеральной совокупности. Если выборка формируется с равной долей отбора, по существу, она равносильна ряду собственно-случайных выборок из меньших генеральных совокупностей, каждая из которых и есть типическая группа. Отбор из каждой группы осуществляется в случайном (повторном или бесповторном) либо механическом порядке. При типической выборке, (как с равной, так и неравной долей отбора), удается устранить влияние межгрупповой вариации изучаемого признака на точность ее результатов, так как обеспечивается обязательное представительство в выборочной совокупности каждой из типических групп. Стандартная ошибка выборки будет зависеть не от величины общей дисперсии – σ2, а от величины средней из групповых дисперсий σi2.
Поскольку средняя из групповых дисперсий всегда меньше общей дисперсии, постольку при прочих равных условиях стандартная ошибка типической выборки будет меньше стандартной ошибки собственно-случайной выборки.
При определении стандартных ошибок типической выборки применяются следующие формулы:
1) при повторном способе отбора:
2) при бесповторном способе отбора:
где σв2– средняя из групповых дисперсий в выборочной совокупности.
Серийная (гнездовая) выборка – это такой вид формирования выборочной совокупности, когда в случайном порядке отбираются не единицы, подлежащие обследованию, а группы единиц (серии, гнезда). Внутри отобранных серий (гнезд) обследованию подвергаются все единицы. Серийную выборку практически организовать и провести легче, чем отбор отдельных единиц. Однако при этом виде выборки, во-первых, не обеспечивается представительство каждой из серий, и, во-вторых, не устраняется влияние межсерийной вариации изучаемого признака на результаты обследования. В том случае, когда эта вариация значительна, она приведет к увеличению случайной ошибки репрезентативности. При выборе вида выборки исследователю необходимо учитывать это обстоятельство.
Стандартная ошибка серийной выборки определяется по формулам:
1) при повторном способе отбора:
где σв2– межсерийная дисперсия выборочной совокупности;
г – число отобранных серий;
2) при бесповторном способе отбора:
где R – число серий в генеральной совокупности.
В практике те или иные способы и виды выборок применяются в зависимости от цели и задач выборочных обследований, а также возможностей их организации и проведения. Чаще всего применяется комбинирование способов отбора и видов выборки. Такие выборки получили название комбинированных. Комбинирование возможно в разных сочетаниях: механической и серийной выборки, типической и механической, серийной и собственно-случайной и т. д. К комбинированной выборке прибегают с целью обеспечить наибольшую репрезентативность с наименьшими трудовыми и денежными затратами на организацию и проведение обследования.
При комбинированной выборке величина стандартной ошибки выборки состоит из ошибок на каждой ее ступени и может быть определена как корень квадратный из суммы квадратов ошибок соответствующих выборок. Так, если при комбинированной выборке в сочетании использовались механическая и типическая выборки, то стандартную ошибку можно определить по формуле:
где μ1 и μ2– стандартные ошибки соответственно механической и типической выборок.
Особенность многоступенчатой выборки состоит в том, что выборочная совокупность формируется постепенно, по ступеням отбора. На первой ступени с помощью заранее определенного способа и вида отбора отбираются единицы первой ступени. На второй ступени из каждой единицы первой ступени, попавшей в выборку, отбираются единицы второй ступени и т. д. Число ступеней может быть и больше двух. На последней ступени формируется выборочная совокупность, единицы которой подлежат обследованию. Так, например, для выборочного обследования бюджетов домашних хозяйств на первой ступени отбираются территориальные субъекты страны, на второй – районы в отобранных регионах, на третьей в каждом муниципальном образовании отбираются предприятия или организации и, наконец, на четвертой ступени в отобранных предприятиях отбираются семьи.
Таким образом, выборочная совокупность формируется на последней ступени. Многоступенчатая выборка более гибкая, чем другие виды, хотя в общем она дает менее точные результаты, чем выборка того же объема, но сформированная в одну ступень. Однако при этом она имеет одно важное преимущество, которое заключается в том, что основу выборки при многоступенчатом отборе нужно строить на каждой из ступеней только для тех единиц, которые попали в выборку, а это очень важно, так как нередко готовой основы выборки нет.
Стандартную ошибку выборки при многоступенчатом отборе при группах разных объемов определяют по формуле:
где μ1, μ2, μ3,… – стандартные ошибки на разных ступенях;
n1, n2, n3,… – численность выборок на соответствующих ступенях отбора.
В том случае, если группы неодинаковы по объему, теоретически этой формулой пользоваться нельзя. Но если общая доля отбора на всех ступенях постоянна, то практически расчет по этой формуле не приведет к искажению величины ошибки.
Сущность многофазной выборки состоит в том, что на основе первоначально сформированной выборочной совокупности образуют подвыборку, из этой подвыборки – следующую подвы-борку и т. д. Первоначальная выборочная совокупность представляет собой первую фазу, подвыборка из нее – вторую и т. д. Многофазную выборку целесообразно применять в нескольких случаях:
1) если для изучения различных признаков требуется неодинаковый объем выборки;
2) если колеблемость изучаемых признаков неодинакова и требуемая точность различна;
3) если в отношении всех единиц первоначальной выборочной совокупности (первая фаза) необходимо собрать одни – менее подробные сведения, а в отношении единиц каждой последующей фазы другие – более подробные. Одним из несомненных достоинств многофазной выборки является то обстоятельство, что сведениями, полученными на первой фазе, можно пользоваться как дополнительной информацией на последующих фазах, информацией второй фазы – как дополнительной информацией на следующих фазах и т. д. Такое использование сведений повышает точность результатов выборочного обследования.
При организации многофазной выборки можно применять сочетание различных способов и видов отбора (типическую выборку с механической и т. д.). Многофазный отбор можно сочетать с многоступенчатым. На каждой ступени выборка может быть многофазной.
Стандартная ошибка при многофазной выборке рассчитывается на каждой фазе в отдельности в соответствии с формулами того способа отбора и вида выборки, при помощи которых формировалась ее выборочная совокупность.
Взаимопроникающие выборки – это две или более независимые выборки из одной и той же генеральной совокупности, образованные одним и тем же способом и видом. К взаимопроникающим выборкам целесообразно прибегать, если необходимо за короткий срок получить предварительные итоги выборочных обследований. Взаимопроникающие выборки эффективны для оценки результатов обследования. Если в независимых выборках результаты одинаковы, то это свидетельствует о надежности данных выборочного обследования. Взаимопроникающие выборки иногда можно применять для проверки работы различных исследователей, поручив каждому из них провести обследование разных выборок.
Стандартная ошибка при взаимопроникающих выборках определяется так же, как при типической пропорциональной выборке. Взаимопроникающие выборки по сравнению с другими видами требуют больших трудовых затрат и денежных расходов, поэтому исследователь должен учитывать это обстоятельство при проектировании выборочного обследования.
Предельные ошибки при различных способах отбора и видах выборки определяются по формуле:
Δ = tμ,
где μ– соответствующая стандартная ошибка.