Представляет из себя такое расхождение между средними выборочной и генеральной совокупностями, которое не превышает ±б (дельта).

На основании теоремы Чебышева П. Л. величина средней ошибки при случайном повторном отборе рассчитывается по формуле (для среднего количественного признака):

где числитель - дисперсия признака х в выборочной совокупности;
n - численность выборочной совокупности.

Для альтернативного признака формула средней ошибки выборки для доли по теореме Я. Бернулли рассчитывается по формуле:

где р(1- р) - дисперсия доли признака в генеральной совокупности;
n - объем выборки.

Вследствие, того что дисперсия признака в генеральной совокупности точно не известна, на практике используют значение дисперсии, которое рассчитано для выборочной совокупности на основании закона больших чисел . Согласно данному закону выборочная совокупность при большом объеме выборки достаточно точно воспроизводит характеристики генеральной совокупности.

Поэтому расчетные формулы средней ошибки при случайном повторном отборе будут выглядеть таким образом:

1. Для среднего количественного признака:

где S^2 - дисперсия признака х в выборочной совокупности;
n - объем выборки.

где w (1 — w) - дисперсия доли изучаемого признака в выборочной совокупности.

В теории вероятностей было показано, что выражается через выборочную согласно формуле:

В случаях малой выборки , когда её объем меньше 30, необходимо учитывать коэффициент n/(n-1). Тогда среднюю ошибку малой выборки рассчитывают по формуле:

Так как в процессе бесповторной выборки сокращается численность единиц генеральной совокупности, то в представленных выше формулах расчета средних ошибок выборки нужно подкоренное выражение умножить на 1- (n/N).

Расчетные формулы для такого вида выборки будут выглядеть так:

1. Для средней количественного признака:

где N - объем генеральной совокупности; n - объем выборки.

2. Для доли (альтернативного признака):

где 1- (n/N) — доля единиц генеральной совокупности, не попавших в выборку.

Поскольку n всегда меньше N, то дополнительный множитель 1 — (n/N) всегда будет меньше единицы. Это означает, что средняя ошибка при бесповторном отборе всегда будет меньше, чем при повторном. Когда доля единиц генеральной совокупности, которые не попали в выборку, существенная, то величина 1 — (n/N) близка к единице и тогда расчет средней ошибки производится по общей формуле.

Средняя ошибка зависит от следующих факторов:

1. При выполнении принципа случайного отбора средняя ошибка выборки определяется во-первых объемом выборки: чем больше численность, тем меньше величины средней ошибки выборки . Генеральная совокупность характеризуется точнее тогда, когда больше единиц данной совокупности охватывает выборочное наблюдение

2. Средняя ошибка также зависит от степени варьирования признака. Степень варьирования характеризуется . Чем меньше вариация признака (дисперсия), тем меньше средняя ошибка выборки. При нулевой дисперсии (признак не варьируется) средняя ошибка выборки равна нулю, таким образом, любая единица генеральной совокупности будет характеризовать всю совокупность по этому признаку.

Как известно, в статистике существует два способа наблюдения массовых явлений в зависимости от полноты охвата объекта: сплошное и несплошное. Разновидностью несплошного наблюдения является выборочное наблюдение.

Под выборочным наблюдением понимается несплошное наблюдение, при котором статистическому обследованию (наблюдению) подвергаются единицы изучаемой совокупности, отобранные случайным образом.

Выборочное наблюдение ставит перед собой задачу – по обследуемой части дать характеристику всей совокупности единиц при условии соблюдения всех правил и принципов проведения статистического наблюдения и научно организованной работы по отбору единиц.

Совокупность отобранных для обследования единиц в статистике принято называть выборочной совокупностью , а совокупность единиц, из которых производится отбор, называют генеральной совокупностью . Основные характеристики генеральной и выборочной совокупности представлены в таблице 1.

Таблица 1 - Основные характеристики генеральной и выборочной совокупности
Показатель Обозначение или формула
Генеральная совокупность Выборочная совокупность
Число единиц N n
Число единиц, обладающих каким-либо признаком M m
Доля единиц, обладающих этим признаком p = M/N ω = m/n
Доля единиц, не обладающих этим признаком q = 1 - p 1 - ω
Средняя величина признака
Дисперсия признака
Дисперсия альтернативного признака (дисперсия доли) pq ω (1 - ω)

При проведении выборочного наблюдения возникают систематические и случайные ошибки. Систематические ошибки возникают в силу нарушения правил отбора единиц в выборку. Изменив правила отбора, от таких ошибок можно избавиться.

Случайные ошибки возникают в силу несплошного характера обследования. Иначе их называют ошибками репрезентативности (представительности). Случайные ошибки разделяют на средние и предельные ошибки выборки, которые определяются как при расчете признака, так и при расчете доли.

Средние и предельные ошибки связаны следующим соотношением : Δ = tμ , где Δ - предельная ошибка выборки, μ - средняя ошибка выборки, t - коэффициент доверия, определяемый в зависимости от уровня вероятности. В таблице 2 приведены некоторые значения t, взятые из теории вероятностей.

Величина средней ошибки выборки рассчитывается дифференцированно в зависимости от способа отбора и процедуры выборки. Основные формулы для расчета ошибок выборки представлены в таблице 3.

Таблица 3 - Основные формулы для расчета ошибок выборки при повторном и бесповторном отборе
Показатель Обозначение и формула
Генеральная совокупность Выборочная совокупность
Средняя ошибка признака при случайном повторном отборе
Средняя ошибка доли при случайном повторном отборе
Предельная ошибка признака при случайном повторном отборе
Предельная ошибка доли при случайном повторном отборе
Средняя ошибка признака при случайном бесповторном отборе
Средняя ошибка доли при случайном бесповторном отборе
Предельная ошибка признака при случайном бесповторном отборе
Предельная ошибка доли при случайном бесповторном отборе

Расчет средней и предельной ошибок выборки позволяет определить возможные пределы, в которых будут находиться характеристики генеральной совокупности .

Например, для выборочной средней такие пределы устанавливаются на основе следующих соотношений:

Пределы доли признака в генеральной совокупности р.

Примеры решения задач по теме «Выборочное наблюдение в статистике»

Задача 1 . Имеется информация о выпуске продукции (работ, услуг), полученной на основе 10% выборочного наблюдения по предприятиям области:

Определить: 1) по предприятиям, включенным в выборку: а) средний размер произведенной продукции на одно предприятие; б) дисперсию объема производства; в) долю предприятий с объемом производства продукции более 400 тыс. руб.; 2) в целом по области с вероятностью 0,954 пределы, в которых можно ожидать: а) средний объем производства продукции на одно предприятие; б) долю предприятий с объемом производства продукции более 400 тыс. руб.; 3) общий объем выпуска продукции по области.

Решение

Для решения задачи расширим предложенную таблицу.

1) По предприятиям, включенным в выборку, средний размер произведенной продукции на одно предприятие

110800/400 = 277 тыс. руб.

Дисперсию объема производства вычислим упрощенным способом σ 2 = 35640000/400 – 277 2 = 89100 - 76229 = 12371.

Число предприятий, объем производства продукции которых превышает 400 тыс. руб. равно 36+12 = 48, а их доля равна ω = 48:400 = 0,12 = 12%.

2) Из теории вероятности известно, что при вероятности Р=0,954 коэффициент доверия t=2. Предельная ошибка выборки

2√12371:400 = 11,12 тыс. руб.

Установим границы генеральной средней: 277-11,12 ≤Хср≤ 277+11,12; 265,88 ≤Хср≤ 288,12

Предельная ошибка выборки доли предприятий

2√0,12*0,88/400 = 0,03

Определим границы генеральной доли: 0,12-0,03≤ р ≤0,12+0,03; 0,09≤ р ≤0,15

3) Поскольку рассматриваемая группа предприятий составляет 10% от общего числа предприятий области, то в целом по области насчитывается 4000 предприятий. Тогда общий объем выпуска продукции по области лежит в пределах 265,88×4000≤Q≤288,12×4000; 1063520 ≤ Q ≤ 1152480

Задача 2 . По результатам контрольной проверки налоговыми службами 400 бизнес-структур, у 140 из них в налоговых декларациях не полностью указаны доходы, подлежащие налогообложению. Определите в генеральной совокупности (по всему району) долю бизнес-структур, скрывших часть доходов от уплаты налогов, с вероятностью 0,954.

Решение

По условию задачи число единиц в выборочной совокупности n=400, число единиц, обладающих рассматриваемым признаком m=140, вероятность Р=0,954.

Из теории вероятностей известно, что при вероятности Р=0,954 коэффициент доверия t=2.

Долю единиц, обладающих указанным признаком, определим по формуле: p=w+∆p, где w = m/n=140/400=0,35=35%,
а предельную ошибку признака ∆p получим из формулы: ∆p= t √w(1-w)/n = 2√0,35×0,65/400 ≈ 0,5 = 5%

Тогда р = 35±5%.

Ответ : Доля бизнес-структур, скрывших часть доходов от уплаты налогов с вероятностью 0,954 равна 35±5%.

Учитывая, что на основе выборочного обследования нельзя точно оценить изучаемый параметр (например, среднее значение) генеральной совокупности, необходимо найти пределы, в которых он находится. В конкретной выборке разность может быть больше, меньше или равна . Каждое из отклонений от имеет определенную вероятность. При выборочном обследовании реальное значение в генеральной совокупности неизвестно. Зная среднюю ошибку выборки, с определенной вероятностью можно оценить отклонение выборочной средней от генеральной и установить пределы, в которых находится изучаемый параметр (в данном случае среднее значение) в генеральной совокупности. Отклонение выборочной характеристики от генеральной называется предельной ошибкой выборки . Она определяется в долях средней ошибки с заданной вероятностью, т.е.

= t, (1.38)

где t коэффициент доверия , зависящий от вероятности, с которой определяется предельная ошибка выборки.

Вероятность появления определенной ошибки выборки находят с помощью теорем теории вероятностей. Согласно теореме П. Л. Чебышёва, при достаточно большом объеме выборки и ограниченной дисперсии генеральной совокупности вероятность того, что разность между выборочной средней и генеральной средней будет сколь угодно мала, близка к единице :

при .

А. М. Ляпунов доказал, что независимо от характера распределения генеральной совокупности при увеличении объема выборки распределение вероятностей появления того или иного значения выборочной средней приближается к нормальному распределению . Это так называемая центральная предельная теорема. Следовательно, вероятность отклонения выборочной средней от генеральной средней, т.е. вероятность появления заданной предельной ошибки, также подчиняется указанному закону и может быть найдена как функция от t с помощью интеграла вероятностей Лапласа:

,

где – нормированное отклонение выборочной средней от генеральной средней.

Значения интеграла Лапласа для разных t рассчитаны и име­ются в специальных таблицах, из которых в статистике широко применяется сочетание:

Вероятность

Задавшись конкретным уровнем вероятности, выбирают величину нормированного отклонения t и определяют предельную ошибку выбор­ки по формуле (1.38)

При этом чаще всего применяют = 0,95 и t = 1,96, т.е. считают, что с вероятностью 95% предельная ошибка выборки вдвое больше средней. Поэтому в статистике величина t иногда именуется коэффициентом кратности предельной ошибки относительно средней .

Основное преимущество выборочного наблюдения среди прочих других - возможность рассчитать случайную ошибку выборки.

Ошибки выборки бывают систематические и случайные.

Систематические - в том случае, когда нарушен основной принцип выборки - случайности. Случайные - возникают обычно ввиду того, что структура выборочной совокупности все­гда отличается от структуры генеральной совокупности, как бы правильно ни был произведен отбор, то есть, несмотря на принцип случайности отбора единиц совокупности, все же имеются расхо­ждения между характеристиками выборочной и генеральной сово­купности. Изучение и измерение случайных ошибок репрезента­тивности и является основной задачей выборочного метода.

Как правило, чаще всего рассчитывают ошибку средней и ошиб­ку доли. При расчетах используются следующие условные обо­значения:

Средняя, рассчитанная в пределах генеральной совокупности;

Средняя, рассчитанная в пределах выборочной совокупно­сти;

р - доля данной группы в генеральной совокупности;

w - доля данной группы в выборочной совокупности.

Используя условные обозначения, ошибки выборки для средней и для доли можно записать следующим образом:

Выборочная средняя и выборочная доля являются случайными величинами, которые могут принимать любые значения в зависимости от того, какие единицы совокупности попали в выборку. Следовательно, ошибки выборки также являются случайными величинами и могут принимать различные значения. Поэтому определяют среднюю из возможных ошибок μ.

В отличие от систематической, случайную ошибку можно опре­делить заранее, до проведения выборки, согласно предельных теорем, рассматриваемых в математической статистике.

Средняя ошибка определяется с вероятностью 0,683. В случае другой вероятности говорят о предельной ошибке.

Средняя ошибка выборки для средней и для доли определяется следующим образом:


В этих формулах дисперсия признака является характеристикой генеральной совокупности, которые при выборочном наблюдении неизвестны. На практике их заменяют аналогичными xapaктеристиками выборочной совокупности на основании закона больших чисел, по которому выборочная совокупность большом объеме точно воспроизводит характеристики генеральной совокупности.

Формулы определения средней ошибки для различных способ отбора:

Способ отбора Повторный Бесповторный
ошибка средней ошибка доли ошибка средней ошибка доли
Собственно-случайный и механиче­ский
Типический
Серийный

μ - средняя ошибка;

∆ - предельная ошибка;

п - численность выборки;

N - численность генеральной совокупности;

Общая дисперсия;

w - доля данной категории в общей численности выборки:

Средняя из внутригрупповых дисперсии;

Δ 2 - межгрупповая дисперсия;

r - число серий в выборке;

R - общее число серий.


Предельная ошибка для всех способов отбора связана со сред­ней ошибкой выборки следующим образом:

где t - коэффициент доверия, функционально связанный с веро­ятностью, с которой обеспечивается величина предельной ошиб­ки. В зависимости от вероятности коэффициент доверия t принимает следующие значения:

t P
0,683
1,5 0,866
2,0 0,954
2,5 0,988
3,0 0,997
4,0 0,9999

Например, вероятность ошибки равна 0,683. Это значит, что генеральная средняя отличается от выборочной средней по абсолютной величине не более чем на величину μ с вероятностью 0,683, то если - выборочная средняя, - генеральная средняя, то с вероятностью 0,683.

Если мы хотим обеспечить большую вероятность выводов, тем самым мы увеличиваем границы случайной ошибки.

Таким образом, величина предельной ошибки зависит от сле­дующих величин:

Колеблемости признака (прямая связь), которую характеризует величина дисперсии;

Численности выборки (обратная связь);

Доверительной вероятности (прямая связь);

Метода отбора.

Пример расчета ошибки средней и ошибки доли.

Для определения среднего числа детей в семье методом случайной бесповторной выборки из 1000 семей отобраны 100. Результаты приведены в таблице:

Определите: .

- с вероятностью 0,997 предельную ошибку выборки и границы, в которых находится средне число детей в семье;

- с вероятностью 0,954 границы, в которых находится удельный вес семей с двумя детьми.

1. Определим предельную ошибку средней с вероятностью 0,977. Для упрощения расчетов воспользуемся способом моментов:

p = 0,997 t = 3

средняя ошибка средней, 0,116 - предельная ошибка

2,12 – 0,116 ≤ ≤ 2,12+ 0,116

2,004 ≤ ≤ 2,236

Следовательно, с вероятностью 0,997 среднее число детей в семье в генеральной совокупности, то есть среди 1000 семей, находится в интервале 2,004 - 2,236.

Ошибки систематические и случайные

Модульная единица 2 Ошибки выборки

Поскольку выборка охватывает, как правило, весьма незначительную часть генеральной совокупности, то следует предполагать, что будут иметь место различия между оценкой и характеристикой генеральной совокупности, которую эта оценка отображает. Эти различия получили название ошибок отображения или ошибок репрезентативности. Ошибки репрезентативности подразделяются на два типа: систематические и случайные.

Систематические ошибки - это постоянное завышение или занижение значения оценки по сравнению с характеристикой генеральной совокупности. Причиной появления систематической ошибки является несоблюдение принципа равновероятности попадания каждой единицы генеральной совокупности в выборку, то есть выборка формируется из преимущественно «худших» (или « лучших») представителей генеральной совокупности. Соблюдение принципа равновозможности попадания каждой единицы в выборку позволяет полностью исключить этот тип ошибок.

Случайные ошибки – это меняющиеся от выборки к выборке по знаку и величине различия между оценкой и оцениваемой характеристикой генеральной совокупности. Причина возникновения случайных ошибок- игра случая при формировании выборки, составляющей лишь часть генеральной совокупности. Этот тип ошибок органически присущ выборочному методу. Исключить их полностью нельзя, задача состоит в том, чтобы предсказать их возможную величину и свести их к минимуму. Порядок связанных в связи с этим действий вытекает из рассмотрения трех видов случайных ошибок: конкретной, средней и предельной.

2.2.1 Конкретная ошибка – это ошибка одной проведенной выборки. Если средняя по этой выборке () является оценкой для генеральной средней (0) и, если предположить, что эта генеральная средняя нам известна, то разница = -0 и будет конкретной ошибкой этой выборки. Если из этой генеральной совокупности выборку повторим многократно, то каждый раз получим новую величину конкретной ошибки: …, и так далее. Относительно этих конкретных ошибок можно сказать следующее: некоторые из них будут совпадать между собой по величине и знаку, то есть имеет место распределение ошибок, часть из них будет равна 0, наблюдается совпадение оценки и параметра генеральной совокупности;

2.2.2 Средняя ошибка – это средняя квадратическая из всех возможных по воле случая конкретных ошибок оценки: , где - величина меняющихся конкретных ошибок; частота (вероятность) встречаемости той или иной конкретной ошибки. Средняя ошибка выборки показывает насколько в среднем можно ошибиться, если на основе оценки делается суждение о параметре генеральной совокупности. Приведенная формула раскрывает содержание средней ошибки, но она не может быть использована для практических расчетов, хотя бы потому, что предполагает знание параметра генеральной совокупности, что само по себе исключает необходимость выборки.



Практические расчеты средней ошибки оценки основываются на той предпосылке, что она (средняя ошибка) по сути является средним квадратическим отклонением всех возможных значений оценки. Эта предпосылка позволяет получить алгоритмы расчета средней ошибки, опирающиеся на данные одной единственной выборки. В частности средняя ошибка выборочной средней может быть установлена на основе следующих рассуждений. Имеется выборка (,… ) состоящая из единиц. По выборке в качестве оценки генеральной средней определена выборочная средняя . Каждое значение(,… ) , стоящее под знаком суммы, следует рассматривать как независимую случайную величину, поскольку при бесконечном повторении выборки первая, вторая и т.д. единицы могут принимать любые значения из присутствующих в генеральной совокупности. Следовательно Поскольку, как известно, дисперсия суммы независимых случайных величин равна сумме дисперсий, то . Отсюда следует, что средняя ошибка для выборочной средней будет равная и находится она в обратной зависимости от численности выборки (через корень квадратный из нее) и в прямой от среднего квадратического отклонения признака в генеральной совокупности. Это логично, поскольку выборочная средняя является состоятельной оценкой для генеральной средней и по мере увеличения численности выборки приближается по своему значению к оцениваемому параметру генеральной совокупности. Прямая зависимость средней ошибки от колеблемости признака обусловлена тем, что чем больше изменчивость признака в генеральной совокупности, тем сложнее на основе выборки построить адекватную модель генеральной совокупности. На практике среднее квадратическое отклонение признака по генеральной совокупности заменяется его оценкой по выборке, и тогда формула для расчета средней ошибки выборочной средней приобретает вид:, при этом учитывая смещенность выборочной дисперсии , выборочное среднее квадратическое отклонение рассчитывается по формуле = . Так как символом n обозначена численность выборки. ,то в знаменателе при расчете среднего квадратического отклонения должна использоваться не численность выборки (n), а так называемое число степеней свободы (n-1). Под числом степеней свободы понимается число единиц в совокупности, которые могут свободно варьировать (изменяться), если по совокупности определена какая-либо характеристика. В нашем случае, поскольку по выборке определена ее средняя, свободно варьировать могут единицы.

В таблице 2.2 приведены формулы для расчета средних ошибок различных выборочных оценок. Как видно из этой таблицы, величина средней ошибки по всем оценкам находится в обратной связи с численностью выборки и в прямой с колеблемостью. Это можно сказать и относительно средней ошибки выборочной доли (частости). Под корнем стоит дисперсия альтернативного признака, установленная по выборке ()

Приведенные в таблице 2.2 формулы относятся к так называемому случайному, повторному отбору единиц в выборку. При других способах отбора, о которых речь пойдет ниже, формулы будут несколько видоизменяться.

Таблица 2.2

Формулы для расчета средних ошибок выборочных оценок

2.2.3 Предельная ошибка выборки Знание оценки и ее средней ошибки в ряде случаев совершенно недостаточно. Например, при использовании гормонов при кормлении животных знать только средний размер неразложившихся их вредных остатков и среднюю ошибку, значит подвергать потребителей продукции серьезной опасности. Здесь настоятельно напрашивается необходимость определения максимальной (предельной ошибки ). При использовании выборочного метода предельная ошибка устанавливается не в виде конкретной величины, а виде равных границ

(интервалов) в ту и другую сторону от значения оценки.

Определение границ предельной ошибки основывается на особенностях распределения конкретных ошибок. Для так называемых больших выборок, численность которых более 30 единиц () , конкретные ошибки распределяются в соответствии с нормальным законом распределения; при малых выборках () конкретные ошибки распределяются в соответствии с законом распределения Госсета

(Стьюдента). Применительно к конкретным ошибкам выборочной средней функция нормального распределения имеет вид: , где - плотность вероятности появления тех или иных значений , при условии, что , где выборочные средние; - генеральная средняя, - средняя ошибка для выборочной средней. Поскольку средняя ошибка () является величиной постоянной, то в соответствии с нормальным законом распределяются конкретные ошибки , выраженные в долях средней ошибки, или так называемых нормированных отклонениях.

Взяв интеграл функции нормального распределения, можно установить вероятность того, что ошибка будет заключена в некотором интервале изменения t и вероятность того, что ошибка выйдет за пределы этого интервала (обратное событие). Например, вероятность того, что ошибка не превысит половину средней ошибки (в ту и другую сторону от генеральной средней) составляет 0,3829, что ошибка будет заключена в пределах одной средней ошибки - 0,6827, 2-х средних ошибок -0,9545 и так далее.

Взаимосвязь между уровнем вероятности и интервалом изменения t (а в конечном счете интервалом изменения ошибки) позволяет подойти к определению интервала (или границ) предельной ошибки, увязав его величину с вероятностью осуществления.. Вероятность осуществления -это вероятность того, что ошибка будет находится в некотором интервале. Вероятность осуществления будет «доверительной» в том случае, если противоположное событие (ошибка будет находится вне интервала) имеет такую вероятность появления, которой можно пренебречь. Поэтому доверительный уровень вероятности устанавливают, как правило, не ниже 0,90 (вероятность противоположного события равна 0,10). Чем больше негативных последствий имеет появление ошибок вне установленного интервала, тем выше должен быть доверительный уровень вероятности (0,95; 0,99 ; 0,999 и так далее).

Выбрав доверительный уровень вероятности по таблице интеграла вероятности нормального распределения, следует найти соответствующее значение t, а затем используя выражение =определить интервал предельной ошибки . Смысл полученной величины в следующем – с принятым доверительным уровнем вероятности предельная ошибка выборочной средней не превысит величину .

Для установления границ предельной ошибки на основе больших выборок для других оценок (дисперсии, среднего квадратического отклонения, доли и так далее) используется выше рассмотренный подход, с учетом того, что для определения средней ошибки для каждой оценки используется свой алгоритм.

Что касается малых выборок () то, как уже говорилось, распределение ошибок оценок соответствует в этом случае распределению t - Стьюдента. Особенность этого распределения состоит в том, что в качестве параметра в нем, наряду с ошибкой, присутствует численность выборки,вернее не численность выборки, а число степеней свободы При увеличении численности выборки распределение t-Стьюдента приближается к нормальному, а при эти распределения практически совпадают. Сопоставляя значения величины t-Стьюдента и t - нормального распределения при одной и той же доверительной вероятности можно сказать, что величина t-Стьюдента всегда больше t - нормального распределения, причем, различия возрастают с уменьшением численности выборки и с повышением доверительного уровня вероятности. Следовательно, при использовании малых выборок имеют место по сравнению с выборками большими, более широкие границы предельной ошибки, причем, эти границы расширяются с уменьшением численности выборки и повышением доверительного уровня вероятности.


Close