- Выборка. Типы выборок. Расчет ошибки выборки
- Калькуляторы
- Генеральная совокупность
- Выборка (Выборочная совокупность)
- Репрезентативность выборки
- Ошибка выборки (доверительный интервал)
- Типы выборок
- Курс лекций по теории статистики
- Калькулятор расчета ошибки и размера выборки (для простой случайной выборки)
- Калькулятор расчета статистической значимости различий
- Алгоритмы формирования выборки социологического опроса
- Ильясов Ф.Н. Алгоритмы формирования выборки социологического опроса //
Выборка. Типы выборок. Расчет ошибки выборки
Калькуляторы
Генеральная совокупность
Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей
- Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)
- Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)
- Юридические лица России (2,2 млн. на начало 2005 года)
- Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.
Выборка (Выборочная совокупность)
Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.
Репрезентативность выборки
Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.
Пример:
- Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы.
- Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.
- Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.
В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.
Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.
Пример:
Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.
Ошибка выборки (доверительный интервал)
Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.
Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже.
Пример:
Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку.
Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону.
Пример:
- Использование любых вероятностных выборок занижает долю людей с высоким доходом, ведущих активный образ жизни. Происходит это в силу того, что таких людей гораздо сложней застать в каком-либо определенном месте (например, дома).
- Проблема респондентов, отказывающихся отвечать на вопросы анкеты (доля «отказников» в Москве, для разных опросов, колеблется от 50% до 80%)
В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.
Типы выборок
Выборки делятся на два типа:
1. Вероятностные выборки
1.1 Случайная выборка (простой случайный отбор)
Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел.
1.2 Механическая (систематическая) выборка
Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер генеральной совокупности, при этом – N=n*k
1.3 Стратифицированная (районированная)
Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом.
1.4 Серийная (гнездовая или кластерная) выборка
При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются случайным образом. Объекты внутри групп обследуются сплошняком.
2.Невероятностные выборки
Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д..
2.1. Квотная выборка
Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки используются в маркетинговых исследованиях достаточно часто.
2.2. Метод снежного кома
Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)
2.3 Стихийная выборка
Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – опросы в газетах/журналах, анкеты, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов.
2.4 Выборка типичных случаев
Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения.
Курс лекций по теории статистики
Калькулятор расчета ошибки и размера выборки (для простой случайной выборки)
Пояснения к полям:
Доверительная вероятность
Вероятность того, что доверительный интервал накроет неизвестное истинное значение параметра, оцениваемого по выборочным данным. В практике исследований чаще всего используют 95%-ую доверительную вероятность
Ошибка выборки (доверительный интервал)
Интервал, вычисленный по выборочным данным, который с заданной вероятностью (доверительной) накрывает неизвестное истинное значение оцениваемого параметра распределения.
Доля признака
Ожидаемая доля признака, для которого рассчитывается ошибка. В случае, если данные о доле признака отсутствуют, необходимо использовать значение равное 50, при котором достигается максимальная ошибка.
Калькулятор расчета статистической значимости различий
Калькулятор позволяет проверить есть ли статистически значимая разница между долями признака, полученными из независимых выборок.
Например, если до начала рекламной кампании марку знали 55% респондентов, а по окончании – 60% — есть ли между этими долями статистически значимая разница, или же эта разница укладывается в ошибку выборки?
Примечание. Эта процедура может законно использоваться, только если обе выборки удовлетворяют следующему условию: произведения n*p и n*(1-p), где n=размер выборки а p=доля признака, должны быть не меньше 5.
Оставить свои комментарии по затронутой теме Вы можете на наших страницах в Facebook и Вконтакте.
Источник
Алгоритмы формирования выборки социологического опроса
Журнальная версия опубликована:
Ильясов Ф.Н. Алгоритмы формирования выборки социологического опроса //
Социальные исследования. 2017. №2.
В статье уточняются термины, связанные с понятиями выборки и репрезентативности. Описывается классификация выборок, принятая в социологии. Предлагается и описывается классификация выборок по месту нахождения респондента и по методу контакта с ним.
1. Введение
Проблема выборки в социальных обследованиях имеет очень большое значение, тем не менее, эта тема остается не в полной мере разработанной и проясненной. Особенно это касается не-вероятностных, рандомных выборок (англ. random sample). Ред Бейкер с коллегами отмечают: «В отличие от вероятностной выборки, нет единого основания, которое позволило бы адекватно классифицировать и описать все виды не-вероятностных выборок. Не-вероятностные выборки представляет собой набор, коллекцию методов, и трудно, если не невозможно, описать особенности и алгоритмы, применяемые во всех видах не-вероятностных выборок» [Baker et al., 2013: 3].
Целью настоящей статьи является уточнение имеющихся классификаций и описаний алгоритмов отбора в социальных исследованиях.
2. Уточнение понятий
Генеральная совокупность — группа, выбранная в качестве объекта исследования. В соответствии с задачами исследования, генеральная совокупность выбирается по двум и более признакам. Однако, даже, если для выделения группы выбраны два «целевых» признака, например: 1. «все население определенной страны», 2. «в возрасте 18+», то выделяются еще и дополнительные репрезентирующие признаки. Это могут быть пол, возраст, образование, социальное положение, национальность, место расположения, детность, брачность, религиозность и т.д.
Генеральные совокупности, формируемые респондентами – это совокупности респондентов, находящихся по своей воле, и в силу сходной детерминации поведения, в определенных местах или осуществляющих определенные онлайн-контакты. Это могут быть:
- торговые центры, зрелищные заведения, точки общепита;
- место работы, учебы;
- лечебные учреждения;
- контакты через базы данных, панели, онлайн-опросных компаний;
- аудитории определенных сайтов.
Выборка, выборочная совокупность – часть генеральной совокупности, отобранная для первичных измерений. Первичные измерения в социологии это измерение свойств первичного объекта измерения – отдельных респондентов, через измерение свойств которых измеряются свойства изучаемой группы (выборки). Конечный объект измерения в отдельном социологическом исследовании – это специфическая группа, выборка или генеральная совокупность.
Репрезентативность выборки – это её свойства точно отражать исследуемые характеристики генеральной совокупности. Строго говоря, репрезентативность – это не единое, общее свойство всей выборочной совокупности, а это характер распределения ответов на тот или иной конкретный вопрос анкеты. То есть репрезентативным являются распределение ответов на определенный вопрос. Характер рассеяния разных свойств респондентов в генеральной совокупности может быть различным, оттого в одном опросе уровень репрезентативности ответов может быть различным по разным вопросам. Порой используют не совсем корректное выражение «репрезентативный опрос», на самом деле имея в виду репрезентативность выборки, либо репрезентативность результатов опроса, тогда как сам опрос – это процесс сбора эмпирической информации.
Иногда репрезентативной называют выборку, которая по социально-демографическим характеристикам опрошенных воспроизводит генеральную совокупность, при этом репрезентативность ответов на содержательные вопросы может оставаться неизвестной. Порой под репрезентативной понимают выборку, которая с точки зрения теории математической статистики, «должна быть» репрезентативной. Однако в данном случае речь идет только о гипотезе, которая, как правило, сохраняет статус непроверяемой.
Репрезентативность выборки может определяться только эмпирически:
- сравнением социально-демографических параметров выборки и генеральной совокупности;
- сравнением с результатами повторного опроса;
- измерением репрезентативности результатов массового опроса методом анализа повторных подвыборок, подробнее см.: [Ильясов, 2011].
Параметры выборки – определение объема выборки и того, какие параметры генеральной совокупности должна репрезентировать выборка. Это могут быть пол, возраст, доход, профессия, социальное положение, обладание определенными предметами, потребление определенных товаров и т.д.
Проектирование выборки – разработка алгоритма отбора и определение количества опрашиваемых респондентов.
Формирование выборки – реализация алгоритма отбора. Целью формирования выборки часто является создание репрезентативной выборки.
Ошибка выборки. Как отмечал Геннадий Батыгин: «Практически ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выборочными средними. …В качестве контрольных параметров обычно применяются социально-демографические признаки» [Батыгин, 2008: 149]. Важно указать – показатель «статистическая погрешность», описываемый в терминах доверительного интервала и уровня доверия, является теоретическим понятием математической статистики и никак не характеризует реальную выборочную совокупность. О доверительном интервале и статистической погрешности подробнее см., например: [Антонов, 2013]. Также некорректными следует признать построения, основанные на идее нормального распределения, т.к. нет социологического свойства, относительного которого были бы получены достоверные эмпирические данные, подтверждающие нормальное распределение величин его свойств.
Удобная выборка (англ. convenience sampling) – это виды выборок, в которых отбор осуществляется в генеральных совокупностях, формируемых респондентами.
Размер, объем выборки – количество отбираемых респондентов. Как указывается в известном издании: «Выборочный метод не дает универсального решения относительно необходимого в каждом конкретном случае объема выборки, обязательного соотношения объемов генеральной и выборочной совокупностей» [Рабочая книга…, 1977: 266]. На практике размер выборки определяется эмпирически, исходя из результатов анализа ранее проведенных опросов. Следует указать, что, как известно, так называемый «расчет объема выборки по специальной формуле», основанный на показателе дисперсии величин некоторого свойства (признака), возможен только при известности дисперсии в генеральной совокупности, однако если дисперсия известна, опрос проводить не имеет смысла.
Квотное задание – сформулированное для конкретного интервьюера на основе параметров выборки, задание опросить конкретное число лиц с определенными свойствами, признаками. Это может быть, например, число женщин и число мужчин заданного возраста.
Тип отбора респондентов – при самом общем подходе можно выделить следующие типы отборов:
- рандомный (называемый также вероятностным или случайным);
- эмпирический, основанный на опыте предыдущих отборов;
- стихийный, отбор первого попавшегося респондента, номера телефона и т.д.
- произвольный, отбор по «эмоциональному основанию».
В первом случае отбор основан на строгом алгоритме с использованием основы выборки, таблицы или генератора случайных чисел. Во втором случае речь идет об использовании алгоритмов отбора, эмпирически показавших свою возможность обеспечивать репрезентативность выборки. В третьем и четвертом случаях строго алгоритма отбора нет, и вопрос репрезентативности может оставаться открытым.
В настоящем тексте используется термин «рандомная», чтобы не применять многозначное слово «случайная» и не совсем точное «вероятностная» (отбор основан на вероятности, однако производится случайным образом).
Шаг, ступень выборки – элемент алгоритма отбора.
3. Виды выборок
Выражение «виды выборки» используется в разных смыслах, например:
- техническое задание на отбор респондентов, параметры отбора, квотное задание;
- метод, алгоритм, критерий, стратегия отбора;
- этап, шаг отбора.
Соответственно, классификации выборок отражают многозначный характер этого понятия, описывая, как правило, один или два ключевых критерия, подхода, алгоритма.
В литературе выделяются, в частности, следующие виды выборок:
- гнездовая;
- квотная (пропорциональная);
- кластерная;
- удобная (конформная [1] );
- маршрутная;
- «уличный отбор»
- районированная (типическая);
- серийная;
- снежного кома [2] ;
- стратифицированная (расслоенная), и др.
Более подробно о классификации видов выборок см., например: [Рабочая книга…, 1977: 258-297; Могильчак, 2015; Alvi, 2016].
Понятия «квотная, кластерная, районированная, стратифицированная» являются в определенной мере сходными и обозначают выделение некоторых непересекающихся групп, страт по отдельным основаниям, определяемым исследователем.
Иногда стратами называют разные подвыборки, формируемые в рамках одного исследования из двух или более сравниваемых генеральных совокупностей, к их числу относятся:
- группы, имеющие существенные социальные различия, например, сельское и городское население;
- группы, различающие по однородности распределения, дисперсии исследуемого показателя, подробнее см., например: [Чуриков, 2007].
Сходными являются также понятия гнездовой и серийной выборки, они обозначают процесс выбора групп (семья, школьный класс, подразделение в организации), подлежащих сплошному опросу.
Не во всех случаях термин выборка обозначает алгоритм отбора респондентов. А в тех случаях, когда речь идет об алгоритмах отбора, указывается, как правило, лишь один или два алгоритма, в соответствии с которыми виду выборки дается наименование. По сути, указание вида выборки, обычно представляет собой лишь маркирование, обозначение некоторого концепта. Основная проблема в понимании вида выборки – это нередкое отсутствие описания полного алгоритма отбора. В виду указанного обстоятельства названия видов выборок в большей мере представляют собой метафоры, в которые исследователи вкладывает некоторое, порой не до конца раскрываемое содержание.
4. Рандомный, случайный отбор
С точки зрения теории статистики, случайный выбор – это выбор одного варианта из нескольких равновозможных. Рандомный, статистически случайный отбор – это алгоритм отбора респондентов, при котором каждая из единиц генеральной совокупности имеет равные шансы, одинаковую вероятность, попасть в выборку. При рандомном отборе есть возможность посчитать теоретическую вероятность попадания каждого респондента в выборку, потому она называется также вероятностной. Более подробно о рандомных (вероятностных, случайных) выборках см., например: [Чуриков, 2007].
Надо заметить, использование рандомного, вероятностного отбора не гарантирует репрезентативность выборки. Репрезентативность в данном случае – это просто предположение, вытекающее из теории математической статистики, некоторая априорная предпосылка, которая может реализоваться в конкретном отборе, а может и не реализоваться.
Рандомной может считаться, например, выборка, в которой основой выборки является полный список всех единиц генеральной совокупности. Это может быть список избирателей, список адресов, список работников организации и т.д. В соответствии с принятым объемом выборки, отбор может осуществляться через определенный интервал, шаг выборки. Рандомный отбор может быть осуществлен с помощью компьютерной программы, с использованием генератора случайных чисел. В программу вносятся два показателя – размер генеральной совокупности и размер выборки. Эта процедура реализуема и с использованием известных статистических пакетов.
В варианте с территориальной выборкой рандомность обеспечивается случайным выбором каждого элемента на каждом шаге выборки.
Из выборок, которые могут считаться рандомными, довольно распространенными становятся выборки с использованием таких основ выборки как списки стационарных и мобильных, домашних и корпоративных телефонов.
5. Эмпирические выборки
На практике алгоритм строго рандомного отбора реализовать сложно. Потому все чаще используются так называемые «эмпирические» выборки, под которыми понимаются различные совокупности алгоритмов рандомного и «стихийного», «произвольного» отбора, которые, как ожидается исследователем, обеспечивают репрезентативность. Эмпирическими они называются потому, что оптимальный алгоритм отбора в них определяется эмпирически, через апробацию тех или иных алгоритмов и нахождения наиболее точного, оптимального.
Эмпирические выборки также называют не-вероятностными, неслучайными. Однако они называются не-вероятностными, строго говоря, не потому, что не осуществляется рандомный отбор, а лишь потому, что вероятность попадания каждой единицы отбора в выборку неизвестна.
Иногда эмпирические выборки оценивают как не имеющие теоретического обоснования. Например, Ред Бейкер с коллегами отмечают: «Мы полагаем неприемлемыми для формулирования статистических выводов и предположений, используемые без теоретического обоснования методы сбора данных и сформулированные на их основе оценки» [Baker et al., 2013]. Однако теория лишь обобщает экспериментальные данные, а именно эмпирические данные являются основой позитивной науки. Критерием научности, как известно, является совпадение результатов повторяемых, воспроизводимых эмпирических процедур. Если проводится некая эмпирическая процедура, с хорошо прописанными алгоритмами действий, в итоге которой получается воспроизводимый и повторяемый результат, то этот результат может считаться научным. Например, феномен времени в физике не имеет признанного теоретического обоснования, однако это не делает неприемлемыми эмпирические данные и оценки, полученные на основе измерения времени (длительности).
Большинство выборок представляют собой некий алгоритм – последовательность определенных действий, шагов (ступеней), направленных на нахождение и отбор респондентов. Такие выборки называются многоступенчатыми. При этом нередко выборка представляет собой комбинацию различных видов отбора, такая выборка называется комбинированной. Значительная часть эмпирических выборок содержат в себе элементы рандомного и стихийного отбора.
Таким образом, в реальности эмпирическая выборка часто представляет собой алгоритм, состоящий из нескольких неоднородных, последовательных процедур отбора, имеющих рандомный, не строго рандомный и «стихийный» характер. Иными словами, на практике часто используется многоступенчатая, комбинированная выборка, использующая рандомные и стихийные принципы отбора.
Как представляется акцент на количестве ступеней и на комбинации методов отбора, как классифицирующих признаках, в некоторой степени заслоняет собой основную цель выборки – нахождение и отбор респондентов.
Каждая из эмпирических выборок представляет собой алгоритм отбора, состоящий из двух элементов:
- алгоритм поиска локации респондента, либо выбор способа контакта с ним;
- алгоритм отбора респондентов по заданным признакам в месте локации, либо через выбранный способ контакта.
Соответственно, можно выделить два основания для классификации видов выборок, алгоритмов отбора:
- если контакт очный, непосредственный – это отбор по месту расположения, локация респондента;
- если контакт опосредованный, дистанционный – это отбор по способу контакта с респондентом.
6. Эмпирические виды выборок по месту нахождения респондента
По основанию локации респондентов можно выделить следующие основные эмпирические виды выборок:
- По месту жительства, см. рис. 1;
- По место работы или учебы, см. рис. 2;
- По локации в городе – на улице, площади;
- По месту приобретения товаров и услуг.
Объектом исследования в случае выборки по месту жительства могут являться генеральные совокупности – территориальные общности разного уровня: страна, область, город, район. Построение выборки начинается с локации нужного масштаба. Определяется размер и параметры выборки. Алгоритм формирования выборки по месту жительства респондента приведен на рис. 1. На первых пяти ступенях отбора, от региона до наименования улицы, отбор может производиться либо рандомным образом, либо отбираются типичные на взгляд исследователя локации, соответствующие целям изучения.
Для каждой из ступеней отбора могут формироваться свои квоты. Они могут быть пропорциональными – отражать социально-демографические и иные пропорции генеральной совокупности, т.е. воспроизводить структуру генеральной совокупности.
Квоты могут быть «аналитическими», т.е. соответствовать аналитическому плану исследования. Они создаются таким образом, чтобы минимальная, запланированная для анализа группа, была не менее 30-40 респондентов. Например, это может быть группа: женщины, возраст 40-45 лет, доход средний, с определенным видом поведения. Различные случаи выделения квот, страт, см., например: [Могильчак, 2015: 39-53].
Рис. 1. Алгоритм формирования выборки по месту жительства респондентов
Источник