Второй важнейшей статистическая характеристикой, которую мы измеряем, является доля. Необходимо отметить два важных отличия среднего и доли. Во-первых, среднее почти всегда имеет размерность: рубли, килограммы, etc. Доля размерности не имеет. Например, 50% людей намеревается пойти проголосовать или 10% россиян каждое воскресенье ходят в кинотеатры. Другим важным отличием доли и среднего является диапазон возможных значений: средняя меняется чаще всего от нуля, а, может, даже от каких-то отрицательных значений до бесконечности. Доля может меняться только от 0 до 100, или от 0 до 1. Более того, вероятность какого-то события, которые мы чаще всего выражаем через долю, жестко связана с вероятностью ненаступления этого события. Если вероятность того, что я пойду в кино, равна 20%, то вероятность того, что я не пойду туда, равна 80%. То есть, если мы измеряем вероятность какого-то события, то его вероятность жестко привязана к вероятности его ненаступления.
По этой причине вместо дисперсии в формуле вычисления объема выборки для среднего для доли мы используем произведение вероятности события на вероятность того, что это событие не произойдет, то есть р умноженное на (1-р). Остальные части этой формулы остаются на своих местах, то есть в числителе – достоверность, выраженная через z и требуемая в данном измерении, в знаменателе – ожидаемая ошибка измерения.
Важным свойством распределения доли в генеральной и выборочной совокупности является то, что это распределение носят биноминальный характер, в то время как распределение среднего чаще всего носит характер нормального распределения. Однако мы знаем, что при объеме выборки в 30 единицам и более, биноминальное распределение хорошо аппроксимируется нормальным законом. Поэтому данная формула используется в случаях, когда объем выборки больше 30 единиц.
В качестве примера рассмотрим случай вычисления выборки в исследовании, в котором нужно определить долю потенциальных покупатели посетителей магазина в каком-то микрорайоне. Так же, как в отношении генерального среднего, мы сделаем предположение относительно того, какая доля жителей данного микрорайона может посещать этот магазин.
Сделаем предположение, что это 30%. Таким образом р у нас будет равно 0,3 и соответственно 1 - р будет равна 0,7. Зададимся уровнем достоверности 95%. Требуемую точность измерения примем равной ±4%, подставим все в формулу и получим значение - 525 человек, то есть объем нашей выборки должен быть равен 525 респондентам. Если после того, как мы проведем данный опрос, окажется, что ожидаемая доля посетителей магазина будет меньше предположенной нами 30%, то нам придет доопросить какое-то число жителей данного микрорайона тем же самым способом как в первом исследовании. Ну если данная доля окажется больше, то это значит, что мы более точно и(или) достоверно измерили данную величину.
Итак, мы убедились, что при проведении выборочного исследования для измерения доли на размер нашей выборочной совокупности, влияют 3 параметра: достоверность, которую мы хотим придать нашему измерению, точность результата, который мы хотим получить, и ожидаемая доля, которая, скорее всего, будет получена в результате. Обратите внимание на то, что объем выборки получается максимальным в тех случаях, когда доля близка к 50%. Иначе говоря, для измерения величин, находящихся в районе 50% в нашей генеральной совокупности, нам потребуется наибольший объем выборки для производства такого измерения с той же самой точностью, достоверностью, что и для других значений больших или меньших 50%. По этой причине для определения размера выборочной совокупности ожидаемую долю измеряемого признака принимают равной 50%, чтобы исключить возможность нехватки выборки по итогам измерения.
Наоборот, если ожидаемая величина будет небольшой (5 или 10%), то необходимый объем выборки будет меньше, чем если бы мы ожидали результат в районе 50%. Это также противоречит здравому смыслу. Кажется, что при приближении к нулевому значению, вероятность ошибки увеличивается. На самом же деле, теория статистики говорит об уменьшении вероятности ошибок на краях диапазона.
Лучше всего связь между всеми этими четырьмя параметрами можно показать на данной трехмерной диаграмме: как здесь показано разными цветами, меняя точность, достоверность, величину выборки, ожидаемую величину параметра измеряемого, мы можем менять параметры нашего выборочного исследования. Данный трехмерный график можно частично представить в двухмерном виде на плоскости и продемонстрировать еще раз связь между объемом выборки, точностью измерения и достоверностью. Если вы знакомитесь с результатами исследований, в описании которых утверждается, что в опросе приняло участие 200 человек, а точность этого измерения составила ±2%, то скорее всего это либо ошибка, либо какая-то махинация, и результатам такого исследования доверять не стоит. Точность в реальном исследовании не может быть выше расчетной, формулы которых я вам только что продемонстрировал.
Кроме таких графических представлений связи между объемом выборки, ее точностью и достоверностью используется табличная формула, которая представлена на данном слайде. Здесь так же приведены столбцы с различным уровнем достоверности: 99%, 95% и 90%, и разные объемы выборки. На пересечении этих строк и столбцов мы найдем значение точности нашей выборки.
Данный вид расчета объема выборки используется для случайных видов отбора для всех случайных или вероятностных выборках. Кроме них, социологи используют часто и другие, детерминированные, виды выборки, например, квотные.
Сталкиваясь с задачами определения точности и достоверности проведенного исследования, и используя данные таблицы и формулы, необходимо понимать, что все они касаются лишь случайной выборки, и полученные с их помощью результаты измерения будут отражать заданные достоверность и точность. В случае же детерминированных выборок эти формулы будут давать лишь ориентировочные результаты и, скорее, показывают насколько не точными является проведенные измерения.
Аккуратное представление результатов социологических исследований подразумевает публикацию описания выборки, то есть то, как проводилось исследование, каким образом был рассчитан объем выборки и откуда взяты параметры для определения точности проведенного измерения. И, напротив, когда вы будете знакомиться с результатами исследований, то разумно прочитать вначале, каким образом формировалась выборка и какие параметры были заданы для расчета объема выборки, например, каким уровнем достоверности задавались, и какой уровень точности был целью для организаторов данного исследования.
С развитием онлайн технологий появились разнообразные онлайн калькуляторы, которые позволяют быстро и оперативно рассчитать либо объем выборки, либо по имеющемуся объему выборки рассчитать точность проведенного измерения. Вы без труда найдете их, набрав в поисковой строке Яндекс или google «онлайн калькулятор», или «калькулятор статистической ошибки измерения», или «онлайн калькулятор ошибки выборки». Поисковые машины выдадут несколько адресов, на которые вы можете зайти и, введя туда одни параметры, можно получить другие, расчетные, которые связаны одной и той же формулой.
Поскольку целью любого количественного исследования является поиск значимых отличий между измеренными параметрами, то после проведения таких исследований необходимо понять, всегда ли между двумя разными цифрами, между значениями двух разных параметров есть какая-то статистическая значимая разница? Статистически значимой разницей является то значение точности, которые мы использовали для вычисления необходимого объема выборки. Теперь, опираясь на объем выборки, мы можем посчитать, укладывается ли измеренные нами значение (а точнее, отклонения измеренного нашего значения) от какого-то другого в заданный параметр точности.
Например, в ходе исследования мы получили, что среди посетителей торгового центра доли людей старшего поколения и младшего поколения составили 10% и 15%. Для того, чтобы определить, значимая ли это разница, мы должны использовать ту же самую формулу, только теперь мы вычисляем не объем выборки, а по имеющемуся объему выборки находим статистически значимую разницу. Подставляя в эту формулу объем выборки, заданную достоверность и полученный результат в долях к выборочной совокупности (те же 10% и 15%), мы получаем значение статистически значимой разницы. Предположим, что мы получили значение 7%. Это значит, что статистически значимой разницы в посещении данного торгового центра между старшим поколением и младшим поколениями нет, и с математической точки зрения 15% посетители торгового центра среди одного поколения и 10% среди другого поколения - это одинаковые значения.
Часто в отчетах в отчетных таблицах тем или иным способом размечают цифры, чтобы быстро увидеть статистически значимую разницу. Здесь приведен фрагмент одной из отчетных таблиц Фонда «Общественное Мнение». В ней значения, выделенные красным и подчеркнутые, отличаются от среднего по всей выборке значения в бОльшую сторону, а те значения, которые покрашены в синий цвет, отличаются в меньшую сторону на вычисленную для данной выборки величину ошибки. Глядя на такую таблицу, мы легко можем увидеть, где отличия являются статистически значимыми в большую или меньшую сторону, а где они таковыми не являются. Здесь важно понимать, что не все значения, которые различны между собой, являются статистически значимыми и в этом смысле описывают какие-то социальные различия. Для того, чтобы понять, статистическая это разница или нет, мы должны эту разницу вычислить, но вычислить это не для всей выборки, а для той части выборки, которую мы анализируем. Например, сравнивая старшее поколение и младшее поколение, мы берем объем подвыборок младшего поколения и старшего поколения, а не всю выборку в целом.