После проведения полевых работ собранные данные никогда не находятся в готовом для анализа состоянии. Если мы собрали наши данные с помощью бумажных анкет, их нужно каким-то образом перенести из бумаги в электронный вид. Если вы провели телефонный опрос, и данные уже изначально находится в электронном виде, этого недостаточно для начала анализа: необходимо перевести данные из той формы, в которой они были собраны, в ту форму, в которой мы сможем их проанализировать.
Подготовка данных к анализу состоит из двух этапов. Во-первых, редактирование данных, во-вторых, формирование массива для проведения анализа. Редактированием данных мы называем проверку, коррекцию и фильтрацию собранных первичных данных для подготовки их к анализу. Неважно, касается ли это бумажных или электронных анкет. Формированием данных мы называем доведение массива первичных данных до того состояния, в котором с ними можно провести те виды анализа, которые описаны в программе данного исследования.
Редактирование данных бывает двух основных типов: полевое и офисное. Полевым редактированием называется проверка данных, собранных на какой-то определенной территории или определенной бригадой, работающей под управлением одного супервайзера. Эту работа проводится в той части данных, которая собирается именно этой бригадой под руководством именно этого супервайзера. Офисное редактирование проводится над всем массивом, собранным в рамках данного проекта.
Например, проводится исследование в целом по стране. В каждом из наших регионов супервайзеры провели проверку той части массива, которую их интервьюеры собрали в этих регионах. Затем, после обобщения всех данных и размещения их в единой базе, мы проводим офисное редактирование, то есть проверку данных и подготовку их к анализу по всему массиву в целом.
Работы по редактированию чаще всего состоят из двух частей: во-первых, это выполнение полевым персоналом инструкций по сбору информации в данном проекте, а во-вторых, проверка собранных данных на полноту. Дело в том, что когда мы проводим, например, телефонное интервью с помощью какого-то программного приложения, вместе с вопросами анкеты это приложение содержит инструкцию, указывающая интервьюеру в каком именно виде эти данные должны быть введены. Например, мы задаем вопрос: «Сколько вам лет?» и после этого следует инструкция нашему интервьюеру: «Введите названные цифры в это окошко». Возможны какие-то другие инструкции, например, из предлагаемого числа причин участия или неучастия в голосовании необходимо выбрать две, три или пять таких причин, а в другом вопросе инструкция отметить только один ответ. Как видим, инструкции бывают разные, и важно их правильно выполнить в каждой позиции проводимого нами интервью.
После того, как интервью сделано, проведено и данные собраны, мы должны проверить, насколько полными они являются. То есть, на все ли вопросы мы получили ответы, и все ли эти ответы зафиксированы в нашей базе данных. Ведь возможно, что респондент дал такой ответ, но в силу каких-то причин интервьюер пропустил ответ на этот вопрос или попросту его не ввёл. Невыполнение всех или части требований к методам и способам сбора первичных данных может привести к существенным искажениям этих данных и невозможности провести анализ, запланированный программой нашего исследования.
Отсутствие части информации в собранных анкетах после проведения работ может быть устранено через обработку так называемых неудовлетворительных ответов. Неудовлетворительными мы называем те ответы респондентов, которые делают невозможным проведение тех видов анализов, которые запланированы в программе нашего социологического исследования. Это может либо не полностью, или неверно зафиксированный ответ, либо его полное отсутствие.
Неудовлетворительные ответы обрабатываются тремя основными способами. В первом случае мы заменяем отсутствующий ответ на какое-то нейтральное значение. Например, мы спросили, как, по мнению респондента, он бы оценил деятельность губернатора области, и по какой-то причине ответа в данной записи по данному респонденту нет. В этом случае мы можем поставить нейтральный ответ, если он предусмотрен в нашей шкале, например «нет ответа» или что респондент затрудняется с оценкой деятельности губернатора.
Вторым вариантом обработки неудовлетворительных ответов является удаление данной записи. В том случае, который я привел в пример, в случае отсутствия ответа на один вопрос о деятельности губернатора области мы вынуждены будем удалить всю запись, относящуюся к данному респонденту. Очевидно, что такое удаление - непозволительная роскошь. Если мы будем удалять ответы каждого из наших респондентов, у которых отсутствуют ответы на один или два вопроса, то возможно, что мы потеряем очень значительную часть нашей выборки. Поэтому чаще всего используют другой способ работы с неудовлетворительными ответами - это так называемое попарное удаление.
Попарное удаление означает, что запись по данному респонденту не будет анализироваться лишь в тех случаях, когда будет рассматриваться или рассчитываться значение по данному вопросу. Это означает, что любой анализ данных, включающий в себя работу с именно этим признаком, по которому ответа одного из респондентов у нас нет, данные по данному респонденту не будут приниматься во внимание и не участвуют в расчетах. Но если к анализу данных распределение по данному признаку (признаку удовлетворённости или неудовлетворённости работой губернатора) не привлекается, то, соответственно, запись по этому респонденту будет принимать участие в анализе.
Одним из ключевых этапов редактирования данных является кодирование открытых вопросов. Как мы говорили ранее, открытые вопросы используются тогда, когда мы хотим услышать лексику наших респондентов - то, как они объясняют, обозначают существование тех или иных проблем в их жизни и возможные пути их решения. И очевидно при этом, что наши респонденты будут говорить на языке, понятном им. И совершенно не очевидно, что он будет понятен нам.
Нам понадобятся правила такой кодировки, и эти правила должны быть более или менее устойчивы. Мы не можем их менять от опроса к опросу, и мы должны использовать одни и те же правила в рамках одного опроса. Например, мы задаем вопрос - насколько человек удовлетворён работой Президента Российской Федерации, а в ответ на этот вопрос в открытой форме респондент пишет, что он недоволен работой своего ТСЖ. Или, например, мы спрашиваем, понравилась ли нашему респонденту музыка в том или ином рекламном ролике или фильме, а человек отвечает: «Он крутой». Совершенно непонятно, что имеется в виду – то ли музыка - крутая, то ли фильм - крутой, то ли - рекламный ролик.
Здесь, с одной стороны, мы добились того, что респондент отвечает нам именно в той лексике и в тех значениях, которые близки ему. С другой, у нас возникают существенные проблемы с однозначной интерпретацией того, что он хотел нам этим сказать. Ответом на это является разработанная система кодификации открытых вопросов, желательно с возможностью накопления возможных ответов на те или иные вопросы со временем. Это позволит нам сравнивать результаты ответов на открытые вопросы, данные в разное время жителями разных групп населения.
Пример такой кодификации приведен на слайде. Слева приведена формулировка вопроса, который мы задавали медицинским работникам в ходе одного из опросов: «Скажите пожалуйста, почему вы не удовлетворены своей работой? Чем именно вы не удовлетворены?». Как видно, 260 медицинских работников дали самые разнообразные ответы. Практически ни одна из формулировок не повторяется - каждая формулировка повторяется только один раз. С правой стороны слайда приведены те коды, которые мы будем использовать при кодировке этих открытых вопросов. То есть кодом 1 мы будем отмечать все варианты ответов, связанные с зарплатой. Кодом 2 мы будем отвечать все ответы, которые связаны с материально-техническим обеспечением, кодом 3 - всё, что связано с негативным отношением населения к медицинским работникам, и так далее. Конечно, возможно, что мы будем использовать несколько кодов для кодирования ответов одного респондента, это вполне естественно. И таким образом мы сумеем закодировать самые разнообразные ответы наших респондентов.
Конечно, кодирование открытых вопросов представляет собой достаточно сложную задачу и необходимо прописать условия, правила, по которым такая кодировка будет происходить. Но это не исключает того, что кодирование закрытых вопросов является совершенно простой и очевидной задачей.
Для того, чтобы правильно и адекватно произвести редактирование данных и подготовку к их анализу, в случае закрытых вопросов используется так называемая кодировальная книга. В этой книге мы указываем правила, по которым количественные значения, собранные в полевых условиях, переводятся на язык цифр в массиве данных. В приведенном примере показано, по каким правилам производится кодирование значений, собранных в поле, в те или иные значения в базе данных. В левом столбце указан номер переменной, которая будет использована при анализе данных, затем указано имя переменной, которое кратко описывает назначение этой переменной. Для первой переменной это идентификатор респондента, например, номер этого респондента. В третьем поле указан номер нашего вопроса, каким он был в анкете или в сценарии интервью. Скажем, первый такой номер, Д1, возникает лишь в седьмой строке, в седьмой переменной. Ну и в последнем столбце инструкции по кодированию приведена собственно инструкция, то есть правила, по которым мы будем вносить в данное поле те или иные коды.
Давайте кратко посмотрим, как это будет происходить в случае данной кодировальной книги. Вторая переменная - это код проекта. Например, мы принимаем, что код данного проекта - 31 и, соответственно, все записи этого проекта будут иметь код 31. Затем, третья переменная - это код интервьюера, мы его переносим из анкеты, точно также как код данных, код времени, код верификации. Затем идут вопросы, которые есть в анкете. В данном случае респондента спросили о том, кто в доме делает покупки (исследование посвящено потребительским практикам населения), и коды для седьмой переменной «кто совершает покупки» перенесены из ответов на вопрос Д1, где у нас предусмотрены четыре варианта. Первый - это мужчина, тогда мы ставим код 1, второй вариант - женщина, мы ставим код 2, третий вариант - какой-то другой член семьи, мы ставим код 3, и, если ответа на данный вопрос в анкете нет, то мы заносим сюда код 9 – «пропущенное значение». Аналогичным образом мы поступаем, перенося значение переменной Д2 из бумажной анкеты в электронный вид. Соответственно мы поступаем и со всеми другими переменными. Таким образом, кодировальная книга представляет собой правила, по которым собранные данные мы переносим в тот вид, в котором будем их анализировать.