Лекция 14. Подготовка данных к обработке

Методы и методология социологического исследования

Лекция 14
Подготовка данных к обработке

Видео-курс Владимира Звоновского для социологов-бакалавров, читавшийся в СГЭУ в 2012-2021 гг.

Цель лекции: Дать представления о подготовке первичных данных к обработке и статистическому анализу

План лекции

Основные правила редактирования первичных данных

Типология и правила преобразования данных

Виды контроля ввода и редактирования данных.

14.1. Редактирование данных

После проведения полевых работ собранные данные никогда не находятся в готовом для анализа состоянии. Если мы собрали наши данные с помощью бумажных анкет, их нужно каким-то образом перенести из бумаги в электронный вид. Если вы провели телефонный опрос, и данные уже изначально находится в электронном виде, этого недостаточно для начала анализа: необходимо перевести данные из той формы, в которой они были собраны, в ту форму, в которой мы сможем их проанализировать.

Подготовка данных к анализу состоит из двух этапов. Во-первых, редактирование данных, во-вторых, формирование массива для проведения анализа. Редактированием данных мы называем проверку, коррекцию и фильтрацию собранных первичных данных для подготовки их к анализу. Неважно, касается ли это бумажных или электронных анкет. Формированием данных мы называем доведение массива первичных данных до того состояния, в котором с ними можно провести те виды анализа, которые описаны в программе данного исследования.

Редактирование данных бывает двух основных типов: полевое и офисное. Полевым редактированием называется проверка данных, собранных на какой-то определенной территории или определенной бригадой, работающей под управлением одного супервайзера. Эту работа проводится в той части данных, которая собирается именно этой бригадой под руководством именно этого супервайзера. Офисное редактирование проводится над всем массивом, собранным в рамках данного проекта.

Например, проводится исследование в целом по стране. В каждом из наших регионов супервайзеры провели проверку той части массива, которую их интервьюеры собрали в этих регионах. Затем, после обобщения всех данных и размещения их в единой базе, мы проводим офисное редактирование, то есть проверку данных и подготовку их к анализу по всему массиву в целом.

Работы по редактированию чаще всего состоят из двух частей: во-первых, это выполнение полевым персоналом инструкций по сбору информации в данном проекте, а во-вторых, проверка собранных данных на полноту. Дело в том, что когда мы проводим, например, телефонное интервью с помощью какого-то программного приложения, вместе с вопросами анкеты это приложение содержит инструкцию, указывающая интервьюеру в каком именно виде эти данные должны быть введены. Например, мы задаем вопрос: «Сколько вам лет?» и после этого следует инструкция нашему интервьюеру: «Введите названные цифры в это окошко». Возможны какие-то другие инструкции, например, из предлагаемого числа причин участия или неучастия в голосовании необходимо выбрать две, три или пять таких причин, а в другом вопросе инструкция отметить только один ответ. Как видим, инструкции бывают разные, и важно их правильно выполнить в каждой позиции проводимого нами интервью.

После того, как интервью сделано, проведено и данные собраны, мы должны проверить, насколько полными они являются. То есть, на все ли вопросы мы получили ответы, и все ли эти ответы зафиксированы в нашей базе данных. Ведь возможно, что респондент дал такой ответ, но в силу каких-то причин интервьюер пропустил ответ на этот вопрос или попросту его не ввёл. Невыполнение всех или части требований к методам и способам сбора первичных данных может привести к существенным искажениям этих данных и невозможности провести анализ, запланированный программой нашего исследования.

Отсутствие части информации в собранных анкетах после проведения работ может быть устранено через обработку так называемых неудовлетворительных ответов. Неудовлетворительными мы называем те ответы респондентов, которые делают невозможным проведение тех видов анализов, которые запланированы в программе нашего социологического исследования. Это может либо не полностью, или неверно зафиксированный ответ, либо его полное отсутствие.

Неудовлетворительные ответы обрабатываются тремя основными способами. В первом случае мы заменяем отсутствующий ответ на какое-то нейтральное значение. Например, мы спросили, как, по мнению респондента, он бы оценил деятельность губернатора области, и по какой-то причине ответа в данной записи по данному респонденту нет. В этом случае мы можем поставить нейтральный ответ, если он предусмотрен в нашей шкале, например «нет ответа» или что респондент затрудняется с оценкой деятельности губернатора.

Вторым вариантом обработки неудовлетворительных ответов является удаление данной записи. В том случае, который я привел в пример, в случае отсутствия ответа на один вопрос о деятельности губернатора области мы вынуждены будем удалить всю запись, относящуюся к данному респонденту. Очевидно, что такое удаление - непозволительная роскошь. Если мы будем удалять ответы каждого из наших респондентов, у которых отсутствуют ответы на один или два вопроса, то возможно, что мы потеряем очень значительную часть нашей выборки. Поэтому чаще всего используют другой способ работы с неудовлетворительными ответами - это так называемое попарное удаление.

Попарное удаление означает, что запись по данному респонденту не будет анализироваться лишь в тех случаях, когда будет рассматриваться или рассчитываться значение по данному вопросу. Это означает, что любой анализ данных, включающий в себя работу с именно этим признаком, по которому ответа одного из респондентов у нас нет, данные по данному респонденту не будут приниматься во внимание и не участвуют в расчетах. Но если к анализу данных распределение по данному признаку (признаку удовлетворённости или неудовлетворённости работой губернатора) не привлекается, то, соответственно, запись по этому респонденту будет принимать участие в анализе.

Одним из ключевых этапов редактирования данных является кодирование открытых вопросов. Как мы говорили ранее, открытые вопросы используются тогда, когда мы хотим услышать лексику наших респондентов - то, как они объясняют, обозначают существование тех или иных проблем в их жизни и возможные пути их решения. И очевидно при этом, что наши респонденты будут говорить на языке, понятном им. И совершенно не очевидно, что он будет понятен нам.

Нам понадобятся правила такой кодировки, и эти правила должны быть более или менее устойчивы. Мы не можем их менять от опроса к опросу, и мы должны использовать одни и те же правила в рамках одного опроса. Например, мы задаем вопрос - насколько человек удовлетворён работой Президента Российской Федерации, а в ответ на этот вопрос в открытой форме респондент пишет, что он недоволен работой своего ТСЖ. Или, например, мы спрашиваем, понравилась ли нашему респонденту музыка в том или ином рекламном ролике или фильме, а человек отвечает: «Он крутой». Совершенно непонятно, что имеется в виду – то ли музыка - крутая, то ли фильм - крутой, то ли - рекламный ролик.

Здесь, с одной стороны, мы добились того, что респондент отвечает нам именно в той лексике и в тех значениях, которые близки ему. С другой, у нас возникают существенные проблемы с однозначной интерпретацией того, что он хотел нам этим сказать. Ответом на это является разработанная система кодификации открытых вопросов, желательно с возможностью накопления возможных ответов на те или иные вопросы со временем. Это позволит нам сравнивать результаты ответов на открытые вопросы, данные в разное время жителями разных групп населения.

Пример такой кодификации приведен на слайде. Слева приведена формулировка вопроса, который мы задавали медицинским работникам в ходе одного из опросов: «Скажите пожалуйста, почему вы не удовлетворены своей работой? Чем именно вы не удовлетворены?». Как видно, 260 медицинских работников дали самые разнообразные ответы. Практически ни одна из формулировок не повторяется - каждая формулировка повторяется только один раз. С правой стороны слайда приведены те коды, которые мы будем использовать при кодировке этих открытых вопросов. То есть кодом 1 мы будем отмечать все варианты ответов, связанные с зарплатой. Кодом 2 мы будем отвечать все ответы, которые связаны с материально-техническим обеспечением, кодом 3 - всё, что связано с негативным отношением населения к медицинским работникам, и так далее. Конечно, возможно, что мы будем использовать несколько кодов для кодирования ответов одного респондента, это вполне естественно. И таким образом мы сумеем закодировать самые разнообразные ответы наших респондентов.

Конечно, кодирование открытых вопросов представляет собой достаточно сложную задачу и необходимо прописать условия, правила, по которым такая кодировка будет происходить. Но это не исключает того, что кодирование закрытых вопросов является совершенно простой и очевидной задачей.

Для того, чтобы правильно и адекватно произвести редактирование данных и подготовку к их анализу, в случае закрытых вопросов используется так называемая кодировальная книга. В этой книге мы указываем правила, по которым количественные значения, собранные в полевых условиях, переводятся на язык цифр в массиве данных. В приведенном примере показано, по каким правилам производится кодирование значений, собранных в поле, в те или иные значения в базе данных. В левом столбце указан номер переменной, которая будет использована при анализе данных, затем указано имя переменной, которое кратко описывает назначение этой переменной. Для первой переменной это идентификатор респондента, например, номер этого респондента. В третьем поле указан номер нашего вопроса, каким он был в анкете или в сценарии интервью. Скажем, первый такой номер, Д1, возникает лишь в седьмой строке, в седьмой переменной. Ну и в последнем столбце инструкции по кодированию приведена собственно инструкция, то есть правила, по которым мы будем вносить в данное поле те или иные коды.

Давайте кратко посмотрим, как это будет происходить в случае данной кодировальной книги. Вторая переменная - это код проекта. Например, мы принимаем, что код данного проекта - 31 и, соответственно, все записи этого проекта будут иметь код 31. Затем, третья переменная - это код интервьюера, мы его переносим из анкеты, точно также как код данных, код времени, код верификации. Затем идут вопросы, которые есть в анкете. В данном случае респондента спросили о том, кто в доме делает покупки (исследование посвящено потребительским практикам населения), и коды для седьмой переменной «кто совершает покупки» перенесены из ответов на вопрос Д1, где у нас предусмотрены четыре варианта. Первый - это мужчина, тогда мы ставим код 1, второй вариант - женщина, мы ставим код 2, третий вариант - какой-то другой член семьи, мы ставим код 3, и, если ответа на данный вопрос в анкете нет, то мы заносим сюда код 9 – «пропущенное значение». Аналогичным образом мы поступаем, перенося значение переменной Д2 из бумажной анкеты в электронный вид. Соответственно мы поступаем и со всеми другими переменными. Таким образом, кодировальная книга представляет собой правила, по которым собранные данные мы переносим в тот вид, в котором будем их анализировать.

14.2. Формирование массива

Перенос данных с одного носителя на другой в каждом исследовании представляет собой значимую проблему. Если мы используем бумажные анкеты, то мы должны решить, каким образом мы будем переводить данные, размещенные в бумажных анкетах, в электронный вид. Если мы проводим телефонный опрос, также необходимо понять, каким образом массив, собранный программой, помогающей нам проводить телефонный опрос, будет переведен в массив, который мы будем обрабатывать. Здесь приведены наиболее распространенные способы переноса данных из первичного носителя в базу данных, которую мы будем анализировать. В случае, если мы используем CATI-, CAWI- или CAPI-методы сбора данных, то перенос осуществляется просто путем переформатирования имеющейся базы данных.

Если у нас есть бумажные анкеты, то можно использовать целый ряд способов переноса данных из бумажной формы в электронную. Самый простой способ - это повторный ввод с клавиатуры, когда оператор (вводчик) переносит данные из бумажной анкеты в электронный вид с помощью стандартной клавиатуры.

Кроме ввода с клавиатуры, мы можем использовать разного рода сканирование. Прежде всего, это так называемое цифровое сканирование, когда мы первичный документ оформляем специальным образом. Примерно так же, как используются почтовые индексы в почтовых службах: в какие-то ячейки мы вносим специальные символы, довольно легко распознаваемые компьютером. Но для этого, разумеется, нужны специальные сканеры.

Также используется обычное оптическое сканирование, когда данные (например, страница анкеты) просто сканируются, а потом происходит распознавание того, какие варианты ответов там внесены. Оптическое сканирование является затруднительным (хотя технически вполне реализуемым) и поэтому оно почти не используется в практике социологических опросов.

В процессе переноса данных из бумажного вида в электронный всегда возникают ошибки: человек или несколько людей, которые осуществляют такой перенос, могут ошибиться - нажать не ту цифру, распознать неправильно код в бумажной анкете - и следует, во-первых, учитывать такого рода ошибки, во-вторых, бороться с ними.

Используют два основных способа борьбы с такими ошибками. Во-первых, это контроль введенной части массива. То есть, мы перепроверяем, скажем, 5% или 10% введенных данных и убеждаемся в том, что ошибок либо не совершено, либо совершено их минимальное количество. Если же ошибок совершено больше наперед установленного значения (часто принимается 3% или 5%), то контролю подвергается уже 20% или 30% массива.

Сегодня наиболее распространенным способом контроля и исправления ошибок является двойной ввод, то есть массив вводится дважды, обычно различными вводчиками-операторами. В этом случае ошибки в отдельных вопросах взаимно компенсируют друг друга, а анализ проводится по удвоенному массиву. Если мы собрали данные от тысячи наших респондентов, то массив, который мы будем обрабатывать, будет иметь объём в две тысячи записей. На распределение численных значений такое удвоение массива никак не повлияет.

Очевидно, что сам по себе перевод данных в электронный вид является контролем полевых данных. Например, собрав данные о сфере занятости респондентов, можно посмотреть их распределение по различным сферам занятости и убедиться в том, что это распределение носит довольно типичный характер. Однако, если в том или ином распределении появятся какие-то флуктуации, объяснения которым нет, то это может быть причиной контроля: либо ввода данных в электронный вид, либо ошибок при сборе данных в поле. В приведенном примере видно, что всего людей, которые ответили нам на вопрос о своей сфере занятости у нас 490 респондентов. 310 человек не ответили на этот вопрос, то есть они не работают. Если это распределение населения по сферам занятости какого-то крупного города, то здесь не может быть никаких причин для беспокойства. Однако если была поставлена задача опроса населения такого крупного города в возрастном диапазоне, например, от 25 до 55 лет, то поводы для беспокойства у нас есть. Ведь в этом случае количество неработающего населения должно быть значительно меньше, потому что основная часть неработающего населения это пенсионеры старше 55 или 60 лет. Если же они не входили в целевую выборку для данного исследования, то доля неработающих в числе 310 респондентов от общего числа респондентов 800 кажется несколько завышенной. Это повод для того, чтобы провести контроль либо ввода данных, либо полевых работ.

Также контроль собранных данных проводится с помощью перекрёстных таблиц. На данном слайде представлена таблица с пересечением распределения ответов на два вопроса. Первый - о том, за какую партию намерен голосовать респондент, а второй - где этот респондент проживает.

Если посмотреть на покрашенные красным цветом ячейки, то обращает на себя внимание очень небольшое число неопределившихся респондентов в Тольятти. Дело в том, что средний возраст населения Тольятти из приведенной градации (Самара, Тольятти, малые города и сёла) является самым низким, это - самый молодой город нашего региона. При этом мы знаем, что доля неопределившихся избирателей среди молодых всегда выше, и это вызывает некоторые противоречия: с одной стороны, мы ожидаем увидеть большую долю неопределившихся среди тольяттинцев, а здесь мы видим, что эта доля минимальна среди всех территориальных групп населения области.

Еще одна ячейка привлекает наше внимание - это доля сторонников партии «Справедливая Россия» среди жителей малых городов. Зная, что, согласно официальным итогам голосования, партия «Справедливая Россия» была поддержана (в том году) в первую очередь жителями малых городов, у нас эти данные также должны вызывать некоторое беспокойство и потребность в дополнительном контроле.

Ну и наконец, доля сторонников КПРФ среди сельских жителей также вызывает у нас некоторые опасения, ведь мы знаем, что избиратели коммунистической партии сосредоточены в больших городах, где есть крупные промышленные центры, а вот в селах доля сторонников этой партии должна быть минимальна. Соответственно, также нам необходимо дополнительно проверить либо корректность ввода данных по партийным предпочтениям, либо проведение полевых работ в различных территориях региона.

В ходе данной лекции мы познакомились с тем, как организовано и проходит редактирование данных, и каким образом мы формируем массивы для проведения анализа собранной информации.

Литература по теме

Список источников для освоения материала лекции

1. Власова М. Л. Социологические методы в маркетинговых исследованиях: учеб. пособие для вузов / М.Л.Власова; Гос. ун-т – Высшая школа экономики. – М.: Изд-во ГУ ВШЭ, 2006. – 712 с.
2. Методы сбора информации в социологических исследованиях. Отв. ред. В.Г.Андреенков, О.М.Маслова. М., Наука,1990.
3. Ядов, В. А. Социологическое исследование: методология, программа, методы / В. А. Ядов; изд. 2-е, перераб. и доп. – М.: Наука, 1987. – 248 с.
4. Ядов, В. А. Стратегия социологического исследования. Описание, объяснение, понимание социальной реальности / В. А. Ядов – М.: «Добросвет», Книжный дом «Университет», 1998. – 596 с.
5. Черчилль Г.А. Маркетинговые исследования: Пер. с англ. — СПб.: Питер, 2001. — 748 с.: ил.
Маркетинговые исследования. Практическое руководство. Нэреш К. Малхотра, 3-е изд., пер. с англ. - М.: 2002. — 960 с. 1
6. Е. Б. Галицкий, Е. Г. Галицкая, Маркетинговые исследования: теория и практика: учебник для вузов. М.: Издательство: Юрайт, 2014, 567 с.