Статистическая измерительная процедура позволяющая выявить зависимость. Методы статистического анализа

Чтобы правильно выбрать статистический метод анализа данных в психологическом исследовании, нужно вначале сориентироваться в основных методах статистической обработки: какими они бывают, в каких случаях применяются, с какой целью и какой можно получить результат.

Выбор метода статистического анализа данных зависит от цели и задач исследования. Основные методы статистического анализа данных, широко используемые для обработки результатов эмпирических исследований в дипломных работах или ВКР по психологии, таковы:

  • Вычисление описательных статистик . Описательные статистики, как правило, вычисляются во всех без исключения дипломных работах по психологии. Чаще всего, по всем шкалам всех методик исследования вычисляются среднее значения (M) и стандартные отклонения (SD), и эти данные вносятся в таблицу первичных результатов эмпирического исследования, прилагаемую к работе. Их рассматривают, чаще всего, в первом пункте эмпирической главы , сравнивая с нормативными данными по методикам и определяя, обладает ли исследуемая выборка какими-либо особенностями, которые должны быть учтены или ставят ограничение в интерпретации результатов исследования.
  • Корреляционный анализ — выявление взаимосвязей между шкалами исследования. Этот метод позволяет обнаружить линейные (прямые и обратные) связи между переменными либо их отсутствие. Корреляционный анализ является основным методом статистического анализа данных в работах, целью которых является изучение влияния чего-либо на что-либо, зависимости А от Б.
  • Статистический анализ различий — это группа методов сравнения двух или более выборок. Сюда относятся методы сравнения выборок по критериям Стьюдента, Манна-Уитни, Вилкоксона и т.д. Все эти методы позволяют определить, насколько статистически значимыми (достоверными) являются различия между двумя или более группами испытуемых. Они являются главными методами математической обработки данных в исследованиях, целью которых является изучение особенностей какой-либо группы или изучение различий между группами, в том числе гендерных различий.
  • Многомерные методы статистического анализа данных — применяются в исследованиях с большим количеством исследуемых признаков (шкал и методик исследования). В психологических исследованиях это чаще всего факторный анализ и кластерный анализ . Эти методы позволяют классифицировать, обобщить, сократить количество изучаемых переменных, разделить их на группы или классы, выйти на другой уровень обобщения. Обработка результатов эмпирических исследований с применением многомерных методов считается «высшим классом» математической обработки данных. Дипломные работы, в которых применяются многомерные методы, как правило, заведомо претендуют на отличную оценку.

Выделяют пять основных видов статистического анализа, исполь­зуемых при проведении маркетинговых исследований: дескриптивный анализ, выводной анализ, анализ различий, анализ связей и предсказательный анализ. Иногда эти виды анализа используются по отдельности, иногда - совместно.

В основе дескриптивного анализа лежит использование таких ста­тистических мер, как средняя величина (средняя), мода, среднее квадратическое отклонение, размах или амплитуда вариации.

Анализ, в основе которого лежит использование статистических процедур (например, проверка гипотез) с целью обобщения полученных результатов на всю совокупность, называется выводным анализом.

Анализ различий используется для сравнения результатов исследо­вания двух групп (двух рыночных сегментов) для определения степени реального отличия в их поведении, в реакции на одну и ту же рекламу и т.п.

Анализ связей направлен на определение систематических связей (их направленности и силы) переменных. Например, определение, как увеличение затрат на рекламу влияет на увеличение сбыта.

Предсказательный анализ используется в целях прогнозирования развития событий в будущем, например путем анализа временных рядов. Статистические методы прогнозирования рассмотрены в разделе 7.

Инструменты дескриптивного анализа

Для описания информации, полученной на основе выборочных измерений, широко используется две группы мер. Первая включает меры «центральной тенденции», или меры, которые описывают типичного рес­пондента или типичный ответ. Вторая включает меры вариации, или ме­ры, описывающие степень схожести или несхожести респондентов или ответов с «типичными» респондентами или ответами.

Существуют и другие описательные меры, например меры асим­метрии (насколько найденные кривые распределения отличаются от нор­мальных кривых распределения). Однако они используются не столь час­то, как вышеупомянутые, и не представляют особого интереса для заказ­чика.

Ниже дается только краткая характеристика указанных мер. Более подробную информацию можно получить из книг по математической статистике, например , .

К числу мер центральной тенденции относятся мода, медиана и средняя.

Мода характеризует величину признака, появляющуюся наиболее часто по сравнению с другими величинами данного признака. Мода но­сит относительный характер, и необязательно, чтобы большинство рес­пондентов указало именно эту величину признака.

Медиана характеризует значение признака, занимающее срединное место в упорядоченном ряду значений данного признака.

Третьей мерой центральной тенденции является средняя величина, которая чаще всего рассчитывается как средняя арифметическая величина. При ее вычислении общий объем признака поровну распределяется между всеми единицами совокупности.

Видно, что степень информативности средней величины больше, чем медианы, а медианы - моды.

Однако рассмотренные меры не характеризуют вариацию ответов на какой-то вопрос или, говоря другими словами, несходство, различие респондентов или измеренных характеристик. Очевидно, что помимо знания величин мер центральной тенденции важно установить, насколь­ко близко к этим величинам расположены остальные полученные оцен­ки. Обычно используют три меры вариации: распределение частот, раз­мах вариации и среднее квадратическое отклонение.

Распределение частот представляет в табличной или графической форме число случаев появления каждого значения измеренной характе­ристики (признака) в каждом выбранном диапазоне ее значений. Распре­деление частот позволяет быстро сделать выводы о степени подробности результатов измерений.

Размах вариации определяет абсолютную разность между макси­мальным и минимальным значениями измеренного признака. Говоря другими словами, это разница между конечными точками в распределе­нии упорядоченных величин измеренного признака. Данная мера опре­деляет интервал распределения значений признака.

Среднее квадратическое отклонение является обобщающей статисти­ческой характеристикой вариации значений признака. Если эта мера ма­ла, то кривая распределения имеет узкую, сжатую форму (результаты из­мерений обладают высокой степенью схожести); если мера велика, то кривая распределения имеет широкий, растянутый вид (велика степень различия оценок).

Ранее было отмечено, что выбор шкалы измерений, а следователь­но, типа вопросов в опросном листе предопределяют количество полу­чаемой информации. Подобным образом, количество информации, полу­чаемой при использовании рассмотренных выше мер, является различ­ным. Общим правилом является то, что статистические меры дают воз­можность получить больше информации при применении наиболее ин­формативных шкал измерений. Выбор шкалы измерений предопределяет выбор статистических мер. Например, один из вопросов демографиче­ского исследования, при проведении которого использовалась шкала на­именований, касался национальности. Русским был присвоен код 1, ук­раинцам - 2, татарам - 3 и т.д. В данном случае, конечно, можно вы­числить среднее значение. Но как интерпретировать среднюю нацио­нальность, равную, скажем, 5,67? Для вычисления средних надо исполь­зовать интервальную шкалу или шкалу отношений. Однако в нашем примере можно использовать моду.

Что касается мер вариации, то при использовании номинальной шкалы применяется распределение частот, при использовании шкалы порядков - кумулятивное распределение частот, а при использовании интервальной шкалы и шкалы отношений - среднее квадратическое от­клонение.

Статистический вывод

Вывод является видом логического анализа, направленного на по­лучение общих заключений о всей совокупности на основе наблюдений за малой группой единиц данной совокупности.

Выводы делаются на основе анализа малого числа фактов. Напри­мер, если два ваших товарища, имеющих одну и ту же марку автомобиля, жалуются на его качество, то вы можете сделать вывод о низком качестве данной марки автомобиля в целом.

Статистический же вывод основан на статистическом анализе ре­зультатов выборочных исследований и направлен на оценку параметров совокупности в целом. В данном случае результаты выборочных исследо­ваний являются только отправной точкой для получения общих выводов.

Например, автомобилестроительная компания провела два незави­симых исследования с целью определения степени удовлетворенности потребителей своими автомобилями. Первая выборка включала 100 по­требителей, купивших данную модель в течение последних шести меся­цев. Вторая выборка включала 1000 потребителей. В ходе телефонного интервьюирования респонденты отвечали на вопрос: «Удовлетворены вы или не удовлетворены купленной вами моделью автомобиля?» Первый опрос выявил 30% неудовлетворенных, второй - 35%.

Поскольку существуют ошибки выборки и в первом и во втором случаях, то можно сделать следующий вывод. Для первого случая: около 30% опрошенных выразили неудовлетворенность купленной моделью автомобиля. Для второго случая около 35% опрошенных выразили не­удовлетворенность купленной моделью автомобиля. Какой же общий вывод можно сделать в данном случае? Как избавиться от термина «около»? Для этого введем показатель ошибки: 30% ± х% и 35% ± у% и сравним х и у. Используя логический анализ, можно сделать вывод, что большая выборка содержит меньшую ошибку и что на ее основе можно сделать более правильные выводы о мнении всей совокупности потреби­телей. Видно, что решающим фактором для получения правильных выво­дов является размер выборки. Данный показатель присутствует во всех формулах, определяющих содержание различных методов статистиче­ского вывода.

При проведении маркетинговых исследований чаще всего исполь­зуются следующие методы статистического вывода: оценка параметров и проверка гипотез.

Оценка параметров генеральной совокупности представляет из себя процесс определения, исходя из данных о выборке, интервала, в котором находится один из параметров генеральной совокупности, например среднее значение. Для этого используют следующие статистические пока­затели: средние величины, среднюю квадратическую ошибку и желаемый уровень доверительности (обычно 95% или 99%).

Ниже пойдет разговор об их роли при проведении оценки пара­метров.

Средняя квадратическая ошибка является, как отмечалось выше, мерой вариации выборочного распределения при теоретическом предпо­ложении, что исследовалось множество независимых выборок одной и той же генеральной совокупности.

Она определяется по следующей формуле:

Где s x - средняя квадратическая ошибка выборочной средней;

s - среднее квадратическое отклонение от средней величины в вы­борке;

n - объем выборки.

Если используются процентные меры, выражающие альтернатив­ную изменчивость качественных признаков, то

где s - средняя квадратическая ошибка выборочной средней при использовании процентных мер;

р - процент респондентов в выборке, поддержавших первую альтернативу;

q = (100 - q) - процент респондентов в выборке, поддержавших

вторую альтернативу;

n - объем выборки.

Видно, что средняя ошибка выборки тем больше, чем больше ва­риация, и тем меньше, чем больше объем выборки.

Поскольку всегда существует выборочная ошибка, то необходимо оценить разброс значений изучаемого параметра генеральной совокупно­сти. Предположим, исследователь выбрал уровень доверительности, рав­ный 99%. Из свойств нормальной кривой распределения вытекает, что ему соответствует параметр Z = ± 2,58. Средняя для генеральной сово­купности в целом вычисляется по формуле

Если используются процентные меры, то

Это означает, что если вы хотите, чтобы при 99%-ном уровне до­верительности диапазон оценок включал истинную для генеральной со­вокупности оценку, то необходимо умножить среднюю квадратическую ошибку на 2,58 и добавить полученный результат к процентному значе­нию р (верхняя предельная оценка). Если же произвести вычитание дан­ного произведения, то найдем нижнюю предельную оценку.

Как эти формулы связаны со статистическим выводом?

Поскольку производится оценка параметра генеральной совокуп­ности, то здесь указывается диапазон, в который попадает истинное зна­чение параметра генеральной совокупности. С этой целью для выборки берутся статистическая мера центральной тенденции, величина диспер­сии и объем выборки. Далее делается предположение об уровне довери­тельности и рассчитывается диапазон разброса параметра для генераль­ной совокупности.

Например, для членов выборки (100 читателей какой-то газеты) было установлено, что среднее время чтения газеты составляет 45 минут при средней квадратической ошибке в 20 минут. При уровне доверитель­ности, равном 95%-ном, получим

При 99%-ном уровне доверительности получим

Видно, что доверительный интервал шире для 99% по сравнению с 95%-ным уровнем доверительности.

Если используются проценты и оказалось, что из выборки в 100 человек 50% опрошенных по утрам пьет кофе, то при уровне доверитель­ности в 99% получим следующий диапазон оценок:

Таким образом, логика статистического вывода направлена на по­лучение конечных заключений об изучаемом параметре генеральной со­вокупности на основе выборочного исследования, осуществленного по законам математической статистики. Если используется простое заклю­чение, не основанное на статистических измерениях, то конечные выво­ды носят субъективный характер и на основе одних и тех же фактов раз­ные специалисты могут сделать разные выводы.

При использовании статистического вывода используются форму­лы, носящие объективный характер, в основе которых лежат общепри­знанные статистические концепции. В результате конечные выводы но­сят намного более объективный характер.

В ряде случаев делаются суждения относительно какого-то пара­метра генеральной совокупности (величине средней, дисперсии, характе­ре распределения, форме и тесноте связи между переменными) исходя только из некоторых предположений, размышлений, интуиции, непол­ных знаний. Такие суждения называются гипотезами.

Статистической гипотезой называется предположение о свойстве генеральной совокупности, которое можно проверить, опираясь на дан­ные выборки.

Подпроверкой гипотезы понимается статистическая процедура, применяемая для подтверждения или отклонения гипотезы, основанной на результатах выборочных исследований. Проверка гипотезы осуществляется на основе выявления согласованности эмпирических данных с гипотетическими. Если расхождение между сравниваемыми величинами не выходит за пределы случайных ошибок, гипотезу принимают. При этом не делается никаких заключений о правильности самой гипотезы, речь идет лишь о согласованности сравниваемых данных.

Проверка гипотезы проводится в пять этапов:

1. Делается некоторое предположение относительно какой-то ха­рактеристики генеральной совокупности, например о средней величине определенного параметра.

2. Формируется случайная выборка, проводится выборочное иссле­дование и определяются статистические показатели выборки.

3. Сравниваются гипотетическое и статистическое значения иссле­дуемой характеристики.

4. Определяется, соответствуют или нет результаты выборочного исследования принятой гипотезе.

5. Если результаты выборочного исследования не подтверждают ги­потезу, последняя пересматривается - она должна соответствовать дан­ным выборочного исследования.

Вследствие вариации результатов выборочных исследований не­возможно сделать абсолютно точный вывод о достоверности гипотезы, проводя простое арифметическое сравнение величин характеристик. По­этому статистическая проверка гипотезы включает использование: выбо­рочного значения характеристики, среднего квадратического отклонения, желательного уровня доверительности и гипотетитеского значения харак­теристики для генеральной совокупности в целом.

Для проверки гипотез о средних величинах применяется следую­щая формула:

Например, готовя рекламу учебной программы по подготовке тор­говых агентов в колледже, руководитель программы считал, что выпуск­ники программы получают в среднем 1750 долларов в месяц. Таким обра­зом, гипотетическая средняя для генеральной совокупности равна 1750 долларам. Для проверки данной гипотезы было проведено телефонное обследование торговых агентов разных фирм.

Выборка составила 100 человек, средняя для выборки равнялась 1800 долларам и среднее квадратическое отклонение составляло 350 дол­ларов. Возникает вопрос, является ли большой разница (50 долларов) между гипотетической зарплатой и ее средним значением для выборки. Проводим расчеты по формуле (4.2):

Видно, что средняя квадратическая ошибка средней величины бы­ла равна 35 долларам, а частное от деления 50 на 45 составляет 1,43 (нор­мированное отклонение), что меньше ±1,96 - величины, характеризую­щей уровень доверительности 95%. В данном случае выдвинутую гипотезу можно признать достоверной.

При использовании процентной меры испытание гипотезы осуще­ствляется следующим образом. Предположим, что, исходя из собствен­ного опыта, один из автолюбителей выдвинул гипотезу, согласно которой только 10% автолюбителей используют ремни безопасности. Однако на­циональные выборочные исследования 1000 автолюбителей показали, что 80% из них используют ремни безопасности. Расчеты в данном случае проводятся следующим образом:

где р - процент из выборочных исследований;

π H - процент из гипотезы;

s p - средняя квадратическая ошибка при расчетах в процентах.

Видно, что первоначальная гипотеза отличалась от найденных 80% на величину 55,3, умноженную на среднеквадратическую ошибку, т.е. не может быть признана достоверной.

В ряде случаев целесообразно использовать направленные гипоте­зы. Направленные гипотезы определяет направления возможных значе­ний какого-то параметра генеральной совокупности. Например, заработ­ная плата составляет больше 1750 долларов. В данном случае использует­ся только одна сторона кривой распределения, что находит отражение в применении знаков «+» и «-» в расчетных формулах.

Более детальную информацию по данной проблеме можно полу­чить из .

Здесь, правда, возникает вопрос. Если можно провести выбороч­ные исследования, то зачем выдвигать гипотезы? Обработка результатов выборочных исследований дает возможность получить средние величины и их статистические характеристики, не выдвигая никаких гипотез. По­этому проверка гипотез скорее применяется в случаях, когда невозможно или чрезвычайно трудоемко проводить полномасштабные исследования и когда требуется сравнивать результаты нескольких исследований (для разных групп респондентов или проведенных в разное время). Такого рода задачи, как правило, возникают в социальной статистике. Трудоем­кость статистико-социологических исследований приводит к тому, что почти все они строятся на несплошном учете. Поэтому проблема доказа­тельности выводов в социальной статистике стоит особенно остро.

Применяя процедуру проверки гипотез, следует помнить, что она может гарантировать результаты с определенной вероятностью лишь по «беспристрастным» выборкам, на основе объективных данных.

Анализ различий

Проверка существенности различий заключается в сопоставлении ответов на один и тот же вопрос, полученных для двух или более независимых групп респондентов. Кроме того, в ряде случаев представляет ин­терес сравнение ответов на два или более независимых вопросов для од­ной и той же выборки.

Примером первого случая может служить изучение вопроса: что предпочитают пить по утрам жители определенного региона: кофе или чай. Первоначально было опрошено на основе формирования случайной выборки 100 респондентов, 60% которых отдают предпочтение кофе; че­рез год исследование было повторено, и только 40% из 300 опрошенных человек высказалось за кофе. Как можно сопоставить результаты этих двух исследований? Прямым арифметическим путем сравнивать 40% и 60% нельзя из-за разных ошибок выборок. Хотя в случае больших разли­чий в цифрах, скажем, 20 и 80%, легче сделать вывод об изменении вку­сов в пользу кофе. Однако если есть уверенность, что эта большая разни­ца обусловлена прежде всего тем, что в первом случае использовалась очень малая выборка, то такой вывод может оказаться сомнительным. Таким образом, при проведении подобного сравнения в расчет необхо­димо принять два критических фактора: степень существенности разли­чий между величинами параметра для двух выборок и средние квадратические ошибки двух выборок, определяемые их объемами.

Для проверки, является ли существенной разница измеренных средних, используется нулевая гипотеза. Нулевая гипотеза предполагает, что две совокупности, сравниваемые по одному или нескольким призна­кам, не отличаются друг от друга. При этом предполагается, что действи­тельное различие сравниваемых величин равно нулю, а выявленное по данным отличие от нуля носит случайный характер , .

Для проверки существенности разницы между двумя измеренными средними (процентами) вначале проводится их сравнение, а затем полу­ченная разница переводится в значение среднеквадратических ошибок, и определяется, насколько далеко они отклоняются от гипотетического нулевого значения.

Как только определены среднеквадратические ошибки, становится из­вестной площадь под нормальной кривой распределения и появляется воз­можность сделать заключение о вероятности выполнения нулевой гипотезы.

Рассмотрим следующий пример. Попытаемся ответить на вопрос: «Есть ли разница в потреблении прохладительных напитков между де­вушками и юношами?». При опросе был задан вопрос относительно чис­ла банок прохладительных напитков, потребляемых в течение недели. Описательная статистика показала, что в среднем юноши потребляют 9, а девушки 7,5 банок прохладительных напитков. Средние квадратические отклонения, соответственно, составили 2 и 1,2. Объем выборок в обоих случаях составлял 100 человек. Проверка статистически значимой разни­цы в оценках осуществлялась следующим образом:

где x 1 и x 2 - средние для двух выборок;

s 1 и s 2 - средние квадратические отклонения для двух выборок;

n 1 и n 2 - объем соответственно первой и второй выборки.

Числитель данной формулы характеризует разницу средних. Кроме того, необходимо учесть различие формы двух кривых распределения. Это осуществляется в знаменателе формулы. Выборочное распределение теперь рассматривается как выборочное распределение разницы между средними (процентными мерами). Если нулевая гипотеза справедлива, то распределение разницы является нормальной кривой со средней, равной нулю, и средней квадратической ошибкой, равной 1.

Видно, что величина 6,43 существенно превышает значение ±1,96 (95%-ный уровень доверительности) и ±2,58 (99%-ный уровень довери­тельности). Это означает, что нулевая гипотеза не является истинной.

На рис. 4.6 приводятся кривые распределения для этих двух срав­ниваемых выборок и средняя квадратическая ошибка кривой разницы. Средняя квадратическая ошибка средней кривой разницы равна 0. Вслед­ствие большого значения среднеквадратических ошибок вероятность справедливости нулевой гипотезы об отсутствии разницы между двумя средними меньше 0,001.

Прежде чем строить какую-либо модель по собранным данным, прогнозисту нужно понять, с чем именно он имеет дело и убедиться в том, что перед ним адекватный временной ряд, не содержащий ошибки. Для этого обычно используют графический анализ и / или статистический анализ данных .

Лирическое отступление

Самое простое, что можно сделать прежде чем прибегать к каким-либо инструментам статистического или графического анализа - это просто посмотреть на имеющийся ряд данных в табличном виде. Беглый взгляд на данные позволяет понять, имеются ли в ряде выбивающиеся либо пропущенные значения, каким наблюдениям они соответствуют и есть ли в ряде данных какая-нибудь явная тенденция.

Пример в R

В RStudio ряд данных можно либо вывести в консоль, набрав его имя:

Глядя на этот ряд сделать однозначный вывод о том, имеются ли в нём какие-то особенности, нельзя. Но иногда можно заметить выбросы либо грубые ошибки, допущенные при сборе данных.

Если в распоряжении исследователя имеется малая выборка (с числом наблюдений, например, не более 20), содержащая 2 - 3 переменных, то провести такой элементарный анализ несложно. Однако проблемы начинаются, когда либо число наблюдений оказывается существенным, либо число переменных больше 3-х - глаза просто разбегаются от такого количества данных. А как быть, когда выборка содержит в себе высокочастотные данные (например, пятиминутные измерение потребления электроэнергии)?! В этом случае уже точно нужно обращаться к специальным статистическим инструментам.

Многие базовые статистические методы анализа рядов данных основываются на идеи упорядочивания ряда данных от меньшего значения к большему. Проведя такое упорядочивание можно сосчитать число наблюдений и рассчитать квантили распределения.

Квантиль - это значение, ниже которого лежит определённое число наблюдений, соответствующих выбранной частоте. Здесь и далее квантили мы будем обозначать как «\(q_{\alpha} \)», где \(\alpha \) - это выбранная частота. Например, \(q_{0.1} \) будет соответствовать тому значению ряда, ниже которого лежит 0.1 всей выборки.

С понятием квантиля плотно связано понятия «процентиль». Процентиль показывает процент наблюдений, лежащих ниже выбранного значения. То есть фактически если бы мы вместо \(\alpha = 0.1 \) использовали \(\alpha = 10% \), то мы получили бы десяти процентный процентиль, который был бы равен \(q_{0.1} \). Фактически разницы между квантилем и процентилем нет, всё упирается лишь в удобство обозначения и использования. Здесь и далее мы будем пользоваться названием «квантиль» даже в тех случаях, когда говорим о процентах от числа наблюдений (ибо не следует множить сущее сверх необходимого).

Пример в R

В R любой квантиль можно вывести с помощью команды:

Квартили распределения - это квантили, кратные 25%, то есть соответствующие 25%, 50% и 75%. Их ещё иногда называют соответственно «первый», «второй» и «третий» либо «нижний», «средний» и «верхний». Обозначать мы их будем через «\(Q_1 \)», «\(Q_2 \)» и «\(Q_3 \)» соответственно.

Второй квартиль является самостоятельной полезной статистической величиной, так как показывает, что 50% наблюдений в выборке лежит ниже данного числа, а остальные - соответственно выше, то есть он фактически делит выборку пополам. Чаще в различной литературе его можно встретить под названием «медиана ». Мы не будем отступать от этого обозначения.

Ещё две статистические характеристики, имеющие важное значение - это максимум и минимум переменной, которые фактически можно было бы назвать нулевым и единичным квантилями.

Ну и, конечно же, ни одно статистическо-аналитическое торжество не обходится без средней величины (которая на английском обычно называется «mean»), вычисляющейся по банальной и известной всем формуле:

\begin{equation} \label{eq:mean}
\bar {x} = \frac {1} {T} \sum_{t=1}^T x_t
\end{equation}

Эта же величина в математической статистике соответствует выборочному математическому ожиданию случайной величины, которое мы будем обозначать как «\(E(x) \)».

Пример в R

В R на все эти характеристики можно посмотреть, набрав команду «summary»:

summary (x )

Она выдаст нам минимум, \(Q_1 \), медиану, среднее значение, \(Q_3 \) и максимум.
Если нам нужны отдельные величины, то мы можем обратиться к соответствующим функциям: «quantile», «mean», «median», «min», «max».

Достаточно часто в анализе можно ограничиться средней величиной и медианой, что, конечно же, не даёт всей той информации, которая иногда бывает необходима для адекватного анализа. Некоторые исследователи допускают ошибку и ограничиваются вообще только средней. Но это уже в корне неправильно, потому что средняя величина является эффективной характеристикой распределения только в случае с симметричным распределением случайной величины, типичным представителем которого является нормальной распределение:

По этому графику видно, что медиана и средняя совпали. Но произошло это из-за пресловутой симметричности в распределении. Если же распределение несимметрично, то средняя величина оказывается сдвинутой ближе к длинному хвосту распределения. Например так:

На этом графике показаны вымышленные заработные платы вымышленного персонала в вымышленном вузе. По графику видно, что медиана оказалась ближе к пику распределения, чем средняя величина. Если делать выводы только на основе средней, то может сложиться впечатление, что средняя вымышленная заработная плата составляет порядка 1.75 вымышленных единиц (в.е.). Однако этот вывод будет некорректным, так как большая часть профессорско-преподавательского состава получает чуть меньше 1 в.е., при этом ректор и проректора получают значительно больше - от 8 до 10 в.е. Из-за их высокой зарплаты средняя заработная плата выглядит прилично. Медианная же заработная плата оказалась ближе к пику и составляет нечто в районе 1 в.е., что даёт нам как исследователям значительно больше информации о том, что твориться в вымышленном вузе на самом деле: 50% вымышленных сотрудников получает вымышленную заработную плату в размере ниже 1 в.е. А всё это из-за того, что медиана в меньшей степени подвержена влиянию выбросов, чем средняя величина (как говорят, она более робастная величина, чем средняя). Если бы мы рассчитали квартили этого распределения то могли бы получить информацию о том, что 25% всех вымышленных сотрудников получает меньше 0.5 в.е., а 75% — соответственно меньше 2 в.е.

Более точной оценкой пика распределения вообще-то является мода , которая показывает наиболее часто встречающееся значение в ряде данных, однако на практике использование её связано с различными трудностями. Обычно они вызваны тем, что мы очень часто имеем дело с непрерывными случайными величинами, а значит для оценки моды нужно идти на всякие ухищрения типа разбиения ряда на интервалы. Другая проблема, возникающая на практике, связана с таким явлением, как «мультимодальность». Оно выражается в наличии нескольких пиков в распределении. Выбрать корректный пик в этом случае - нетривиальная задача.

Итак, зная рассмотренные выше показатели мы уже можем одним взглядом объять всю выборку, имеющуюся в нашем распоряжении. Мы даже можем сделать вывод о симметричности распределения нашей переменной, сравнив медиану со средней. Однако это не даёт нам представлений о том, какими именно особенностями обладает выборка. Для того, чтобы понять, что к чему, нам нужно обратиться к момента распределения.

Моментом распределения называется величина, рассчитываемая по формуле:

\begin{equation} \label{eq:moment}
m_k = \frac {1} {T} \sum_{t=1}^T (x_t - c)^k,
\end{equation}

где \(c \) - некоторая константа, а \(k \) - это номер момента.

Если константа \(c \) равна нулю, то мы получаем начальные моменты распределения . Первый начальный момент распределения есть ни что иное, как математическое ожидание, что становится очевидно при сравнении формул \eqref{eq:mean} и \eqref{eq:moment}.

Когда \(c \) равна математическому ожиданию \(E(x) \), такой момент называют центральным :

\begin{equation} \label{eq:сmoment}
m_k = \frac {1} {T} \sum_{t=1}^T (x_t - E(x))^k.
\end{equation}

Обычно именно центральные моменты и представляют наибольший интерес, так как с помощью них можно оценить ряд характеристик распределения нашей случайной величины. Рассмотрим эти характеристики.

Первый центральный момент скучный и всегда равен нулю. Это следует из формул \eqref{eq:сmoment} и \eqref{eq:mean}. Зато центральные моменты других порядков несут значительно больше информации.

Одной из ключевых величин, основанных на центральном моменте, является дисперсия. Дисперсия - это второй центральный момент распределения. Она показывает меру колебаний случайной величины и рассчитывается (как следует из \eqref{eq:сmoment}) по следующей формуле:

\begin{equation} \label{eq:variancep}
m_2 = \frac {1} {T} \sum_{t=1}^T (x_t - E(x))^2.
\end{equation}

За счёт возведения отклонений от математического ожидания в квадрат происходит избавление от знаков, в результате чего получается значение, характеризующее средние отклонения слева и справа от математического ожидания. Чем выше дисперсия, тем выше разброс значений в ряде данных.

Если из дисперсии взять корень квадратный, то получится среднеквадратическое отклонение (ака «ско »):

\begin{equation} \label{eq:sigma}
\sigma = \sqrt{m_2}
\end{equation}

Несмотря на название, ско не является какой бы то ни было «средней» оценкой. Это со всей очевидностью следует из формул \eqref{eq:variancep} и \eqref{eq:sigma}: наблюдения в ско учитываются в форме «\(\frac{1} {\sqrt{T}} \)», а не «\(\frac{1} {T} \)», поэтому о каком-то усреднении говорить здесь не стоит.

На практике обычно дисперсия рассчитывается немного по другой формуле, а вызвано это тем, что в статистике есть доказательства того, что дисперсия, рассчитанная по формуле \eqref{eq:variancep} будет смещённой (в данном случае она будет занижена по сравнению с дисперсией в «генеральной совокупности»). Поэтому обычно вместо формул \eqref{eq:variancep} и \eqref{eq:sigma} рассчитывают формулы с поправкой на это смещение:

\begin{equation} \label{eq:variance}
V(x) = \frac{1} {T-1} \sum_{t=1}^T (x_t - E(x))^2
\end{equation}

\begin{equation} \label{eq:stdev}
s = \sqrt{V(x)}
\end{equation}

Величина \(s \) в таком случае уже называется «стандартным отклонением ».

Обычно дисперсия и стандартное отклонение бывают нужны для построения доверительных интервалов, однако сделать каких-либо выводов о разбросе значений имея только их невозможно. Более-менее полезную информацию можно получить, рассчитав коэффициент вариации по следующей формуле:

\begin{equation} \label{eq:cv}
cv = \frac{s} {\bar x}
\end{equation}

Коэффициент вариации позволяет производить сравнение разброса значений в разных выборках, так как по сути приводит ско в разных выборках к безразмерным величинам. Однако по значению этого коэффициента делать какие-то выводы о том имеем ли мы дело с большим или малым разбросом всё так же некорректно. А всё потому, что этот коэффициент очень чувствителен к масштабу: если среднее значение показателя лежит близко к нулю, то, как следует из формулы \eqref{eq:cv}, коэффициент вариации будет принимать очень большие значения вне зависимости от того, какое получено ско.

Пример в R

В R расчёт дисперсии осуществляется с помощью формулы «var»:

Или

Сравните выводы формул:

А теперь увеличим число наблюдений в x. В этому случае разница между выводами этих двух формул будет значительно меньше:

Что можно сказать по полученным значениям?

Однако продолжим наше увлекательнейшее путешествие по моментам распределений.

Иногда центральные моменты стандартизируют. Делается это путём деления центрального момента на ско (или на стандартное отклонение в случае малых выборок):

\begin{equation} \label{eq:cstmoment}
m’_k = \frac{1} {T} \sum_{t=1}^T \left(\frac {x_t - E(x)} {s} \right)^k,
\end{equation}

что равноценно:

\begin{equation}
m’_k = \frac{1} {T} \sum_{t=1}^T \frac {(x_t - E(x))^k} {s^k},
\end{equation}

Нужно это обычно для избавления от масштаба случайной величины. Однако это так же позволяет получить интересную информацию об имеющемся распределении. А интересна она вот чем. В формуле \eqref{eq:cstmoment} фактически все значения разделяются на две группы: лежащие в пределах одного ско, и лежащие снаружи. Это лучше заметно, если взглянуть на следующие неравенства, характеризующие числитель \eqref{eq:cstmoment}:

\begin{equation}
\text{если } x_t - E(x) > s \text{, то } \frac {x_t - E(x)} {s} > 1.
\end{equation}

Что это нам даёт? Очень просто. После такой нормализации при возведении дроби в степень \(k \) эти две группы будут вести себя по-разному. Например, если \(k=4 \), то значения, лежащие в пределах одного ско будут существенно уменьшены и приближены к нулю. Так число 0.5 при возведении в 4-ю степень даёт 0.0625. В противоположность этому значения, лежащие дальше одного ско будут увеличены. Так число 2 в 4-й степени равно 16. То есть происходит ещё более серьёзное разделение выборки на две части. Если значений, лежащих за пределами одного ско, много, то они будут приводить к увеличению финального значение суммы в формуле \eqref{eq:cstmoment}.

Этот принцип используют два следующих полезных коэффициента.

Коэффициент асимметрии (skewness) - это ни что иное, как третий центральный стандартизированный момент. Рассчитывается он, как следует из \eqref{eq:cstmoment}, по формуле:

\begin{equation} \label{eq:skewness}
skewness = m’_3 = \frac {m_3} {s^3} = \frac{\frac{1} {T} \sum_{t=1}^T (x_t - E(x))^3} {s^3}.
\end{equation}

Из \eqref{eq:skewness} видно, что конкретные значения, лежащие слева и справа от математического ожидания не теряют свои знаки. Более того, они значительно увеличиваются в размере в случае, если лежат дальше одного ско. Поэтому, если слева от математического ожидания лежит какое-то очень большое значение (то есть оно отрицательное и велико по модулю), то возведение его в третью степень «потянет» коэффициент асимметрии в отрицательную сторону. Если в распределении таких отрицательных экстремальных величин несколько, но они встречаются редко (что характерно для распределений с длинным левым хвостом), то коэффициент асимметрии будет отрицательным. В противоположном случае коэффициент асимметрии будет положительным. Значения, лежащие в пределах одного ско нивелируют друг друга, поэтому коэффициент асимметрии показывает, какой из хвостов распределения длиннее.

У симметричных распределений коэффициент асимметрии равен нулю. Однако какие-то другие выводы кроме «положительный» или «отрицательный» по этому коэффициенту сделать нельзя - его величина ничем не ограничена и зависит лишь от того, как далеко от математического ожидания лежат те или иные значения.

На рисунке выше показаны разные стандартизированные распределения случайных величин. Видно, как меняется значение коэффициента асимметрии в зависимости от длины одного из хвостов распределений.

Коэффициент эксцесса (kurtosis) - это четвёртый центральный стандартизированный момент. Он не так часто используется в анализе и несёт не так много информации, как предыдущие коэффициенты, но тем не менее обладает некоторой ценностью. Вот его формула:

\begin{equation} \label{eq:cstmoment4}
m’_4 = \frac {m_4} {s^4} = \frac{\frac{1} {T} \sum_{t=1}^T (x_t - E(x))^4} {s^4}.
\end{equation}

Смысл этого коэффициента мы фактически уже начали рассматривать ранее. Он является своеобразным показателем средней толщины хвостов распределения: большее значение коэффициента указывает на наличие большого числа величин, лежащих за пределами одного ско. Впрочем, он так же может просто указывать на наличие выбросов, потому что такие значения оказывают очень большое влияние на величину \eqref{eq:cstmoment4}. Однако это не всё. Обычно симметричные распределения так же характеризуются высотой пика вокруг математического ожидания. Из-за стандартизации в формуле \eqref{eq:cstmoment4} те распределения, у которых толстые хвосты ещё и характеризуются высоким пиком. Действительно, если к нормальному распределению добавить несколько выбросов, лежащих за пределами, например, 6 сигма с разных сторон, то ско, оценённое по формуле \eqref{eq:sigma} увеличится. Это за счёт увеличения знаменателя в \eqref{eq:cstmoment4} приведёт к тому, что число наблюдений, лежащих в пределах 1 ско вырастет, а значит и увеличится пик распределения. Это всё найдёт отражение в большей величине коэффициента эксцесса.

Коэффициент эксцесса на самом деле имеет наибольший смысл в случае с симметричными распределениями. В случае асимметрии он показывает ситуацию сродни «средней температуре по больнице»: толстые или же худые у распределения хвосты с обеих сторон в среднем.

В связи с тем, что коэффициент эксцесса ограничен только снизу (он не может быть отрицательным) и его тяжело интерпретировать, его обычно сравнивают с эксцессом нормального распределения, который равен трём. Поэтому формулу \eqref{eq:cstmoment4} обычно модифицируют следующим образом:

\begin{equation} \label{eq:kurtosis}
kurtosis = m’_4 — 3.
\end{equation}

В этом случае интерпретируется коэффициент так. Если он больше нуля, то у распределения имеются более толстые хвосты и больший пик, чем в нормальном распределении. Если же он меньше нуля, то мы имеем обратную ситуацию: более тонкие хвосты и меньший пик.

На рисунке выше показаны разные распределения и соответствующие им значения коэффициента эксцесса. Распределением с самыми толстыми хвостами на рисунке выше является распределение Лапласа. Видно, что чем выше пик распределения (по сравнению с нормальным), тем больше значение коэффициента.

kurtosis (x )

Он должен получиться больше нуля, что указывает на то, что пик в нашем случае превышает пик нормального распределения, а хвосты в распределении оказались толще хвостов нормального распределения.

Помимо рассмотренных нами здесь четырёх моментов распределения, существуют и моменты более высоких порядков, но практического применения в прогнозировании они не нашли.
Стоит заметить, что у моментов более высокого порядка есть свои явные недостатки: их значения подвержены влиянию выбросов (в случае появления экстраординарного значения в выборке, коэффициенты взлетают в небеса), а сами их значения ничем не ограничены, что приводит к затруднениям в интерпретации. Иногда для нивелирования первой проблемы используют другие коэффициенты, в основе которых уже не лежит возведение в целые степени.

Так вместо дисперсии для решения первой проблемы и получения более робастной оценки иногда используют среднее абсолютное отклонение (Mean Absolute Deviation, «MAD»):

\begin{equation} \label{eq:MAD}
MAD = \frac{1} {T} \sum_{t=1}^T \left| x_t - E(x) \right|
\end{equation}

В этом случае не происходит возведения в степень, а значит и наблюдения, лежащие на удалении от математического ожидания, не влияют на финальную оценку так сильно, как при расчёте дисперсии.

Иногда аббревиатурой «MAD» обозначают совершенно другой показатель - медианное абсолютное отклонение (при этом медиану в литературе по прогнозированию принято обозначать «Md», поэтому здесь мы такой показатель будем обозначать «MdAD»). Как следует из названия, эта величина ещё более робастна. Рассчитывается она по следующей формуле:

\begin{equation} \label{eq:MdAD}
MdAD = Md \left| x_t-Md(x) \right|
\end{equation}

Кроме того, в статистике существует доказательство того, что асимптотически относительно MdAD нормально распределённой случайной величины выполняется следующее условие:

Зная основы статистического анализа, можно получить много полезной информации об имеющихся данных. Однако имея в своём инвентаре ещё и графический анализ , можно творить аналитические чудеса!

Анализ данных и статистика - вещи одного порядка. Если статистика первооснова и источник информации, то анализ данных - это инструмент для ее исследования, и зачастую анализ данных без статистики невозможен.

Получить обучающее видео

Статистика - это изучение любых явлений в числовой форме. Статистика используется анализом данных в количественных исследованиях. Противоположность им - качественные, описывающие ситуацию без применения цифр, в текстовом выражении.

Количественный анализ статистических данных проводится по интервальной шкале и по рациональной:

  • интервальная шкала указывает, насколько тот или иной показатель больше или меньше другого и дает возможность подобрать похожие по свойствам соотношения показатели,
  • рациональная шкала показывает, во сколько раз тот или иной показатель больше или меньше другого, но в ней содержатся только положительные значения, что не всегда будет отражать реальное положение дел.

Как используют Data Mining в компании Mail.ru?

Получить обучающее видео

Методы анализа статистических данных

В анализе статистических данных можно выделить аналитический этап и описательный. Описательный этап - последний, он включает представление собранных данных в удобном графическом виде – в графиках, диаграммах, дашбордах. Аналитический этап - это анализ, заключающийся в использовании одного из следующих методов:

  • статистического наблюдения – систематического сбора данных по интересующим характеристикам;
  • сводки данных, в которой можно обработать информацию после наблюдения; она описывает отдельные факты как часть общей совокупности или создает группировки, делит информацию по группам на основании каких-либо признаков;
  • определении абсолютной и относительной статистической величины; абсолютная величина придает данным количественные характеристики в индивидуальном порядке, в независимости от других данных; относительные величины описывают одни объекты или признаки относительно других;
  • метода выборки – использовании при анализе не всех данных, а только их части, отобранной по определенным правилам (выборка может быть случайной, стратифицированной, кластерной и квотной);
  • корреляционного и регрессионного анализа - выявляет взаимосвязи данных и причины, по которым данные зависят друг от друга, определяет силу этой зависимости;
  • метода динамических рядов - отслеживает силу, интенсивность и частоту изменений объектов и явлений; позволяет оценить данные во времени и дает возможность прогнозирования явлений.

Программное обеспечение для статистического исследования

Статистические исследования могут проводить маркетологи-аналитики:

Для качественного анализа статистических данных необходимо либо обладать знаниями математической статистики, либо использовать отчетно-аналитическую программу, либо не заниматься этим. Европейские компании давно осознали пользу такого анализа, поэтому либо нанимают хороших аналитиков с математическим образованием, либо устанавливают профессиональное программное обеспечение для аналитиков-маркетологов. Ежедневный анализ в этих компаниях помогает им правильно организовывать закупку товаров, их хранение и логистику, корректировать количество персонала и их рабочие графики.

Решения для автоматизации анализа данных позволяют работать с ними аналитикам-маркетологам. Сегодня есть решения, доступные даже небольшим компаниям, такие как Tableau. Их преимущества по сравнению с анализом, проведенным исключительно человеком:

  • невысокая стоимость внедрения (от 2000 рублей в месяц – на февраль 2018 года),
  • современное графическое представление анализа,
  • возможность мгновенно переходить от одного, более полного отчета, к другому, более детальному.

Хотите узнать, как провести анализ и сделать отчеты быстро?

Получить обучающее видео

Статистические методы анализа данных принято делить на две большие группы: одномерные методы статистического анализа и многомерные методы.

Одномерные методы анализа - это методы, которые применяют в случаях, если существует единый измеритель для оценки каждого элемента выборки, либо если этих измерителей несколько, каждая переменная анализируется отдельно от всех остальных . В центре внимания данных методов находится анализ средних значений и показателей вариации переменных.

Классификация одномерных методов осуществляется по характеру исходных данных (метрические или неметрические), а также по количеству и типу выборок. Так, выборки делят на зависимые (парные) - это выборки, сформированные из одной генеральной совокупности и независимые выборки - это выборки, сформированные из различных генеральных совокупностей. На практике независимыми считают выборки, сформированные из различных страт (в случае использования стратифицированной или квотной выборки), например, мужчин и женщин или групп респондентов с различным уровнем дохода.

К одномерным методам анализа данных относят:

· Методы проверки гипотез (z-критерий, t-критерий, F-критерий, χ2-критерий и т.п.).

Более подробно проверку гипотез смотри: Гмурман В. Е. Теория вероятностей и математическая статистика.

· Методы анализа статистических рядов распределения.

· Однофакторный дисперсионный анализ.

· Другие методы.

Многомерные методы анализа - это методы, которые применяют в случаях, если для оценки каждого элемента выборки используется два или больше измерителя и эти переменные анализируются одновременно . В центре внимания данной группы методов уже находятся анализ взаимосвязей, связей и сходства между переменными.

Выделяют следующие многомерные методы:

1) Методы выявления зависимости между переменными – это методы, в которых одна или несколько переменных являются зависимыми, а другие независимыми. К этой группе относят:

· корреляционно-регрессионный анализ;

· дисперсионный и ковариационный анализ;

· дискриминантный анализ;

· совместный анализ.

2) Методы выявления взаимозависимости между переменными – это методы, позволяющие группировать данные на основе сходства. В данных методах нет деления переменных на зависимые и независимые. К этой группе относят:

· кластерный анализ;

· факторный анализ;

· многомерное шкалирование.

Выбор методов анализа данных осуществляется на основе:

· цели, задач, рабочих гипотез маркетингового исследования;

· типа маркетингового исследования (поисковое или итоговое; описательное или причинно-следственное);

· типа собранных данных - метрические и неметрические переменные;

· шкал, используемых в исследовании;

· объема и метода выборки;

· метода сбора данных;

· области применения и ограничений статистических методов анализа данных.

По сути все предшествующие этапы маркетингового исследования предопределяют выбор стратегии анализа данных. Немалую роль при этом играет опыт и квалификация самого исследователя. В заключении отметим, что сложные многомерные методы статистического анализа данных используются не всегда. Очень часто исследователь ограничивается лишь предварительным (базовым) анализом данных и его графической интерпретацией.

Конечно же, необходимо помнить, что анализ данных маркетингового исследования - это не последний его этап, за ним следует разработка практических рекомендаций и формирование отчета исследования.