课程概况
Oдним из условий применимости обычных линейных моделей является независимость наблюдений друг от друга, на основе которых подбирается модель. Однако на практике часто встречаются ситуации, когда дизайн сбора материала таков, что нарушение этого условия неизбежно. Представьте, что вы решили построить модель, описывающую связь успеваемости по физкультуре и величины IQ теста у студентов. Для решения этой задачи вы сделали многочисленные выборки в нескольких институтах. Можно ли объединить такие данные в один анализ, построенной по традиционной схеме? Конечно нет. Студенты в каждом вузе могут быть в чем-то сходными друг с другом. Даже характер связи между изучаемыми величинами может быть несколько разным. Такого рода данные, в которых присутствуют внутригрупповые корреляции, стоит анализировать при помощи смешанных линейных моделей. Мы покажем, что некоторые предикторы стоит включать в модель в качестве так называемых “случайных факторов”. Вы узнаете, что случайные факторы могут быть иерархически соподчинены. Мы обсудим, как такие смешанные модели могут быть построены для зависимых переменных подчиняющихся разным типам распределений. Кроме того, мы покажем, что случайная часть модели может быть устроена еще сложнее – в ней может быть компонент, моделирующий поведение дисперсии в ответ на влияние ковариаты. В конце курса вас ждет проект, в котором вы сможете потренироваться в построении смешанных моделей, выбрав один из нескольких датасетов. На основе анализа этих данных вы сможете создать отчет, выдержанный в традициях воспроизводимого исследования.
Этот курс поможет научиться строить модели со случайными факторами для величин с разными типами распределений. Чтобы легче осваивать материалы курса, вам пригодятся базовые представления о линейных моделях (общих и обобщенных), базовые знания R и умение создавать простейшие .html документы при помощи rmarkdown и knitr.
课程大纲
Знакомство со смешанными линейными моделями
В этом модуле вы сделаете первый шаг в мир смешанных линейных моделей. Вы познакомитесь с понятием случайного фактора. Вы увидите примеры дизайнов сбора данных, когда использование таких факторов становится необходимым и поймете, что происходит с моделями, если такие факторы не учитывать или учитывать нерационально. Вам предстоит построить смешанную модель, предполагающую, что переменная-отклик подчиняется нормальному распределению. На этом примере вы научитесь трактовать результаты построения смешанных моделей и визуализировать их. Вы увидите, что подходы к работе со смешанными моделями существенно отличаются от более привычных нам форм регрессионного и дисперсионного анализа.
Моделирование структуры дисперсии в смешанных моделях
Одним из ключевых ограничений при работе с моделями, основанными на нормальном распределении переменной отклика, является отсутствие гетероскедастичности. Тем не менее признаки неравенства дисперсии для разных значений ковариат выявляются очень часто. Если гетерогенность дисперсий не учитывать, это может привести к неадекватной трактовке результатов подбора модели. В этом модуле мы рассмотрим один из возможных подходов к решению этой проблемы - моделирование структуры дисперсии. Вы познакомитесь с нескольким способами моделирования связи между варьированием переменной отклика и непрерывными или дискретными предикторами, которые называются ковариаты дисперсии. Мы рассмотрим как можно ввести такой компонент, как в простую, так и смешанную линейную модель.
Смешанные линейные модели для счетных данных
В этом модуле вы научитесь моделировать поведение счетных величин при помощи обобщенных смешанных линейных моделей (GLMM). В основе этих моделей будет лежать распределение Пуассона или отрицательное биномиальное распределение. Мы вместе вспомним, что такое связывающей функция, и каким образом она обеспечивает связь между предиктором и счетной зависимой переменной. GLMM для счетных данных требуют, чтобы связь среднего и дисперсии в данных соответствовала ожидаемой для выбранного распределения. Вы научитесь оценивать степень избыточности дисперсии и бороться с ней, если она присутствует. Мы встретим и обсудим случаи, когда функции языка R не будут способны подобрать модель по техническим причинам, и рассмотрим некоторые методы устранения таких проблем. Наконец, мы обсудим особенности трактовки результатов GLMM: интерпретацию коэффициентов моделей, основанных на распределениях для счетных данных, методы тестирования гипотез, пост-хок тесты и способы визуализации результатов.
Смешанные линейные модели для бинарных данных
В последнем модуле этой специализации мы применим весь имеющийся нашем арсенале набор средств для построения модели, в которой зависимая переменная имеет бинарную природу. Мы повторим принципы работы с бинарными переменными: переход от вероятностей к шансам и логитам. Далее мы обсудим материал, в котором несколько случайных факторов находятся в иерархическом соподчинении. На примере модели для этих данных мы рассмотрим разнообразные подводные камни, которые имеются при работе со смешанными моделям с бинарной переменной-откликом.