课程概况
В рамках специализации вы освоите основные методы работы с количественными данными, в том числе основы теории вероятностей и математической статистики, инструменты исследования связей между признаками, научитесь строить прогнозы на основе регрессионных моделей, сравнивать группы, выделять группы методами кластерного анализа, строить классификации, визуализировать данные, интерпретировать и представлять результаты статистического анализа. Вы примените эти методы на учебных примерах и сможете адаптировать их под специфику ваших данных и задач.
В курсах специализации мы рассмотрим, как оценить связь условий труда и удовлетворенности работой, как спрогнозировать количество кликов на сайт компании, как разделить университеты на классы, как выявить стратегии поиска работы, как отличить геозависимую рубрику от геонезависимой, и множество других практических задач. Кроме того, мы научимся решать такие задачи в популярных средах анализа данных (SPSS и R).
В заключительной части каждого курса вам предстоит выполнить проект на реальных данных, который позволит применить полученные знания на практике и продемонстрировать умение анализировать и представлять результаты анализа статистически и графически.
Специализация разработана Новосибирским государственным университетом, одним из ведущих исследовательских университетов России и мира, совместно с 2GIS, известной международной технологической компанией, которая разрабатывает сервисы для комфортной жизни в городе.
包含课程
课程1
Введение в данные
Этот курс - первый в специализации "Анализ данных". Курс будет особенно полезен тем, кто имеет небольшой опыт работы с данными, или хочет освежить знания по теории вероятностей, математической статистике и типах данных. Сначала мы вспомним основы теории вероятностей и поговорим о случайных величинах и их свойствах, об основных распределениях случайных величин.
Затем перейдем к основным характеристикам распределений: мерам центра и мерам вариативности. Далее обсудим основные типы шкал измерения признаков, а также основные ограничения, которые тип шкалы накладывает на применимые методы анализа данных.
Третья неделя курса посвящена графическому анализу данных и способам визуализации распределений, индивидуальных или совместных. Завершающий модуль курса посвящен выборкам и способам их формирования, а также принципам и инструментам работы с пропущенными и неопределенными значениями.
Вы сможете применить полученные знания, выполнив небольшой проект на реальных данных, предоставленных компанией 2GIS.
Присоединяйтесь!
课程2
Исследование статистических взаимосвязей
Курс рассматривает способы и инструменты исследования статистических взаимосвязей между признаками. Вы научитесь оценивать, связаны ли признаки, а также делать обоснованные выводы о том, значима ли эта связь статистически. Связаны ли богатство и счастье, как связана потребительская активность людей с днем недели, способствует ли наличие аккаунта в социальных сетях популярности корпоративного сайта? На вопросы такого рода вы сможете ответить, пройдя этот курс. В первом модуле курса мы поговорим о статистических гипотезах, о способах их проверки и об основных статистических критериях, которые для этого разработаны. После этого мы рассмотрим практические инструменты выявления статистических взаимосвязей признаков, измеренных разными типами шкал, а также способы оценки значимости этих связей. Мы поговорим об основных коэффициентах взаимосвязи признаков, о том, как правильно выбрать коэффициент для решения конкретной задачи и покажем, как рассчитывать коэффициенты связи в статистических пакетах.
В заключении мы подробно рассмотрим модель линейной регрессии, которая позволяет не только выявлять взаимосвязи между признаками, но и строить прогноз, и попрактикуемся в её построении.
课程3
Сравнение и создание групп
Курс посвящен статистическому сравнению характеристик групп и категорий. В первой части курса мы рассказываем о параметрических и непараметрических тестах сравнения средних и распределений, какие возможности и ограничения связаны с разными методами сравнения групп, говорим о сравнении связанных и несвязанных выборок. Различаются ли регионы (или аудитории) по доходу или возрасту? Как отличается пользовательская активность в разные времена года? Случайны различия между группами или закономерны?
Курс научит искать ответы на такие вопросы.
Вторая половина курсов посвящена выделению групп на основе эмпирических данных. Есть ли структура в данных? Можно ли говорить о том, что люди, компании или университеты группируются в отличительные, узнаваемые классы? Как найти и охарактеризовать такие группы? Мы покажем основные алгоритмы кластеризации, которые позволяют решать такие задачи.
В практических видео курса мы покажем реализацию основных инструментов сравнения и выделения групп, а также предложим практические задачи и задания для отработки полученных навыков.
课程4
Тренды и классификации
В этом курсе мы поговорим о трендах и классификаторах. Анализ трендов помогает ответить на вопросы вроде: растут ли продажи, увеличивается ли количество пользователей сервиса? Если есть рост, то случайность это или закономерность? Есть ли в данных сезонные колебания? Как выделить тренд и как объяснить его? Также мы поговорим о факторном анализе, который позволяет найти скрытую переменную (или переменные), направляющие проявление множества видимых признаков. Как найти такие скрытые переменные и понять, что за ними стоит?
В заключительной части курса поговорим о классификаторах, применение которых решает задачи отнесения объектов к тому или иному классу с определенной вероятностью, а также позволяет прогнозировать попадание нового объекта в определенный класс. Как предсказать исход события, зная основные характеристики действующего лица? Закончит ли слушатель курс, отдаст ли заемщик кредит? Как оценить точность прогноза и минимизировать ошибки?
Мы разберемся с устройством обозначенных методов анализа данных и попрактикуемся в их применении.
课程项目
Проекты, выполняемые по окончании каждого курса, позволяют применить полученные знания для решения практических задач на реальных данных, предоставленных компанией 2GIS.
Проект по итогам первого курса позволит вам отработать навыки расчета и интерпретации описательных статистик, а также графического анализа данных.
Итогом второго курса станет построение регрессионной модели, позволяющей строить прогноз и оценивать его качество.
В третьем курсе вы поработаете с группами: научитесь не только сравнивать, но и находить в данных группы, обладающие сходными характеристиками.
Проект по итогам четвертого курса предлагает вам проанализировать тренд, выделить в нём сезонность, а также попрактиковаться в построении классификаций.
В результате вы решите набор типовых задач статистического анализа данных и сможете продемонстрировать ваше умение анализировать данные в SPSS и/или R.