Прикладная статистика
Преподаватель: 
Тип: 
по выбору
Часов: 
36
Семестр: 
IV-8
Аннотация
Курс "Прикладная статистика" посвящен изложению современных разделов математической статистики. Содержание курса включает в себя основы непараметрической статистики и проверки гипотез, основы корреляционного, дисперсионного и кластерного анализа, методов регрессии и анализа временных рядов. Содержание курса является базовым с точки зрения дальнейшего изучения и практического применения статистического анализа для решения содержательных прикладных задач, в том числе, задач анализа больших данных и современных методов машинного обучения.
Программа
- Лекция 1. Непараметрическая статистика
- Устойчивость статистических процедур/робастность.
 - Бутстреп (размножение выборок).
 - Статистика интервальных данных.
 - Статистика объектов нечисловой природы.
 - Компьютеры в прикладной статистике.
 - Основные нерешенные проблемы прикладной статистики.
 
 - Лекция 2. Проверка непараметрических гипотез.
- Зависимые/независимые выборки.
 - Критерий знаков. Гипотеза об однородности, медиане, доле признака. Сравнение с Т-тестом.
 - Знако – ранговый критерий. Гипотеза об однородности двух выборок.
 - Критерий Манна – Уитни. Гипотеза об однородности двух независимых выборок.
 - Критерий Вилкоксона. Гипотеза об однородности двух независимых выборок.
 - Критерий серий. Проверка случайности выборки.
 
 - Лекция 3. Корреляционный анализ.
- Парная корреляция, коэффициент корреляции.
 - Коэффициент корреляции Пирсона. Проверка гипотезы о корреляции. Таблицы сопряженности.
 - Коэффициенты корреляции для различных шкал.
 - Коэффициент корреляции Спирмена. Гипотеза о равенстве нулю коэффициента корреляции (проверка значимости).
 - Коэффициент корреляции Кендалла. Подсчет числа проверсий и инверсий.
 - Множественный корреляционный анализ. Частный и множественный коэффициенты корреляции. Корреляционная матрица. Множественный коэффициент корреляции. Коэффициент детерминации.
 
 - Лекции 4 и 5. Дисперсионный анализ.
- Задачи дисперсионного анализа. Примеры.
 - Математическая модель однофакторного дисперсионного анализа.
 - Разложение полной вариативности результирующего признака в модели однофакторного дисперсионного анализа.
 - Оценка параметров уравнения.
 - Проверка статистических гипотез, связанных с моделью.
 - Сравнительный анализ влияния различных уровней фактора на исследуемый признак.
 - Линейные контрасты.
 - Критерий Краскела-Уоллиса. Гипотеза о равенстве медиан.
 - Критерий Левена. Критерий Бартлетта.
 - Пример решения задачи.
 - Общая схема проведения многофакторного дисперсионного анализа. Разложение полной вариации зависимой переменной на составляющие.
 - Проверка статистических гипотез, связанных с моделью двухфакторного дисперсионного анализа.
 - Эффект влияния фактора. Эффект влияния взаимодействия факторов. Относительная важность факторов. Множественные сравнения.
 - Дисперсионный анализ в ряду других методов прикладной статистики.
 
 - Лекция 6. Кластерный анализ.
- Иерархический кластерный анализ. Методы для количественных данных. Постановка задачи.
 - Основные параметры кластеризации: метрика и способ агломерации.
 - Метрика и ее свойства.
 - Виды метрик для данных в количественной шкале. Евклидово, чебышевское, манхэттенское расстояние. Матрица расстояний.
 - Способы агломерации. Метод ближнего и дальнего соседа. Метод средней и центроидной связи. Метод Уорда.
 - Анализ результатов кластеризации: методы построение дендрограммы.
 - Методы выбора числа кластеров.
 
 - Лекция 7. Линейная регрессия.
- Простая и множественная линейная регрессия. Метод наименьших квадратов. Несмещенная оценка минимальной дисперсии. Несмещенная оценка дисперсии ошибки измерения. Теорема Гаусса-Маркова. Доверительные интервалы для коэффициентов и дисперсии.
 - Тест общей значимости модели линейной регрессии. T-тесты для коэффициентов линейной регрессии. F –test на равенство нулю группы коэффициентов. Коэффициент детерминации R2, R2-adjusted, R2-predicted. PRESS статистика. Проблема переобучения.
 - Использование регрессионной модели для прогнозирования новых значений.
 - Доверительные интервалы для предсказанных значений.
 
 - Лекция 8. Проверка адекватности модели.
- Проверка адекватности построенной модели. Анализ остатков. Графики остатков. Стандартизированные, стьюдентизированные остатки. Проверка на нормальность остатков. Квантиль-квантильные графики. Критерий Шапиро-Уилка. Тесты на отсутствие сериальной корреляции между остатками. Критерий Дарбина — Уотсона. Тесты на гетероскедастичность остатков.
 - Lack of fit тест.
 
 - Лекция 9. Подбор моделей линейной регрессии и анализ главных компонент.
- Подбор модели линейной регрессии. Регрессия лучших подмножеств. Сравнение моделей. Критерий Акаике. Прямая, обратная, stepwise регрессия.
 - Проблема мультиколлинеарности. Обнаружение мультиколлинеарности. VIF коэффициенты. Методы регуляризации. Гребневая регрессия. Регрессия главных компонент.
 
 - Лекция 10. Выбросы и метод наименьших квадратов.
- Выбросы, high leverage points. Детектирование выбросов. Расстояние Кука. DFFITS статистика. Робастная регрессия.
 - Гетероскедастичность (непостоянство дисперсии). Взвешенный метод наименьших квадратов. Обобщенный метод наименьших квадратов.
 - Категориальные предикторы.
 - Логистическая регрессия (бинарная).
 
 - Лекция 11. Анализ временных рядов.
- Анализ временных рядов. Классическая декомпозиция. Понятие тренда и сезонности. Выделение тренда. Фильтр скользящего среднего. Экспоненциальное сглаживание. Выделение сезонности. Другие методы выделения тренда и сезонности – X11 декомпозиция, STL декомпозиция.
 - Метод дифференцирования для удаления тренда и сезонности из временного ряда (DS ряды).
 - Логарифмическое преобразование данных.
 - Тесты на белый шум. Критерий Портманто, критерий Люнга – Бокса, критерий знаков и т.д.
 - Понятие стационарного временного ряда (слабая стационарность). Теорема Уолда.
 - Автокорреляционная функция, частная автокорреляционная функция.
 - Критерии стационарности ряда. Тесты на единичный корень. KPSS тест, тест Дикки-Фуллера. Вариограмма.
 
 - Лекция 12. Скользящие средние, авторегрессионные модели и метод максимального правдоподобия.
- Модель скользящего среднего (MA(q)), авторегрессионная модель p-го порядка (AR(p)). Модель ARMA(p,q). Модель ARIMA(p,d,q).
 - Метод максимального правдоподобия для подбора коэффициентов модели.
 - Сравнение моделей. Критерий акаике, байесовский информационный критерий.
 - Поточечное прогнозирование. Построение доверительных интервалов для прогнозируемых значений.
 - Модель SARIMA (сезонная ARIMA).
 - Множественная сезонность, мульти STL декомпозиция в пакете R.
 - Не постоянство дисперсии. ARCH и GARCH модели.
 
 
Литература
- Пытьев Ю.П., Шишмарев И.А. Теория вероятностей, математическая статистика и элементы теории возможностей для физиков, 2010
 - Лагутин М.Б. Наглядная математическая статистика, 2007
 - Кобзарь А.И. Прикладная математическая статистика, 2006
 - Холлендер М., Вульф Д.А. Непараметрические методы статистики, 1983
 - Орлов А.И. Прикладная статистика, 2004
 - Шеффе Г. Дисперсионный анализ, 1980
 - Frank E. Harrell, Jr Regression Modeling Strategies 2th edition, 2015
 - Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining. Introduction to Linear Regression Analysis, 6th Edition, 2021
 - Frost J. Regression Analysis: An Intuitive Guide for Using and Interpreting Linear Models, 2019
 - Дрейпер Норман, Смит Гарри Прикладной регрессионный анализ, 3-е издание, 1998
 - Chatfield, C. (1996). The Analysis of Time Series: An Introduction, Sixth Edition (5th ed.)
 - Hamilton James D. Time series analysis, 1994
 - Andrew V. Metcalfe , Paul S.P. Cowpertwait. Introductory Time Series with R, 2009
 - Peter J. Brockwell , Richard A. Davis. Introduction to Time Series and Forecasting, 3th Ediction, 2016
 - Wilfredo Palma. Time Series Analysis, 2016
 - Douglas C. Montgomery, Cheryl L. Jennings, Murat Kulahci Introduction to Time Series Analysis and Forecasting, 2nd Edition, 2015
 - Aileen Nielsen. Practical Time Series Analysis: Prediction with Statistics and Machine Learning, 2020
 
