Прикладная статистика

Тип: 
по выбору
Часов: 
36
Семестр: 
IV-8

Аннотация

Курс "Прикладная статистика" посвящен изложению современных разделов математической статистики. Содержание курса включает в себя основы непараметрической статистики и проверки гипотез, основы корреляционного, дисперсионного и кластерного анализа, методов регрессии и анализа временных рядов. Содержание курса является базовым с точки зрения дальнейшего изучения и практического применения статистического анализа для решения содержательных прикладных задач, в том числе, задач анализа больших данных и современных методов машинного обучения.

Программа

  • Лекция 1. Непараметрическая статистика
    • Устойчивость статистических процедур/робастность.
    • Бутстреп (размножение выборок).
    • Статистика интервальных данных.
    • Статистика объектов нечисловой природы.
    • Компьютеры в прикладной статистике.
    • Основные нерешенные проблемы прикладной статистики.
  • Лекция 2. Проверка непараметрических гипотез.
    • Зависимые/независимые выборки.
    • Критерий знаков. Гипотеза об однородности, медиане, доле признака. Сравнение с Т-тестом.
    • Знако – ранговый критерий. Гипотеза об однородности двух выборок.
    • Критерий Манна – Уитни. Гипотеза об однородности двух независимых выборок.
    • Критерий Вилкоксона. Гипотеза об однородности двух независимых выборок.
    • Критерий серий. Проверка случайности выборки.
  • Лекция 3. Корреляционный анализ.
    • Парная корреляция, коэффициент корреляции.
    • Коэффициент корреляции Пирсона. Проверка гипотезы о корреляции. Таблицы сопряженности.
    • Коэффициенты корреляции для различных шкал.
    • Коэффициент корреляции Спирмена. Гипотеза о равенстве нулю коэффициента корреляции (проверка значимости).
    • Коэффициент корреляции Кендалла. Подсчет числа проверсий и инверсий.
    • Множественный корреляционный анализ. Частный и множественный коэффициенты корреляции. Корреляционная матрица. Множественный коэффициент корреляции. Коэффициент детерминации.
  • Лекции 4 и 5. Дисперсионный анализ.
    • Задачи дисперсионного анализа. Примеры.
    • Математическая модель однофакторного дисперсионного анализа.
    • Разложение полной вариативности результирующего признака в модели однофакторного дисперсионного анализа.
    • Оценка параметров уравнения.
    • Проверка статистических гипотез, связанных с моделью.
    • Сравнительный анализ влияния различных уровней фактора на исследуемый признак.
    • Линейные контрасты.
    • Критерий Краскела-Уоллиса. Гипотеза о равенстве медиан.
    • Критерий Левена. Критерий Бартлетта.
    • Пример решения задачи.
    • Общая схема проведения многофакторного дисперсионного анализа. Разложение полной вариации зависимой переменной на составляющие.
    • Проверка статистических гипотез, связанных с моделью двухфакторного дисперсионного анализа.
    • Эффект влияния фактора. Эффект влияния взаимодействия факторов. Относительная важность факторов. Множественные сравнения.
    • Дисперсионный анализ в ряду других методов прикладной статистики.
  • Лекция 6. Кластерный анализ.
    • Иерархический кластерный анализ. Методы для количественных данных. Постановка задачи.
    • Основные параметры кластеризации: метрика и способ агломерации.
    • Метрика и ее свойства.
    • Виды метрик для данных в количественной шкале. Евклидово, чебышевское, манхэттенское расстояние. Матрица расстояний.
    • Способы агломерации. Метод ближнего и дальнего соседа. Метод средней и центроидной связи. Метод Уорда.
    • Анализ результатов кластеризации: методы построение дендрограммы.
    • Методы выбора числа кластеров.
  • Лекция 7. Линейная регрессия.
    • Простая и множественная линейная регрессия. Метод наименьших квадратов. Несмещенная оценка минимальной дисперсии. Несмещенная оценка дисперсии ошибки измерения. Теорема Гаусса-Маркова. Доверительные интервалы для коэффициентов и дисперсии.
    • Тест общей значимости модели линейной регрессии. T-тесты для коэффициентов линейной регрессии. F –test на равенство нулю группы коэффициентов. Коэффициент детерминации R2, R2-adjusted, R2-predicted. PRESS статистика. Проблема переобучения.
    • Использование регрессионной модели для прогнозирования новых значений.
    • Доверительные интервалы для предсказанных значений.
  • Лекция 8. Проверка адекватности модели.
    • Проверка адекватности построенной модели. Анализ остатков. Графики остатков. Стандартизированные, стьюдентизированные остатки. Проверка на нормальность остатков. Квантиль-квантильные графики. Критерий Шапиро-Уилка. Тесты на отсутствие сериальной корреляции между остатками. Критерий Дарбина — Уотсона. Тесты на гетероскедастичность остатков.
    • Lack of fit тест.
  • Лекция 9. Подбор моделей линейной регрессии и анализ главных компонент.
    • Подбор модели линейной регрессии. Регрессия лучших подмножеств. Сравнение моделей. Критерий Акаике. Прямая, обратная, stepwise регрессия.
    • Проблема мультиколлинеарности. Обнаружение мультиколлинеарности. VIF коэффициенты. Методы регуляризации. Гребневая регрессия. Регрессия главных компонент.
  • Лекция 10. Выбросы и метод наименьших квадратов.
    • Выбросы, high leverage points. Детектирование выбросов. Расстояние Кука. DFFITS статистика. Робастная регрессия.
    • Гетероскедастичность (непостоянство дисперсии). Взвешенный метод наименьших квадратов. Обобщенный метод наименьших квадратов.
    • Категориальные предикторы.
    • Логистическая регрессия (бинарная).
  • Лекция 11. Анализ временных рядов.
    • Анализ временных рядов. Классическая декомпозиция. Понятие тренда и сезонности. Выделение тренда. Фильтр скользящего среднего. Экспоненциальное сглаживание. Выделение сезонности. Другие методы выделения тренда и сезонности – X11 декомпозиция, STL декомпозиция.
    • Метод дифференцирования для удаления тренда и сезонности из временного ряда (DS ряды).
    • Логарифмическое преобразование данных.
    • Тесты на белый шум. Критерий Портманто, критерий Люнга – Бокса, критерий знаков и т.д.
    • Понятие стационарного временного ряда (слабая стационарность). Теорема Уолда.
    • Автокорреляционная функция, частная автокорреляционная функция.
    • Критерии стационарности ряда. Тесты на единичный корень. KPSS тест, тест Дикки-Фуллера. Вариограмма.
  • Лекция 12. Скользящие средние, авторегрессионные модели и метод максимального правдоподобия.
    • Модель скользящего среднего (MA(q)), авторегрессионная модель p-го порядка (AR(p)). Модель ARMA(p,q). Модель ARIMA(p,d,q).
    • Метод максимального правдоподобия для подбора коэффициентов модели.
    • Сравнение моделей. Критерий акаике, байесовский информационный критерий.
    • Поточечное прогнозирование. Построение доверительных интервалов для прогнозируемых значений.
    • Модель SARIMA (сезонная ARIMA).
    • Множественная сезонность, мульти STL декомпозиция в пакете R.
    • Не постоянство дисперсии. ARCH и GARCH модели.

Литература

  1. Пытьев Ю.П., Шишмарев И.А. Теория вероятностей, математическая статистика и элементы теории возможностей для физиков, 2010
  2. Лагутин М.Б. Наглядная математическая статистика, 2007
  3. Кобзарь А.И. Прикладная математическая статистика, 2006
  4. Холлендер М., Вульф Д.А. Непараметрические методы статистики, 1983
  5. Орлов А.И. Прикладная статистика, 2004
  6. Шеффе Г. Дисперсионный анализ, 1980
  7. Frank E. Harrell, Jr Regression Modeling Strategies 2th edition, 2015
  8. Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining. Introduction to Linear Regression Analysis, 6th Edition, 2021
  9. Frost J. Regression Analysis: An Intuitive Guide for Using and Interpreting Linear Models, 2019
  10. Дрейпер Норман, Смит Гарри Прикладной регрессионный анализ, 3-е издание, 1998
  11. Chatfield, C. (1996). The Analysis of Time Series: An Introduction, Sixth Edition (5th ed.)
  12. Hamilton James D. Time series analysis, 1994
  13. Andrew V. Metcalfe , Paul S.P. Cowpertwait. Introductory Time Series with R, 2009
  14. Peter J. Brockwell , Richard A. Davis. Introduction to Time Series and Forecasting, 3th Ediction, 2016
  15. Wilfredo Palma. Time Series Analysis, 2016
  16. Douglas C. Montgomery, Cheryl L. Jennings, Murat Kulahci Introduction to Time Series Analysis and Forecasting, 2nd Edition, 2015
  17. Aileen Nielsen. Practical Time Series Analysis: Prediction with Statistics and Machine Learning, 2020