Основы статистического анализа в пакете STATISTICA
Спецкурс посвящён изучению основных методов математической теории распознавания, классификации и идентификации. Эта теория, включая её применение к разнообразным прикладным задачам, является одной из наиболее активно развивающихся областей математики и математической кибернетики. Концепция теории распознавания лежит в основе современных информационных систем, реализованных путём применения новейших компьютерных технологий. Интерес к проблеме распознавания продолжает быстро расти из-за расширяющегося круга задач в областях техники, вычислительной математики и кибернетики, теории информации, физики, химии, лингвистики, биологии, медицины.
Проблемы распознавания трактуются в тесной связи с проблемами анализа данных и обработки информации, теория распознавания выступает как самостоятельное направление со своими задачами, аппаратом и методологией. При изложении материала основное внимание уделяется получению фундаментальных результатов применения математических методов распознавания образов: детерминистских, статистических, алгебраических и логических. В каждом разделе рассмотрены соответствующие алгоритмы классификации, реализующие правила принятия решений в рамках изучаемых методов распознавания.
Особенностью данного спецкурса является изучение теоретико-возможностных методов распознавания образов, являющихся наиболее эффективными при идентификации объектов, характеризующихся нечёткостью и неопределённостью их описания, связанных со случайностью и неточностью данных, их неполнотой и недостоверностью, а также изменчивостью во времени.
Программа
- Понятие решающей функции. Линейные решающие функции. Три случая классификации. Обобщённые решающие функции. Квадратичная решающая функция.
- Пространство образов и пространство весов. Многогранный конус как область решения для весового вектора. Геометрические свойства гиперплоскостей. Дихотомия образов. Дихотомизационная мощность.
- Классификация образов с помощью функции правдоподобия. Байесовское решающее правило. Отношение правдоподобия. Случай двоичных потерь.
- Байесовское решающее правило в случае нормально распределённых образов. Квадратичная решающая функция. Линейная решающая функция. Распределение вероятности ошибок. Расстояние Махаланобиса.
- Использование энтропии для оценки плотности распределения. Рекуррентное соотношение для оценки математического ожидания и ковариационной матрицы. Аппроксимация плотностей распределения функциями. Минимизация среднеквадратичной ошибки. «Подгонка» плотности распределения в пакете «STATISTICA».
- Классификация образов с помощью функций расстояния. Алгоритмы выявления кластеров.
- Алгоритм перцептрона. Метод градиентного спуска. Функции критерия. Алгоритм, основанный на минимизации с.к. ошибки. Критерий разделимости классов.
- Нейронные сети. Сети обратного распространения. Сети встречного распространения. Метод потенциальных функций. Кумулятивный потенциал. Выбор потенциальных функций.
- Внутримножественное расстояние. Преобразование кластеризации и упорядочение признаков. Ортонормированное преобразование. Аппроксимация выборки нормальным распределением. Сравнительный анализ решающих правил.
- Выбор признаков при помощи минимизации энтропии. Применение дискретного разложения Карунена-Лоэва при выборе признаков.
- Выбор признаков посредством аппроксимации функциями. Использование функции признаков при классификации.
- Концепция дивергенции. Выбор признаков на основе максимизации дивергенции.
- Дискриминантный анализ.
- Логические решающие функции. Алгоритмы поиска логических закономерностей. Параметрический алгоритм обучения типа «Кора». Представительные наборы признаков. Байесовское решающее правило.
- Теоретико-возможностные методы распознавания образов. Критерий минимума возможности потерь. Правило решения, минимизирующее возможность потерь. Сравнительный анализ статистических и нечётких оптимальных решений.
Литература
- Ту Дж., Гонсалес Р. Принципы распознавания образов. — М.: Мир, 1978, 411 с.
- Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. — М,: Наука, 1974.
- Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. — М.: Финансы и статистика, 1989, 607 с.
- Каримов Р.Н. Обработка экспериментальной информации. Уч. Пособие. Ч. 3. Многомерный анализ. СГТУ, Саратов, 2000, 108 с.
- Ким Дж, Мьюллер Ч.У. и др. Факторный, дискриминантный и кластерный анализ. Пер. с англ. — М.: Финансы и статистика, 1989, 215 с.
- Лбов Г.С. Методы обработки разнотипных экспериментальных данных. — Новосибирск: Наука, 1981.
- Пытьев Ю.П. Возможность как альтернатива вероятности. — М.: Физматлит, 2007.
- Боровиков В. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов. — СПб.: Питер, 2003. — 688 с.