Лекции по статистике на DS-потоке


Лекция 1 (02.09). О прикладном потоке. Обзор статистики на примере историй из Мурмурландии. Примеры: парадоксы в поиске, опрос по результатам выборов. 1. Введение в статистику. 1.1 Основная задача математической статистики. 1.2 Вероятностно-статистическая модель. 1.3 Виды подходов к статистике (параметрический и непараметрический, частотный и байесовский).
Презентация


Лекция 2 (09.09). 2. Точечные оценки параметров. 2.1 Статистики и оценки, примеры статистик. 2.2 Свойства оценок - несмещенность, состоятельность, сильная состоятельность, асимптотическая нормальность. Практический смысл свойств. Примеры. 2.3 Наследование свойств. Теорема о наследовании сходимостей, пример. Лемма Слуцкого, теорема о производной, пример.


Лекция 3 (16.09). Дельта-метод, пример. Доказательства теорем п. 2.3 (теорема о наследовании сходимостей, лемма Слуцкого). 2.4 Методы нахождения оценок - метод моментов, метод максимального правдоподобия, примеры. Свойства методов.
Условия регулярности


Лекция 4 (23.09). Задача про гамма-излучение. Метод выборочных квантилей, асимптотическая нормальность выборочной квантили. 2.5 Достаточные статистики, критерий факторизации Неймана-Фишера.
Распределения выборочных средних: ipynb, pdf


Лекция 5 (30.09). 2.6 Экспоненциальный класс распределений, естественная параметризация. Достаточные статистики для семейства из экспоненциального класса, существование достаточности статистики фиксированной размерности, их математическое ожидание и дисперсия. Существование и единственность ОМП для семейства из экспоненциального класса. Выполнимость условий регулярности. 2.7 Сравнение оценок. Функция потерь и функция риска, MSE и MAE, примеры. Подходы к сравнению оценок: равномерный, байесовский, минимаксный, асимптотический. Bias-variance разложение. Асимптотическая эффективность.


Лекция 6 (07.10). 2.8 Метод Ньютона и его применение для решения уравнения правдоподобия. Одношаговые оценки и их эквивалентность ОМП. Одношаговая оценка для модели Коши со сдвигом. 2.9 Робастность, асимптотическая толерантность. Робастные оценки: усеченное среднее и медиана средних Уолша, их асимптотическая толерантность и асимптотическая эффективность по отношению к выборочному среднему на всем классе гладких симметричных распредедений и в частных случаях. 3.1 Доверительные интервалы и доверительные области.


Лекция 7 (14.10). Метод центральной функции, пример. Асимптотические доверительные интервалы, метод построения, пример. 3.2 Точные доверительные интервалы для параметров в нормальной модели (4 вида). Распределения хи-квадрат и Стьюдента, их свойства. Теорема о разложении гауссовского вектора, следствие для выборочного среднего и выборочной дисперсии в нормальной модели.
Презентация


Лекция 8 (21.10). 3.3 Байесовский подход к статистике: напоминание теоремы Байеса в частном и общем случаях, математическая модель, виды байесовских оценок, наилучшие оценки в байесовском подходе, сравнение с частотным подходом. 3.4 Недостатки байесовского подхода, сопряженные распределения, пример. 4.1 Непараметрический подход. Эмпирическое распределение, его свойства. Эмпирическая функция распределения, теорема Гливенко-Кантелли, ее обощения, условие Вапника-Червоненкиса. Теорема Колмогорова-Смирнова. 4.2 Метод подстановки, примеры.


Лекция 9 (28.10). 4.3 Метод бутстрепа. Пример про дисперсию оценки коэффициента асимметрии. Описание метода бутстрепа, пример про оценку дисперсии статистики. Бутстрепные доверительные интервалы. 4.4 Ядерные оценки плотности, виды ядер, связь с эмпирической функцией распределения, сходимость оценки плотности. Оптимальная ширина ядра и оптимальное ядро, подбор оптимальной ширины ядра по выборке. 5.1 Проверка статистических гипотез: гипотезы и критерии, варианты ответов, связь с презумпцией невиновности.
Презентация
Гипотезы и критерии
Звериный бутстреп: ipynb, pdf


Лекция 10 (6.11). Ошибки I и II рода, уровень значимости критерия, мощность критерия, пример. 5.2 Критерий Вальда, его разновидности и особенности, функция мощности, пример. 5.3 Критерии, основанные на отношении правдоподобия. Асимптотический критерий (с предельным распределением хи-квадрат). Лемма Неймана-Пирсона для построения наиболее мощного критерия в случае простых гипотез. Равномерно наиболее мощные критерии, теорема о монотонном отношении правдоподобия, пример.
Гипотезы и критерии (продолжение)


Лекция 11 (11.11). 5.4 Пример проверки гипотез в задаче исследовании эффективности нового лекарства. p-value -- определение в частном и общем случаях. Распределение p-value при справедливости основной гипотезы. Что не является p-value, пример. 5.5 Поведение критического уровня критерия для разных размеров выборки, следствия. Практическая значимость результата, примеры. Определение необходимого размера выборки на этапе планирования эксперимента. 5.6 Множественная проверка гипотез, постановка задачи, пример. Контроль FWER.
Презентация


Лекция 12 (18.11). Контроль FWER, методы Бонферрони и Холма. Нисходящие и восходящие процедуры. Контроль FDR, методы Бенджамини-Хохберга и Бенджамини-Иекутиели.
Численный пример
6.1 Общие критерии согласия. Критерий Колмогорова, другие критерии, основанные на отличии от ЭФР. Графический способ проверки с помощью Q-Q plot. 6.2 Критерии проверки нормальности: Жарка-Бера, Шапиро-Уилка. 6.3 Критерий хи-квадрат, теорема Пирсона, пример. Обобщенный критерий хи-квадрат, пример.
Презентация
Критерии согласия в scipy.stats: ipynb, pdf


Лекция 13 (25.11). Линейная регрессия. 7.1 Постановка задачи линейной регрессии, примеры зависимостей, случай категориальных переменных. 7.2 Метод наименьших квадратов. Оценка вектора параметров и ее свойства. Геометрический смысл метода. Несмещенная оценка дисперсии ошибки в методе наименьших квадратов. 7.3 Гауссовская линейная модель. Следствие из теоремы об ортогональном разложении гауссовского вектора для метода наименьших квадратов. Доверительный интервал для дисперсии ошибки. Доверительный интервал для коэффициента, критерий для проверки гипотезы о незначимости признака. Доверительная область для вектора коэффициентов. F-критерий для проверки линейных гипотез.
Презентация


Лекция 14 (02.12). 8.1 Вклад, информация Фишера, их свойства. Энтропия, кросс-энтропия, дивергенция Кульбака-Лейблера. Пояснение на примере теории кодирования. Свойства энтропии и дивергенции, связь с ОМП. 8.2 Экстремальное свойство правдоподобия. Состоятельность ОМП. Асимптотическая нормальность и асимптотическая эффективность ОМП.
Пояснения к информации Фишера
Теория кодирования


Лекция 15 (09.12). 8.4 Оптимальные оценки, связь с эффективными оценками, напоминание достаточных статистик. Теорема Колмогорова-Блекуэлла-Рао, следствия. Полные статистики, теорема об оптимальной оценке, метод поиска оптимальных оценок. Полные и достаточные статистики в экспоненциальном семействе распределений. Достаточные статистики в гауссовской линейной модели. Оптимальные оценки параметров в гауссовской линейной модели. 8.5 Эквивариантные оценки параметров сдвига и масштаба, оценка Питмена.
Презентация
Доказательства теорем: теорема Гливенко-Кантелли, лемма Неймана-Пирсона и несмещенность критерия, теорема Пирсона для критерия хи-квадрат.


Форма обратной связи