Phystech@DataScience, 2024


Лекторы: Алиса Воронова, Тимофей Жданович, Артём Логинов, Екатерина Латыпова
Время: суббота 17:05-20:00. Аудитория поточная Цифра.
Лекция 1 (03.02.24). Организационные вопросы. Что такое анализ данных. Обзор задач анализа данных на примере историй из Мурмурландии. Повторение теории вероятностей. Обзор инструментов анализа данных: Jupyter, Numpy, Matplotlib.
Организационные моменты
Пример задачи (kNN)
Распределения
Правила оформления

Лекция 2 (10.02.24). Повторение Python. Обзор библиотек: numpy, matplotlib, pandas, scipy.

Лекция 3 (17.02.24). Задача регрессии. Линейная регрессия, метод наименьших квадратов. Работа с категориальными признаками. Знакомство с библиотекой sklearn. Метрики качества регрессионных моделей.
Линейная регрессия

Лекция 4 (24.02.24). Регуляризация модели: Ridge, Lasso, ElasticNet. Задача классификации. Бинарная классификация, логистическая регрессия. Метрики качества классификации. Градиентный спуск, стохастический градиентный спуск.
Логистическа регрессия

Лекция 5 (02.03.24). Введение в нейронные сети. Построение моделей в стиле Sequential.
Нейронные сети

Лекция 6 (09.03.24). Основная задача математической статистики. Выборочное среднее, выборочная дисперсия. Свойства оценок. Построение АДИ в простых случаях.

Лекция 7 (16.03.24). Общий алгоритм построения АДИ. Бутстреп.
Бутстреп

Лекция 8 (23.03.24). Точный ДИ. Распределение хи-квадрат, его свойства, интервал для сигма. Распределение Стьюдента и его свойства. Функция правдоподобия, ОМП.
Распределение хи-квадрат

Лекция 9 (30.03.24). Проверка статистических гипотез. Критерий для проверки гипотез, уровень значимости критерия, мощность критерия, виды альтернатив. Критерий Вальда. Реальный уровень значимости, p-value.

Лекция 10 (6.04.24). Множественная проверка гипотез. Дисперсионный анализ. Независимые и связные выборки. Повторение гипотез и критериев. AB-тест на проверку эффективности лекарства. Класс критериев t-test. Абсолютный и относительный t-test. Валидация критериев, АА-тест.
Дисперсионный анализ

Лекция 11 (13.04.24). Решающие деревья, алгоритм построенеия дерева, критерий останова, плюсы и минусы деревьев. Ансамбли моделей, случайный лес. Многоклассовая классификация.
Лекция 12 (20.04.24). Временные ряды. Прогнозирование временного ряда, сведение к задачи регрессии. Прямая и рекурсивная стратегии. Оценка качества моделей. Кросс-валидация для временных рядов.
Презентация
Прогнозирование временных рядов

Лекция 13 (27.04.24). Кросс-валидация. Обработка выбросов и пропусков в данных.
Презентация
Ноутбук по валидации

Домашние задания

Дедлайны по домашним заданиям указаны в боте.

Задание 1.

Задание 3.
Датасет 'penguins'.
Датасет дифф. экспрессии.

Задание 4.
Данные.

Задание 5.
Данные (задача 1).
Данные (задача 2, био).

Задание 6.

Задание 7.
airquality

Задание 8.

Задание 9.

Задание 10.

Задание 11.

Задание 12.
Данные (физика).

Задание 13.
Статья (физика).
Статья (биология).
Данные (биология).
Данные для профиля "физика" - в чате курса.

Дополнительные материалы

Всех материалов с занятий будет хватать для выполнения почти всех домашних заданий. В случае, если есть желание углубиться в тему глубже, рекомендуем материалы из списка ниже.

Анонимные отзывы