Физтех.Статистика
Введение в анализ данных, 2024
Лекторы: Никита Волков, Алексей Горбулев, Лидия Троешестова, Ксения Мелещеня
Время: суббота 17:05-20:00.
Начало 3 февраля. Курс проходит очно в поточной аудитории корпуса Арктика. Кафедра дискретной математики.
Организационная информация находится в презентации с первой лекции.
Лекции
Лекция 1 (3.02.24). О курсе, DS-поток. Что такое анализ данных. Обзор задач анализа данных на примере историй из Мурмурландии. Метод ближайшего соседа на примере решения задачи классификации на два класса. Примеры реальных задач: рекомендательная система, продуктовая аналитика, синтез речи.Презентация
Презентация по выполнению и оформлению домашних заданий
Анонс следующей лекции
Видео
Лекция 2 (10.02.24). Дополнительная необязательная онлайн лекция по библиотекам Питона. Относится к программе обязательной части курса. Ссылка для подключения будет разослана в телеграм-боте.
Все упражнения в материалах этой лекции не влияют на оценку, сдавать их не нужно.
Библиотеки:
Библиотека Numpy
Библиотека Black
Библиотека Matplotlib
Библиотека pandas — типы данных Series и DataFrame, запись и чтение файлов, работа с датами.
Библиотека seaborn.
Примеры на данных:
Примеры работы с pandas и seaborn на данных Титаника
Другие материалы при наличии времени:
Библиотека pandas — объединение таблиц, группировки, таблицы сопряженности и сводные таблицы.
Библиотека Plotly — построение интерактивных графиков.
Видео
Лекция 3 (17.02.24). Особенности работы с табличными данными. Модель линейной регрессии, метод наименьших квадратов, формула в общем случае. Градиентный спуск, его применение к методу наименьших квадратов, стохастический градиентный спуск.
Презентация по работе с данными
Презентация по модели линейной регрессии
Линейная регрессия с помощью sklearn
Пайплайн ML-моделей.
Видео
Лекция 4 (02.03.24). Нейрон. Связь нейрона с линейной регрессией. Полносвязный слой нейронной сети. Однослойные и двухслойные нейронные сети. Теорема Цыбенко. Обучение нейронных сетей. Примеры применения различных нейронных сетей.
Презентация
PyTorch и полносвязные нейронные сети
Применение различных нейросетевых моделей
Видео
Лекция 5 (09.03.24). Классификация изображений. Стандартное представление изображения. Свёртка, Pooling. Предсказание вероятности.
Презентация
Ноутбук
Перенос стиля. Генерация произвольных изображений. Upsampling. GAN. Диффузионные модели. Обзор задач в CV.
Презентация
Ноутбук
Видео
Лекция 6 (16.03.24). Введение в NLP. Кодирование текстов: Bag of Words, Word2Vec. Основные модели: 1D-свертка, RNN, Large Language Models (LLM). Примеры задач.
Презентация
Рекуррентные нейронные сети
Генерация текста с помощью модели LLAMA
Видео
Лекция 7 (30.03.24). Гостевая лекция от Яндекса. Видео
Лекция 8 (6.04.24). Задача кластеризации: постановка задачи, особенности, требования к форме кластеров, метрики качества. Метод кластеризации KMeans. Понижение размерности с помощью метода главных компонент (PCA), проклятие размерности.
Презентация
Понижение размерности
Кластеризация: простые примеры и текстовые ответы на вопросы в боте
Видео
Лекция 9 (13.04.24). Вероятностные распределения и их свойства с практической точки зрения, генерация случайных чисел. Свойство независимости на практике применительно к понятию выборки, пример выборки, не являющейся независимой. Примеры о способах усреднения данных, медиана, мода. Свойство отсутствия памяти. Пример исследования реальных данных, время ожидания автобуса по реальным данным.
Презентация
Важность оформления материалов: примеры
Работа со случайными величинами в Питоне
Что такое среднее и как с ним правильно работать
Парадокс времени ожидания на реальных данных
Закон больших чисел
Видео
Лекция 10 (20.04.24). Задача оценки параметра. Cильно состоятельные оценки, выборочное среднее и выборочная дисперсия. Идея статистического сравнения качества моделей. Байесовские классификаторы, наивный Байес.
Байесовские классификаторы с помощью sklearn и сравнение с нейросетями
Видео
Лекция 11 (27.04.24). Работа с API и парсинг данных из HTML
Видео
Домашние задания
Дедлайны по домашним заданиям указаны в боте.Задание 1. Условие
Задание 2. Условие, данные
Задание 3. Условие
Задание 4. Условие
Задание 5. Условие
Задание 6. Условие
Задание 7. Условие
Задание 8. Условие
Задание 9. Условие
Задание 10. Условие
Дополнительные материалы
Всех материалов с занятий будет хватать для выполнения почти всех домашних заданий. В случае, если есть желание углубиться в тему глубже, рекомендуем материалы из списка ниже.- Mathematics for Machine Learning
- Python Data Analysis: Comprehensive Guide to Data Science, Analytics and Metrics with Python (Alex Campbell)
- Python Foundation this book includes Python for beginners, Machine Learning, Python Data Science.
- Учебник по машинному обучению от ШАД
- Core Concepts in Data Analysis: Summarization, Correlation, Visualization (Boris Mirkin)
- An Introduction to Statistical Learning (James, Witten, Hastie, Tibshirani)