Физтех.Статистика
Скачать ipynb
Phystech@DataScience¶
Домашнее задание 10¶
Правила, прочитайте внимательно:
- Выполненную работу нужно отправить телеграм-боту
@miptstats_pds_bot
. Для начала работы с ботом каждый раз отправляйте/start
. Работы, присланные иным способом, не принимаются. - Дедлайн см. в боте. После дедлайна работы не принимаются кроме случаев наличия уважительной причины.
- Прислать нужно ноутбук в формате
ipynb
. - Выполнять задание необходимо полностью самостоятельно. При обнаружении списывания все участники списывания будут сдавать устный зачет.
- Решения, размещенные на каких-либо интернет-ресурсах, не принимаются. Кроме того, публикация решения в открытом доступе может быть приравнена к предоставлении возможности списать.
- Для выполнения задания используйте этот ноутбук в качестве основы, ничего не удаляя из него. Можно добавлять необходимое количество ячеек.
- Комментарии к решению пишите в markdown-ячейках.
- Выполнение задания (ход решения, выводы и пр.) должно быть осуществлено на русском языке.
- Если код будет не понятен проверяющему, оценка может быть снижена.
- Никакой код из данного задания при проверке запускаться не будет. Если код студента не выполнен, недописан и т.д., то он не оценивается.
- Код из рассказанных на занятиях ноутбуков можно использовать без ограничений.
Правила оформления теоретических задач:
- Решения необходимо прислать одним из следующих способов:
- фотографией в правильной ориентации, где все четко видно, а почерк разборчив,
- отправив ее как файл боту вместе с ноутбуком или
- вставив ее в ноутбук посредством
Edit -> Insert Image
(фото, вставленные ссылкой, не принимаются);
- в виде $\LaTeX$ в markdown-ячейках.
- фотографией в правильной ориентации, где все четко видно, а почерк разборчив,
- Решения не проверяются, если какое-то требование не выполнено. Особенно внимательно все проверьте в случае выбора второго пункта (вставки фото в ноутбук). Неправильно вставленные фотографии могут не передаться при отправке. Для проверки попробуйте переместить
ipynb
в другую папку и открыть его там. - В решениях поясняйте, чем вы пользуетесь, хотя бы кратко. Например, если пользуетесь независимостью, то достаточно подписи вида "X и Y незав."
- Решение, в котором есть только ответ, и отсутствуют вычисления, оценивается в 0 баллов.
Баллы за задание:
Легкая часть (достаточно на "хор"):
- Задача 1 — 15 баллов
- Задача 2 — 20 баллов
- Задача 3 — 20 баллов
- Задача 4 — 30 баллов
Сложная часть (необходимо на "отл"):
- Задача 5 — 30 баллов
- Задача 6 — 35 баллов
# Bot check
# HW_ID: phds_hw10
# Бот проверит этот ID и предупредит, если случайно сдать что-то не то.
# Status: not final
# Перед отправкой в финальном решении удали "not" в строчке выше.
# Так бот проверит, что ты отправляешь финальную версию, а не промежуточную.
# Никакие значения в этой ячейке не влияют на факт сдачи работы.
import pandas as pd
import scipy.stats as sps
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from tqdm import tqdm
Легкая часть¶
Задача 1¶
Проверьте, отличается ли средний балл студентов курса Phystech@DataScience за легкую часть задания 3 и 6 весной 2024.
Данные возьмите из таблицы оценок. Не забудьте визуализировать данные с помощью ядерной оценки плотности (вам поможет функция sns.kdeplot
) и оценить сдвиг.
<...>
Сделайте общий вывод по задаче.
Вывод:
Задача 2¶
Рассмотрите таблицу с оценками по какому-либо курсу с несколькими семинарскими группами. Выберите свою группу и еще какую-нибудь. Проверьте гипотезу о том, что средний балл не отличается между семинарскими группами. Не забывайте про визуализацию.
Сделайте выводы.
<...>
Вывод:
Задача 3¶
Предположим, что вы разработали лекарство от коронавируса. Перед применением оно обязательно должно пройти клинические испытания. Для начала было разрешено проверить лекарство на двух независимых группах по 10 человек. Одна группа принимает плацебо, другая — ваш препарат. Большее количество пациентов на первом этапе брать не разрешают — слишком велики риски отрицательного результата.
Для каждого пациента измерялось количество дней от приема препарата до выздоровления. Получились следуюшие результаты:
x = [6, 16, 8, 13, 9, 4, 7, 10, 3, 14] # плацебо
y = [5, 10, 3, 1, 5, 3, 19, 2, 2, 5] # лекарство
Что вы можете сказать на основе этих результатов?
- Лекарство эффективнее, подтверждается статистическими методами;
- Наверное, лекарство эффективнее, но статистическими методами это пока не подтверждено, нужно продолжить эксперимент. Подумайте, как обосновать необходимость продолжение эксперимента;
- По результатам эксперимента нельзя сделать какой-либо вывод. Стоит ли продолжать эксперименты? Если да, то четко это обоснуйте;
- Лекарство неэффективно, нужно немедленно прекращать эксперимент.
Задача 4¶
Пусть $X=(X_1, \dots, X_n)$, $Y=(Y_1, \dots, Y_m)$ - независимые выборки из нормального распределения.
$X_1, ..., X_n \sim \mathcal{N}(a_1, \sigma_1^2)$,
$Y_1, ..., Y_m \sim \mathcal{N}(a_2, \sigma_2^2)$.
C помощью t-test проверяется пара гипотез
$$\mathsf{H}_0\colon EX_1 = 0 \text{ vs } \mathsf{H}_1\colon EX_1 < 0$$
$$\mathsf{H}_0\colon EY_1 = 0 \text{ vs } \mathsf{H}_1\colon EY_1 > 0$$
Оцените реальный уровень значимости процедуры, если обе гипотезы проверяются на уровне $\alpha=0.05$. Совпадает ли он с $\alpha$? Предложите способ сделать так, чтобы он был равен $\alpha$.
Профиль биология¶
Скачаем данные об экспрессии генов различных белков в головном мозге белых мышей.
В этом датасете представлены уровни экспрессии 77 белков, измеренные в коре головного мозга 8 классов мышей, некоторые из которых страдают синдромом Дауна, а некоторые были подвержены контекстному обусловливанию страха, задачи, используемой для оценки ассоциативного обучения.
Данные содержат информацию о 38 контрольных мышей и 34 трисомных мышей (синдром Дауна), то есть всего 72 мышки. Проведено 15 измерений каждого белка для каждой мышки, то есть каждой мыши соответствует несколько записей в таблице.
Загрузим данные и посмотрим на начало таблицы. Всего мы имеем 82 колонки, в большинстве их которых содержатся вещественные данные (уровни экспрессии 77 белков). Остальные колонки содержат категориальные данные (с небольшим числом значений).
path = <...>
data = pd.read_csv(path)
data.head()
Выведем описательные статистики по вещественным параметрам.
data.describe()
Количество записей по генотипам:
data.Genotype.value_counts()
В начале исследования полезно посмотреть на данные визуально. Посмотрим на зависимость уровней экспрессии разных белков друг от друга. Визуализируйте данные в первых десяти колонках в двумерных проекциях, используя sns.pairplot
.
<...>
Визуализируйте двумерные проекции данных и гистограммы с использованием sns.PairGrid
отдельно по генотипам для 10 признаков. Используйте hue='Genotype'
при вызове sns.PairGrid
. По параметру hue
происходит разделение датасета, подробнее можно почитать в документации.
<...>
1. Зависимость распределения DYRK1A_N от генотипа¶
Проверьте гипотезу о равенстве средних с использованием критерия Стьюдента. В реальных исследованиях нужно использовать конкретную альтернативу.
Сделайте выводы.
<...>
Вывод
Посчитайте реализацию доверительного интервала величины сдвига.
<...>
2. Зависимость распределения BDNF_N от генотипа¶
Проверьте гипотезу о равенстве средних с использованием критерия Стьюдента при различных альтернативах, посчитайте оценку сдвига и доверительный интервал. Сделайте выводы.
<...>
Вывод: <...>
Как связаны доверительные интервалы с проверкой гипотез? Подтверждается ли это в данном примере?
Ответ:<...>
Профиль физика¶
Скачайте данные моделирования неупругого рассеяния протонов и электронов. В датасете представлены 4 разных вида частиц (частицы одного вида имеют одинаковый id).
path = <...>
data = pd.read_csv(path)
data['id'].unique()
Постройте гистограммы признаков для каждого вида частиц.
<...>
Для каждой частицы посчитайте среднее значение для каждой колонки с помощью data.groupby
<...>
Для частиц и признаков с похожими средними значениями с помощью критерия Стьюдента проверьте гипотезу о равенстве средних. Не забудьте о МПГ.
Также посчитайте реализацию доверительного интервала величины сдвига. Как связаны доверительные интервалы с проверкой гипотез? Вам могут помочь прошлые лекции. Подтверждается ли это в данном примере?
<...>
Ответ: <...>
Сделайте вывод, по каким измерениям частицы тяжелее/проще всего различить.
Вывод: <...>
Студенты профиля химия могут решать любую из задач.
Задача 6¶
Это задание является продолжением задачи 5 из прошлого домашнего задания. Здесь вам необходимо наглядно сравнить два критерия из предыдущей задачи. Для этого прооделайте все пункты для обоих критериев. Обязательно подписывайте какой график к какому критерию относится.
1. Оцените реальный уровень значимости критерия для размеров выборки $1 \leqslant n \leqslant 50$ и визуализируйте полученную зависимость.
...
Вывод:...
2. Для значений $n \in \{5, 15, 30, 50, 100\}$ оцените функцию мощности критерия для значений $\theta \in (0, 5)$ по сетке с шагом 0.25 по методу Монте-Карло. Визуализируйте полученные зависимости. Посчитайте также мощность критерия по асимптотической формуле, полученной на лекции, и сравните с оценкой мощности методом Монте-Карло. Учтите, что асимптотическая формула содержит $n$, поэтому для нее тоже должно быть три зависимости.
...
Вывод:...
3. Пусть $n=50$. Сравните мощности критериев, соответствующих двусторонней, левосторонней и правосторонней альтернативам при $\theta \in (0, 5)$ по сетке с шагом 0.25.
...
Вывод:...
Сделайте общий вывод по сравнению двух критериев.
Вывод: