import numpy as np
import pandas as pd
from collections import Counter
import os

import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="whitegrid", font_scale=1.3, palette="Set2")

import warnings

warnings.simplefilter("ignore")

from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB, BernoulliNB

from scipy.stats import ttest_rel

from datasets import Dataset
import torch
from torch.utils.data import DataLoader
from transformers import (
    DistilBertTokenizer,
    DistilBertForSequenceClassification,
)
from transformers import DataCollatorWithPadding, TrainingArguments, Trainer
import wandb

iris = load_iris()
X = iris.data
y = iris.target

X[:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

np.unique(y)

array([0, 1, 2])

iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

plt.figure(figsize=(8, 5))
plt.scatter(X[:, 1], X[:, 3], c=y, cmap="Set1")
plt.xlabel(iris.feature_names[1])
plt.ylabel(iris.feature_names[3]);

feature_indexes = np.array([1, 3])
X = X[:, feature_indexes]

model = LinearDiscriminantAnalysis()
model.fit(X, y)

LinearDiscriminantAnalysis()

(model.predict(X) != y).sum()

5

grid = np.mgrid[1:5:0.01, -1:3.5:0.01]
grid.shape

(2, 400, 450)

_, h, w = grid.shape
grid_labels = model.predict(grid.reshape((2, h * w)).T).reshape(h, w)

plt.figure(figsize=(10, 6))
plt.pcolormesh(
    grid[0], grid[1], grid_labels, shading="gouraud", cmap="Set1", alpha=0.2
)
plt.scatter(X[:, 0], X[:, 1], c=y, cmap="Set1", edgecolors="black")
plt.title("Классификация линейным дискриминантным анализом")
plt.xlabel(iris.feature_names[feature_indexes[0]])
plt.ylabel(iris.feature_names[feature_indexes[1]]);

grid_labels = model.predict_proba(grid.reshape((2, h * w)).T).reshape(h, w, 3)

plt.figure(figsize=(15, 5))
for i in range(3):
    plt.subplot(1, 3, i + 1)

    plt.pcolormesh(
        grid[0],
        grid[1],
        grid_labels[:, :, i],
        shading="gouraud",
        cmap="Greens",
        alpha=0.1,
    )
    plt.scatter(X[:, 0], X[:, 1], c=y, cmap="Set1", edgecolors="black")
    plt.title(f"Вероятность класса {iris.target_names[i]}")
    plt.xlabel(iris.feature_names[feature_indexes[0]])
    plt.ylabel(iris.feature_names[feature_indexes[1]])

plt.tight_layout()

grid_labels = model.predict_log_proba(grid.reshape((2, h * w)).T).reshape(
    h, w, 3
)

plt.figure(figsize=(15, 5))
for i in range(3):
    plt.subplot(1, 3, i + 1)

    plt.pcolormesh(
        grid[0],
        grid[1],
        grid_labels[:, :, i],
        shading="gouraud",
        cmap="Greens",
        alpha=0.1,
    )
    plt.scatter(X[:, 0], X[:, 1], c=y, cmap="Set1", edgecolors="black")
    plt.title(f"Логарифм вер-ти класса {iris.target_names[i]}")
    plt.xlabel(iris.feature_names[feature_indexes[0]])
    plt.ylabel(iris.feature_names[feature_indexes[1]])

plt.tight_layout()

model = QuadraticDiscriminantAnalysis()
model.fit(X, y)
(model.predict(X) != y).sum()

7

grid = np.mgrid[-1:7:0.01, -3:5.5:0.01]
_, h, w = grid.shape
grid_labels = model.predict(grid.reshape((2, h * w)).T).reshape(h, w)

plt.figure(figsize=(10, 6))
plt.pcolormesh(
    grid[0], grid[1], grid_labels, shading="gouraud", cmap="Set1", alpha=0.2
)
plt.scatter(X[:, 0], X[:, 1], c=y, cmap="Set1", edgecolors="black")
plt.title("Классификация квадратичным дискриминантным анализом")
plt.xlabel(iris.feature_names[feature_indexes[0]])
plt.ylabel(iris.feature_names[feature_indexes[1]]);

grid_labels = model.predict_proba(grid.reshape((2, h * w)).T).reshape(h, w, 3)

plt.figure(figsize=(15, 5))
for i in range(3):
    plt.subplot(1, 3, i + 1)

    plt.pcolormesh(
        grid[0],
        grid[1],
        grid_labels[:, :, i],
        shading="gouraud",
        cmap="Greens",
        alpha=0.1,
    )
    plt.scatter(X[:, 0], X[:, 1], c=y, cmap="Set1", edgecolors="black")
    plt.title(f"Вероятность класса {iris.target_names[i]}")
    plt.xlabel(iris.feature_names[feature_indexes[0]])
    plt.ylabel(iris.feature_names[feature_indexes[1]])

plt.tight_layout()

data = pd.read_csv("./SMSSpamCollection", sep="\t", header=None)
data.columns = ["label", "sms"]
data.head()

data["sms"][0]

'Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...'

data["sms"][2]

"Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's"

data_train, data_test = train_test_split(data, test_size=0.2, random_state=21)

counts = pd.value_counts(data_train["label"], sort=True)
counts

label
ham     3865
spam     592
Name: count, dtype: int64

counts.plot(kind="bar");

# метки сетки по оси икс
labels = [1e-3, 2e-3, 5e-3, 1e-2, 2e-2, 5e-2]

plt.figure(figsize=(16, 18))

# для каждого класса
for i, label in enumerate(["ham", "spam"]):
    # извлечем все сообщения и склеим их
    all_words = (
        " ".join(
            data_train[data_train["label"] == label]["sms"]
            # приведем к нижнему регистру, удалим точки, разделим на слова
        )
        .lower()
        .replace(".", "")
        .split()
    )
    # общее количество слов в этом классе
    words_count = len(all_words)

    # посчитаем встречаемость каждого слова и вернем топ-70
    counts = Counter(all_words).most_common(70)
    counts = pd.DataFrame(counts, columns=["word", "count"])

    plt.subplot(1, 2, i + 1)
    sns.barplot(y=counts["word"], x=counts["count"] / words_count)
    plt.xscale("log")
    plt.xlabel("Частота слов")
    plt.xticks(labels, labels)

plt.tight_layout()

plt.figure(figsize=(8, 4))
sns.histplot(
    x=data_train["sms"].apply(len),
    hue=data_train["label"],
    stat="density",
    kde=True,
    common_norm=False,
    kde_kws=dict(gridsize=1000),
)
plt.xlim((0, 250))
plt.xlabel("Длина сообщения");

data_train["label"] = (data_train["label"] == "spam").astype(int)
data_train.head()

vectorizer = CountVectorizer(min_df=0.01, max_df=0.05)
vec_data_train = vectorizer.fit_transform(data_train["sms"]).toarray()

print(len(vectorizer.get_feature_names()))
print(vectorizer.get_feature_names())

173
['150p', '16', '50', 'about', 'after', 'again', 'all', 'already', 'also', 'always', 'am', 'amp', 'an', 'any', 'anything', 'around', 'as', 'ask', 'babe', 'back', 'been', 'before', 'buy', 'by', 'cant', 'care', 'cash', 'claim', 'com', 'come', 'contact', 'cos', 'could', 'customer', 'da', 'day', 'dear', 'did', 'doing', 'don', 'dont', 'down', 'even', 'every', 'feel', 'find', 'first', 'free', 'give', 'go', 'going', 'good', 'got', 'great', 'gt', 'gud', 'had', 'happy', 'has', 'he', 'her', 'here', 'hey', 'hi', 'him', 'his', 'home', 'hope', 'im', 'its', 'keep', 'know', 'last', 'late', 'later', 'let', 'life', 'like', 'll', 'lol', 'lor', 'love', 'lt', 'make', 'many', 'meet', 'message', 'min', 'miss', 'mobile', 'more', 'morning', 'msg', 'much', 'need', 'new', 'next', 'nice', 'night', 'number', 'off', 'oh', 'ok', 'one', 'only', 'our', 'out', 'over', 'phone', 'pick', 'place', 'please', 'pls', 'prize', 're', 'really', 'reply', 'right', 'said', 'say', 'see', 'send', 'sent', 'she', 'should', 'some', 'someone', 'something', 'sorry', 'still', 'stop', 'sure', 'take', 'tell', 'text', 'thanks', 'them', 'then', 'there', 'they', 'thing', 'think', 'time', 'today', 'tomorrow', 'tonight', 'too', 'try', 'txt', 'uk', 'urgent', 'us', 've', 'very', 'wait', 'want', 'was', 'wat', 'way', 'week', 'well', 'were', 'when', 'where', 'who', 'why', 'win', 'won', 'work', 'would', 'www', 'yeah', 'yes']

print(vec_data_train[:5])

[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
  0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0
  0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0]]

data_test["label"] = (data_test["label"] == "spam").astype(int)
vec_data_test = vectorizer.transform(data_test["sms"]).toarray()

vec_data_train

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 1, 0],
       [0, 0, 0, ..., 0, 1, 0],
       [0, 0, 0, ..., 0, 0, 0]])

multinomial_nb = MultinomialNB()
multinomial_nb.fit(vec_data_train, data_train.label)

MultinomialNB()

MultinomialNB()

multinomial_predictions = multinomial_nb.predict(vec_data_test)
print(
    f"Точность: {accuracy_score(data_test.label, multinomial_predictions) :.3}"
)

Точность: 0.974

X_train = (vec_data_train > 0).astype(int)
X_test = (vec_data_test > 0).astype(int)

bernoulli_nb = BernoulliNB()
bernoulli_nb.fit(X_train, data_train.label)
bernoulli_predictions = bernoulli_nb.predict(X_test)

print(f"Точность: {accuracy_score(data_test.label, bernoulli_predictions) :.3}")

Точность: 0.967

print(f"Точность: {accuracy_score(data_test.label, [0]*len(data_test)) :.3}")

Точность: 0.861

tokenizer = DistilBertTokenizer.from_pretrained(
    "distilbert-base-uncased-finetuned-sst-2-english"
)
model = DistilBertForSequenceClassification.from_pretrained(
    "distilbert-base-uncased-finetuned-sst-2-english"
)

train_dataset = Dataset.from_pandas(data_train, preserve_index=False)
train_dataset

Dataset({
    features: ['label', 'sms'],
    num_rows: 4457
})

train_dataset[0]

{'label': 0,
 'sms': 'Al he does is moan at me if n e thin goes wrong its my fault&al de arguments r my fault&fed up of him of himso y bother? Hav 2go, thanx.xx'}

def preprocess_function(examples):
    return tokenizer(examples["sms"])


tokenized_train = train_dataset.map(preprocess_function, batched=True)
tokenized_train

Map:   0%|          | 0/4457 [00:00<?, ? examples/s]

Dataset({
    features: ['label', 'sms', 'input_ids', 'attention_mask'],
    num_rows: 4457
})

test_dataset = Dataset.from_pandas(data_test, preserve_index=False)
tokenized_test = test_dataset.map(preprocess_function, batched=True)
tokenized_test

Map:   0%|          | 0/1115 [00:00<?, ? examples/s]

Dataset({
    features: ['label', 'sms', 'input_ids', 'attention_mask'],
    num_rows: 1115
})

def compute_metrics(eval_pred):
    """
    Функция для вычисления метрик на валидации, подается в Trainer

    :param eval_pred: tuple из двух элементов: предсказания модели (логиты) и истинные метки

    :return: словарь со значением метрики accuracy
    """
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=1)
    return {"accuracy": accuracy_score(labels, predictions)}


# Задаем имя проекта в wandb
os.environ["WANDB_PROJECT"] = "Spam classification"

# Задаем основные параметры обучения
training_args = TrainingArguments(
    output_dir="spam_classifier",  # Директория для сохранения обученной модели
    learning_rate=2e-5,  # Темп обучения
    per_device_train_batch_size=16,  # Размер батча при обучении
    per_device_eval_batch_size=16,  # Размер батча при валидации
    max_steps=500,  # Количество шагов = батчей
    weight_decay=0.01,  # Степень регуляризации
    logging_strategy="steps",  # Логировать каждые logging_steps шагов
    logging_steps=50,
    evaluation_strategy="steps",  # Считать метрики на валидации каждые eval_steps шагов
    eval_steps=50,
    report_to="wandb",  # Логировать графики в wandb
)

trainer = Trainer(
    model=model,  # Модель для дообучения
    args=training_args,  # Параметры
    train_dataset=tokenized_train,  # Полученный ранее датасет для обучения
    eval_dataset=tokenized_test,  # Полученный ранее тестовый датасет
    tokenizer=tokenizer,  # Токенизатор
    # При построении батчей добавляет паддинги к последовательностям токенов,
    # чтобы их длина была одинаковой для всего батча
    data_collator=DataCollatorWithPadding(tokenizer=tokenizer),
    compute_metrics=compute_metrics,  # Созданная выше функция для вычисления метрик на валидации
)

trainer.train()

wandb: Currently logged in as: aleks311001. Use `wandb login --relogin` to force relogin

Checkpoint destination directory spam_classifier/checkpoint-500 already exists and is non-empty. Saving will proceed but saved results may be invalid.

TrainOutput(global_step=500, training_loss=0.08234859538078308, metrics={'train_runtime': 91.3384, 'train_samples_per_second': 87.586, 'train_steps_per_second': 5.474, 'total_flos': 129662297999304.0, 'train_loss': 0.08234859538078308, 'epoch': 1.79})

# Применяем модель к тестовому датасету, получаем логиты
bert_logits = trainer.predict(tokenized_test).predictions

# Для каждого элемента берем индекс максимального логита, это и есть наш класс
bert_predictions = np.argmax(bert_logits, axis=1)

# Проверяем точность
np.mean(data_test.label == bert_predictions)

0.9946188340807175

is_error_multinomial_nb = (data_test.label == multinomial_predictions).astype(
    np.int32
)
is_error_bert = (data_test.label == bert_predictions).astype(np.int32)

# Убедимся, что всё правильно посчитали и точность не изменилась
np.mean(is_error_multinomial_nb), np.mean(is_error_bert)

(0.9739910313901345, 0.9946188340807175)

ttest_rel(is_error_multinomial_nb, is_error_bert)

TtestResult(statistic=-4.463758730826827, pvalue=8.871553503645221e-06, df=1114)

	label	sms
1199	0	Al he does is moan at me if n e thin goes wron...
3777	0	Ok lor. Msg me b4 u call.
3599	0	Aight, we'll head out in a few
1859	0	Sir, i am waiting for your call.
3341	0	Like I made him throw up when we were smoking ...

Step	Training Loss	Validation Loss	Accuracy
50	0.465300	0.060249	0.981166
100	0.053500	0.037531	0.989238
150	0.070400	0.031749	0.991928
200	0.095200	0.026542	0.991928
250	0.029900	0.023062	0.993722
300	0.032900	0.023522	0.992825
350	0.026700	0.021454	0.993722
400	0.018700	0.020306	0.994619
450	0.023600	0.020214	0.995516
500	0.007300	0.020931	0.994619

Физтех.Статистика

Введение в анализ данных ¶

Байесовские классификаторы¶

1. Линейный и квадратичный дискриминантный анализ¶

1.1 Линейный дискриминантный анализ¶

1.2 Квадратичный дискриминантный анализ¶

2. Наивный байесовский классификатор для детекции спама¶

2.1 Чтение данных¶

2.2 Предобработка данных.¶

3. Нейросети для детекции спама¶

3.1 Выбор и загрузка модели¶

3.2 Подготовка данных¶

3.3 Дообучение модели¶

3.4 Сравнение с наивным байесовским классификатором¶

Контакты

	label	sms
0	ham	Go until jurong point, crazy.. Available only ...
1	ham	Ok lar... Joking wif u oni...
2	spam	Free entry in 2 a wkly comp to win FA Cup fina...
3	ham	U dun say so early hor... U c already then say...
4	ham	Nah I don't think he goes to usf, he lives aro...

Введение в анализ данных¶

Байесовские классификаторы¶

1. Линейный и квадратичный дискриминантный анализ¶

1.1 Линейный дискриминантный анализ¶

1.2 Квадратичный дискриминантный анализ¶

2. Наивный байесовский классификатор для детекции спама¶

2.1 Чтение данных¶

2.2 Предобработка данных.¶

3. Нейросети для детекции спама¶

3.1 Выбор и загрузка модели¶

3.2 Подготовка данных¶

3.3 Дообучение модели¶

3.4 Сравнение с наивным байесовским классификатором¶

Введение в анализ данных ¶