Анализ статистической значимости результатов A/B-тестов
Статистическая значимость — математическое подтверждение того, что разница в конверсии между вариантами не является случайной. Без правильного статистического анализа можно принять ложное решение на основе шума данных.
Ключевые концепции
P-value — вероятность наблюдать такой же или больший эффект при условии что нет реального различия (нулевая гипотеза верна). При p < 0.05 принято считать результат значимым.
Confidence Level — 1 - alpha. 95% confidence = готовы ошибиться в 5% случаев.
Statistical Power — вероятность обнаружить реальный эффект (обычно 80%).
MDE (Minimum Detectable Effect) — минимальный эффект, который тест способен обнаружить при заданном объёме.
Z-тест для пропорций
from scipy.stats import proportions_ztest, chi2_contingency
import numpy as np
def analyze_test(control_n, control_conv, variant_n, variant_conv, alpha=0.05):
cr_control = control_conv / control_n
cr_variant = variant_conv / variant_n
relative_lift = (cr_variant - cr_control) / cr_control * 100
# Z-тест (применим при n > 30)
counts = np.array([variant_conv, control_conv])
nobs = np.array([variant_n, control_n])
z_stat, p_value = proportions_ztest(counts, nobs, alternative='two-sided')
# Доверительный интервал для разницы
se = np.sqrt(
cr_control * (1 - cr_control) / control_n +
cr_variant * (1 - cr_variant) / variant_n
)
diff = cr_variant - cr_control
z_crit = 1.96 # для 95% CI
ci_low = diff - z_crit * se
ci_high = diff + z_crit * se
print(f"Control: {cr_control:.3%} ({control_conv}/{control_n})")
print(f"Variant: {cr_variant:.3%} ({variant_conv}/{variant_n})")
print(f"Lift: {relative_lift:+.1f}%")
print(f"95% CI: [{ci_low:.3%}, {ci_high:.3%}]")
print(f"P-value: {p_value:.4f}")
print(f"Significant: {'YES ✓' if p_value < alpha else 'NO ✗'}")
return p_value < alpha
analyze_test(
control_n=3842, control_conv=115,
variant_n=3891, variant_conv=148
)
Chi-square тест (альтернатива Z-тесту)
from scipy.stats import chi2_contingency
contingency = np.array([
[control_conv, control_n - control_conv], # Control: converts, not converts
[variant_conv, variant_n - variant_conv] # Variant: converts, not converts
])
chi2, p_value, dof, expected = chi2_contingency(contingency)
print(f"Chi2: {chi2:.4f}, p={p_value:.4f}")
Chi-square и Z-тест дают идентичные результаты для двух групп.
Ошибки при интерпретации
Peaking (Peeking problem) — остановить тест как только p < 0.05, не дожидаясь расчётного объёма. Инфлирует Type I error до 26% при alpha=0.05.
# Неправильно: проверять каждый день и останавливать при p < 0.05
# Правильно: рассчитать объём заранее, остановить только после его достижения
def required_sample_size(baseline_cr, mde, alpha=0.05, power=0.8):
from scipy import stats
import math
p1, p2 = baseline_cr, baseline_cr * (1 + mde)
p_avg = (p1 + p2) / 2
z_a = stats.norm.ppf(1 - alpha/2)
z_b = stats.norm.ppf(power)
n = ((z_a * math.sqrt(2 * p_avg * (1-p_avg)) +
z_b * math.sqrt(p1*(1-p1) + p2*(1-p2))) / (p2-p1)) ** 2
return math.ceil(n)
n = required_sample_size(baseline_cr=0.03, mde=0.15)
print(f"Run test until {n} users per variant reached")
Multiple comparisons — тестировать много вариантов и выбрать лучший без коррекции:
# Bonferroni correction для множественных сравнений
n_comparisons = 4 # 4 варианта vs контроль
corrected_alpha = 0.05 / n_comparisons # = 0.0125
# Или FDR (Benjamini-Hochberg)
from statsmodels.stats.multitest import multipletests
p_values = [0.03, 0.07, 0.01, 0.04]
reject, corrected_p, _, _ = multipletests(p_values, alpha=0.05, method='fdr_bh')
Bayesian A/B анализ
Альтернатива frequentist подходу — вероятность что вариант лучше:
import numpy as np
def bayesian_ab_test(control_conv, control_n, variant_conv, variant_n, samples=100000):
"""Posterior distribution через Beta distribution"""
# Prior: Beta(1,1) = равномерное распределение
control_posterior = np.random.beta(
control_conv + 1,
control_n - control_conv + 1,
samples
)
variant_posterior = np.random.beta(
variant_conv + 1,
variant_n - variant_conv + 1,
samples
)
prob_variant_better = (variant_posterior > control_posterior).mean()
expected_lift = (variant_posterior - control_posterior).mean() / control_posterior.mean() * 100
print(f"Probability variant is better: {prob_variant_better:.1%}")
print(f"Expected lift: {expected_lift:+.1f}%")
print(f"Credible interval: [{np.percentile(variant_posterior - control_posterior, 2.5):.3%}, "
f"{np.percentile(variant_posterior - control_posterior, 97.5):.3%}]")
bayesian_ab_test(115, 3842, 148, 3891)
Практический гайд по решениям
| Ситуация | Решение |
|---|---|
| p < 0.05, lift > 0 | Запустить вариант |
| p > 0.05, мало трафика | Продолжить тест |
| p > 0.05, достигли объёма | Нет значимого эффекта, закрыть тест |
| p < 0.05, lift отрицательный | Оставить контроль |
| Один сегмент значим, другой нет | Анализ взаимодействий, сегментированный деплой |
Срок выполнения
Настройка процесса анализа значимости с автоматическим расчётом объёма и Bayesian/Frequentist выбором — 1–2 рабочих дня.







