A/B-тестирование скриптов в Telegram: как найти сообщение с конверсией ×3

Вы не знаете, какое сообщение работает. И ваш менеджер тоже не знает

У вас 5 вариантов первого сообщения. Какой из них конвертит лучше? «Тот, который мне нравится больше» — это не ответ. «Тот, который дал 3 ответа из 10» — тоже нет, потому что 10 — это не выборка.

Настоящий A/B-тест требует:

Достаточной выборки (не 10, а 200+ контактов на вариант)
Статистической значимости (не «кажется лучше», а p < 0.05)
Контроля переменных (одна и та же аудитория, одно и то же время)
Автоматического перераспределения бюджета на победителя

Ручной A/B-тест в Telegram outreach: отправить вариант A 100 людям, вариант B — ещё 100. Подождать неделю. Посчитать конверсию. Запустить вариант C...

Через 3 недели и 600 контактов у вас будет один ответ. Sell_Agent даёт его автоматически — за те же 600 контактов, но параллельно.

Thompson Sampling: алгоритм, который учится на каждом ответе

Классический A/B-тест: 50% трафика на A, 50% на B. Ждём, пока наберётся выборка. Проблема: половину трафика мы тратим на заведомо худший вариант.

Thompson Sampling — умнее. Это алгоритм Multi-Armed Bandit, который одновременно тестирует и оптимизирует.

Как работает:

У каждого варианта сообщения есть бета-распределение: Beta(α, β), где α = успехи + prior, β = неудачи + prior.
При каждой отправке алгоритм сэмплирует случайное значение из бета-распределения каждого варианта.
Вариант с самым высоким сэмплом — отправляется.
Получили ответ → α + 1. Не получили → β + 1.

Результат: варианты с высокой конверсией получают больше трафика автоматически, но система продолжает тестировать альтернативы. Exploration + exploitation — одновременно.

Prior в Sell_Agent: Beta(1.5, 8.5) — кодирует ожидание ~15% response rate для cold outreach. Не с нуля начинаем.

5-уровневая иерархия контекстов

Один и тот же скрипт работает по-разному для разных аудиторий. «Вопрос-хук» конвертит SaaS-фаундеров на 15%, но ecom-менеджеров — на 3%.

Thompson Sampling в Sell_Agent работает иерархически:

Уровень	Контекст	Пример
1	Кампания	«Q1 outreach — SaaS founders»
2	Ниша + роль	SaaS × founder
3	Только ниша	SaaS (любая роль)
4	Только роль	Founder (любая ниша)
5	Глобальный	Все кампании, все аудитории

Алгоритм начинает с самого конкретного уровня. Если данных недостаточно (< 50 наблюдений) — поднимается на уровень выше. Если и там мало данных — ещё выше, до глобального.

Transfer learning: удачная стратегия в одном кластере переносится на похожие. Если «вопрос-хук» показал 18% конверсии для SaaS × founder — алгоритм начнёт активнее тестировать его для SaaS × manager. Вес переноса: до 30%, чтобы не переоценивать сходство.

Три режима работы

Алгоритм адаптирует стратегию в зависимости от количества данных:

Cold Start (< 5 наблюдений)

Данных почти нет. Алгоритм использует равномерное случайное распределение + высокий exploration rate. Каждый вариант получает примерно одинаковое количество трафика.

Exploration (5–50 наблюдений)

Данные начинают накапливаться. Epsilon-greedy с затухающим exploration rate. Стартует с 40% exploration (случайный выбор) и постепенно снижается до 10%. Бета-распределения начинают «расходиться» — разница между вариантами становится видна.

Exploitation (50+ наблюдений)

Полноценный Thompson Sampling из бета-распределений. Лучшие варианты получают 70–80% трафика. Остальные — 20–30% на случай, если рынок изменился.

O'Brien-Fleming: когда остановить тест

Классический A/B-тест: собрали N выборку → посчитали → решили. Проблема: а если один вариант явно лучше уже на 30% выборки? Ждать до конца — тратить деньги.

Sell_Agent использует O'Brien-Fleming sequential testing — метод, который позволяет проводить промежуточные проверки без inflation ошибки первого рода.

Как это работает:

Power analysis определяет необходимый размер выборки для обнаружения заданной разницы (например, +5% конверсии) с 95% уверенностью
На каждом промежуточном анализе рассчитывается spending function — сколько «статистического бюджета» можно потратить на этом этапе
Критические значения z-score на ранних этапах очень высокие (трудно остановить тест рано). На поздних — ниже (проще зафиксировать результат)
Три правила остановки:
- Значимость: |z| > критическое значение → победитель найден
- Бесперспективность: низкая conditional power → разница слишком мала, чтобы её обнаружить
- Достигнут размер выборки → обычный тест на финале

Метрики:

Основная: conversion rate (ответил / не ответил)
Вторичная: средняя сумма сделки
Третичная: время до закрытия
Плюс 95% доверительный интервал и Cohen's h (размер эффекта)

Группы: Control vs Treatment

Sell_Agent автоматически распределяет лидов на две группы:

Control (10%) — базовая стратегия, без ML-оптимизации. Чистый рандом
Treatment (90%) — Thompson Sampling выбирает лучший вариант

Распределение детерминированное: MD5-хеш от conversation ID. Один и тот же лид всегда в одной группе — никакого crossover.

Зачем нужен control? Чтобы измерять реальный эффект ML. Если treatment конвертит 12%, а control — 8%, вы знаете: ML даёт +50% конверсии. Без control вы не знаете, работает оптимизация или нет.

K-Means кластеризация: AI сам находит сегменты

Через 2–3 недели работы система собирает достаточно данных для кластеризации аудитории.

K-Means группирует лидов по поведению:

Скорость ответа
Глубина диалога
Тематические векторы (о чём говорят)
Тип возражений

Каждый кластер получает автоматическое название от LLM: «Активные SaaS-фаундеры», «Скептичные enterprise-менеджеры», «Быстрые ecom-селлеры».

Для каждого кластера — свой Thompson Sampling. Вариант, который побеждает в одном кластере, может проигрывать в другом. Алгоритм это учитывает.

Психологическая аналитика: что именно работает

Sell_Agent не просто считает «конверсию варианта A vs B». Он разбирает, почему один вариант работает лучше.

Анализируемые элементы:

Тип хука: вопрос vs комплимент vs инсайт vs social proof — что лучше конвертит для какого сегмента
Уровень давления: мягкое vs прямое — какой подход для кого
Глубина персонализации: по имени vs по компании vs по контексту активности
Friction ответа: закрытый вопрос (да/нет) vs открытый — что даёт больше ответов

Эти данные видны в дашборде. Вы не просто знаете, что вариант A лучше — вы знаете, что вопрос-хук с мягким давлением и персонализацией по активности даёт лучший результат для SaaS-фаундеров.

Реальный пример оптимизации

Неделя 1: 5 вариантов первого сообщения, равномерное распределение. Конверсия: 6%, 9%, 11%, 4%, 8%.

Неделя 2: Thompson Sampling выделяет больше трафика на вариант 3 (11%). Exploration снижается. Конверсия варианта 3 стабилизируется на 12%.

Неделя 3: K-Means находит 3 кластера. Оказывается, вариант 3 работает на 18% для кластера «активные фаундеры» и на 5% для «скептичных менеджеров». Для менеджеров лучше вариант 2 (13%).

Неделя 4: Каждый кластер получает свой лучший вариант. Общая конверсия: 15% (была 8% в начале). Рост ×1.9 — без единого ручного изменения.

Итог: тестирование без тестировщика

Классический A/B-тест: вы придумываете гипотезу → запускаете → ждёте → анализируете → меняете. Цикл: 2–4 недели.

Thompson Sampling + O'Brien-Fleming: система сама тестирует → сама перераспределяет → сама останавливает неудачные варианты → сама масштабирует удачные. Ваше участие: загрузить 3–5 вариантов первого сообщения.

Конверсия растёт каждую неделю. Без вашего участия. Без аналитика. Без гипотез.

Хотите, чтобы AI сам находил лучшие скрипты? Попробуйте Sell_Agent — 14 дней бесплатно →