A/B-тестирование скриптов в Telegram: как найти сообщение с конверсией ×3
Как тестировать первые сообщения в Telegram outreach: Thompson Sampling, O'Brien-Fleming sequential testing, 5-уровневая иерархия контекстов, transfer learning. Без ручных гипотез.
Вы не знаете, какое сообщение работает. И ваш менеджер тоже не знает
У вас 5 вариантов первого сообщения. Какой из них конвертит лучше? «Тот, который мне нравится больше» — это не ответ. «Тот, который дал 3 ответа из 10» — тоже нет, потому что 10 — это не выборка.
Настоящий A/B-тест требует:
- Достаточной выборки (не 10, а 200+ контактов на вариант)
- Статистической значимости (не «кажется лучше», а p < 0.05)
- Контроля переменных (одна и та же аудитория, одно и то же время)
- Автоматического перераспределения бюджета на победителя
Ручной A/B-тест в Telegram outreach: отправить вариант A 100 людям, вариант B — ещё 100. Подождать неделю. Посчитать конверсию. Запустить вариант C...
Через 3 недели и 600 контактов у вас будет один ответ. Sell_Agent даёт его автоматически — за те же 600 контактов, но параллельно.
Thompson Sampling: алгоритм, который учится на каждом ответе
Классический A/B-тест: 50% трафика на A, 50% на B. Ждём, пока наберётся выборка. Проблема: половину трафика мы тратим на заведомо худший вариант.
Thompson Sampling — умнее. Это алгоритм Multi-Armed Bandit, который одновременно тестирует и оптимизирует.
Как работает:
У каждого варианта сообщения есть бета-распределение: Beta(α, β), где α = успехи + prior, β = неудачи + prior.
При каждой отправке алгоритм сэмплирует случайное значение из бета-распределения каждого варианта.
Вариант с самым высоким сэмплом — отправляется.
Получили ответ → α + 1. Не получили → β + 1.
Результат: варианты с высокой конверсией получают больше трафика автоматически, но система продолжает тестировать альтернативы. Exploration + exploitation — одновременно.
Prior в Sell_Agent: Beta(1.5, 8.5) — кодирует ожидание ~15% response rate для cold outreach. Не с нуля начинаем.
5-уровневая иерархия контекстов
Один и тот же скрипт работает по-разному для разных аудиторий. «Вопрос-хук» конвертит SaaS-фаундеров на 15%, но ecom-менеджеров — на 3%.
Thompson Sampling в Sell_Agent работает иерархически:
| Уровень | Контекст | Пример |
|---|---|---|
| 1 | Кампания | «Q1 outreach — SaaS founders» |
| 2 | Ниша + роль | SaaS × founder |
| 3 | Только ниша | SaaS (любая роль) |
| 4 | Только роль | Founder (любая ниша) |
| 5 | Глобальный | Все кампании, все аудитории |
Алгоритм начинает с самого конкретного уровня. Если данных недостаточно (< 50 наблюдений) — поднимается на уровень выше. Если и там мало данных — ещё выше, до глобального.
Transfer learning: удачная стратегия в одном кластере переносится на похожие. Если «вопрос-хук» показал 18% конверсии для SaaS × founder — алгоритм начнёт активнее тестировать его для SaaS × manager. Вес переноса: до 30%, чтобы не переоценивать сходство.
Три режима работы
Алгоритм адаптирует стратегию в зависимости от количества данных:
Cold Start (< 5 наблюдений)
Данных почти нет. Алгоритм использует равномерное случайное распределение + высокий exploration rate. Каждый вариант получает примерно одинаковое количество трафика.
Exploration (5–50 наблюдений)
Данные начинают накапливаться. Epsilon-greedy с затухающим exploration rate. Стартует с 40% exploration (случайный выбор) и постепенно снижается до 10%. Бета-распределения начинают «расходиться» — разница между вариантами становится видна.
Exploitation (50+ наблюдений)
Полноценный Thompson Sampling из бета-распределений. Лучшие варианты получают 70–80% трафика. Остальные — 20–30% на случай, если рынок изменился.
O'Brien-Fleming: когда остановить тест
Классический A/B-тест: собрали N выборку → посчитали → решили. Проблема: а если один вариант явно лучше уже на 30% выборки? Ждать до конца — тратить деньги.
Sell_Agent использует O'Brien-Fleming sequential testing — метод, который позволяет проводить промежуточные проверки без inflation ошибки первого рода.
Как это работает:
Power analysis определяет необходимый размер выборки для обнаружения заданной разницы (например, +5% конверсии) с 95% уверенностью
На каждом промежуточном анализе рассчитывается spending function — сколько «статистического бюджета» можно потратить на этом этапе
Критические значения z-score на ранних этапах очень высокие (трудно остановить тест рано). На поздних — ниже (проще зафиксировать результат)
Три правила остановки:
- Значимость: |z| > критическое значение → победитель найден
- Бесперспективность: низкая conditional power → разница слишком мала, чтобы её обнаружить
- Достигнут размер выборки → обычный тест на финале
Метрики:
- Основная: conversion rate (ответил / не ответил)
- Вторичная: средняя сумма сделки
- Третичная: время до закрытия
- Плюс 95% доверительный интервал и Cohen's h (размер эффекта)
Группы: Control vs Treatment
Sell_Agent автоматически распределяет лидов на две группы:
- Control (10%) — базовая стратегия, без ML-оптимизации. Чистый рандом
- Treatment (90%) — Thompson Sampling выбирает лучший вариант
Распределение детерминированное: MD5-хеш от conversation ID. Один и тот же лид всегда в одной группе — никакого crossover.
Зачем нужен control? Чтобы измерять реальный эффект ML. Если treatment конвертит 12%, а control — 8%, вы знаете: ML даёт +50% конверсии. Без control вы не знаете, работает оптимизация или нет.
K-Means кластеризация: AI сам находит сегменты
Через 2–3 недели работы система собирает достаточно данных для кластеризации аудитории.
K-Means группирует лидов по поведению:
- Скорость ответа
- Глубина диалога
- Тематические векторы (о чём говорят)
- Тип возражений
Каждый кластер получает автоматическое название от LLM: «Активные SaaS-фаундеры», «Скептичные enterprise-менеджеры», «Быстрые ecom-селлеры».
Для каждого кластера — свой Thompson Sampling. Вариант, который побеждает в одном кластере, может проигрывать в другом. Алгоритм это учитывает.
Психологическая аналитика: что именно работает
Sell_Agent не просто считает «конверсию варианта A vs B». Он разбирает, почему один вариант работает лучше.
Анализируемые элементы:
- Тип хука: вопрос vs комплимент vs инсайт vs social proof — что лучше конвертит для какого сегмента
- Уровень давления: мягкое vs прямое — какой подход для кого
- Глубина персонализации: по имени vs по компании vs по контексту активности
- Friction ответа: закрытый вопрос (да/нет) vs открытый — что даёт больше ответов
Эти данные видны в дашборде. Вы не просто знаете, что вариант A лучше — вы знаете, что вопрос-хук с мягким давлением и персонализацией по активности даёт лучший результат для SaaS-фаундеров.
Реальный пример оптимизации
Неделя 1: 5 вариантов первого сообщения, равномерное распределение. Конверсия: 6%, 9%, 11%, 4%, 8%.
Неделя 2: Thompson Sampling выделяет больше трафика на вариант 3 (11%). Exploration снижается. Конверсия варианта 3 стабилизируется на 12%.
Неделя 3: K-Means находит 3 кластера. Оказывается, вариант 3 работает на 18% для кластера «активные фаундеры» и на 5% для «скептичных менеджеров». Для менеджеров лучше вариант 2 (13%).
Неделя 4: Каждый кластер получает свой лучший вариант. Общая конверсия: 15% (была 8% в начале). Рост ×1.9 — без единого ручного изменения.
Итог: тестирование без тестировщика
Классический A/B-тест: вы придумываете гипотезу → запускаете → ждёте → анализируете → меняете. Цикл: 2–4 недели.
Thompson Sampling + O'Brien-Fleming: система сама тестирует → сама перераспределяет → сама останавливает неудачные варианты → сама масштабирует удачные. Ваше участие: загрузить 3–5 вариантов первого сообщения.
Конверсия растёт каждую неделю. Без вашего участия. Без аналитика. Без гипотез.
Хотите, чтобы AI сам находил лучшие скрипты? Попробуйте Sell_Agent — 14 дней бесплатно →