В прошлый раз мы занимались играми в email. Сегодня обратимся к тестам в рассылках, а вернее — к порядку их измерения. Ведь важно не только провести тест рассылки (с этим при наличии у многих сервисов функционала сплит-тестирования сложностей не возникает), но и правильно интерпретировать его результат, чтобы извлечь из теста максимум полезной информации.
К слову сказать, материалы о тестах есть не только в моём блоге под соответствующим тегом, но и в книге «Email маркетинг для интернет-магазина», где им отведена вся 9-я глава. |
Методика измерений
Итак, предлагаю следующую последовательность вопросов. На них предстоит ответить один за другим, чтобы измерить проведённый тест рассылки:
→ На какие показатели влияет тест?
→ Как их измерить?
→ Когда измерять?
→ Достоверен ли получившийся результат?
• Показатели
На мой взгляд, есть 3 показателя, на которые стоит обращать внимание во время теста:
Есть ещё, правда, уровень отписки и жалоб на спам. Но вряд ли основная цель нашего тестирования — получить как можно меньше отписок и жалоб — поэтому здесь эти показатели не рассматриваем.
• Как измерить
Дополним имеющиеся показатели способами измерения:
• Когда измерять
Ответ на этот вопрос зависит от того, что мы тестируем.
У Мэйл Чимп есть любопытное исследование: результаты теста по открытиям можно измерять через 2-12 часов, по кликам — через 1-3 часа, а по конверсии через 12-24 часа (https://blog.mailchimp.com/how-long-to-run-an-ab-test/). |
|
Итак, возьмём за правило измерять результаты большинства тестов через 2-3 часа после их запуска. Когда речь идёт о конверсии, будем ждать сутки.
• Достоверность
Не забываем про статистическую значимость результатов эксперимента. Честно говоря, про неё всё время хочется забыть:) Особенно, если результаты выглядят ярко и однозначно:
Здесь нам на помощь приходят калькуляторы статистической значимости, которые всегда под рукой в онлайне, и пользоваться которыми достаточно просто. Например:
https://www.kissmetrics.com/growth-tools/ab-significance-test/
http://www.zettasphere.com/abcalculator/
http://www.evanmiller.org/ab-testing/chi-squared.html
Формат измерений
Последний вопрос, который нам нужно решить перед тестом —
в каком виде мы будем оформлять измерения?
Главное здесь, чтобы их было удобно сопоставлять по всем основным показателям, выявленным раньше.
При этом иногда хватает внутренних отчётов рассылочных сервисов, которые довольно наглядны:
Но я всё же предпочитаю переносить их в отдельную таблицу, где можно добавить данные по конверсии из Гугл Аналитикс или Яндекс.Метрики, перевести абсолютные значения в относительные, а также указать статистическую значимость результата.
Вот, как примерно это выглядит:
(подробнее о коэффициентах из таблицы см. здесь)
Примеры
Теперь попробуем применить эту методику на практике. Цифры в примерах будут условными, однако с опорой на результаты реальных тестов, которые я проводил.
• Тест рассылки: тема письма
Предположим, мы хотим сравнить результативность двух тем для письма в рассылке интернет-магазина.
В теме А задаём подписчикам интригующий вопрос, в теме Б призываем к действию — и соединяем это в формате АБ-теста, когда в базе случайным образом отбираются 2 группы подписчиков по 10% для проверки нашей гипотезы.
→ На какие показатели влияет?
→ Как измерить?
→ Когда измерять?
Поскольку в данном случае основной показатель, на который мы ориентируемся — просмотры, для выявления результата достаточно подождать 3 часа (можно взять небольшой запас, и подождать 4).
→ Достоверен ли результат?
Для оценки достоверности воспользуемся калькулятором https://www.kissmetrics.com/growth-tools/ab-significance-test/.
Вот, что у нас получается (доставку для простоты примем за 100%):
Итог: уверенно победила тема А, и мы можем с чистой совестью рассылать её на всю остальную базу.
К слову сказать, через несколько дней (я обычно выжидаю неделю), можно измерить тест повторно, чтобы убедиться в правильности первоначального выбора:
Как видим, тема А осталась лидирующей, а результаты рассылки по остальной базе с ней примерно совпадают (разница в показателях статистически незначима).
Интересно, что конверсия в заказы в вариантах А и Б осталась по нулям. Это объясняется тем, что тестовые группы недостаточно большие, чтобы сгенерировать заказы. Если бы в одной из групп и был заказ, то скорее всего как что-то случайное.
• Тест рассылки: содержание письма
Предположим, в рассылке новостного портала мы тестируем разные призывы к действию (что-нибудь вроде «читать полностью» и «получить всю информацию»).
→ На какие показатели влияет?
→ Как измерить?
→ Когда измерять?
Мы ориентируемся на клики, поэтому ждём порядка 2-3-х часов (опять же, когда есть возможность, я предпочитаю брать небольшой запас и ждать 4 часа).
→ Достоверен ли результат?
Калькулятор попробуем следующий: http://www.zettasphere.com/abcalculator/.
Получаем:
Лидирует вариант Б — его и рассылаем на всю остальную базу.
Через неделю измеряем окончательный результат:
С конверсией в платную подписку ситуация, к слову сказать, противоположная: у А есть 1 подписка, у Б нет ни одной. Но это ни о чём не говорит, поскольку тестовые группы были недостаточно большими, чтобы получить статистически значимый результат.
Может возникнуть вопрос: имеет ли смысл такой тест вообще?
Что мы выигрываем, отдавая предпочтение варианту Б?
Ответ: мы выигрываем трафик.
Благодаря тесту мы получили на 30% больше кликов с письма.
В абсолютных числах это рост с 800 до ~1000 переходов на сайт.
При средней конверсии в платную подписку 1% получаем:
800 х 1% = 8 подписок
1000 x 1% = 10 подписок
Т.е. скорее всего благодаря тесту мы получили больше платных подписок.
Привлекать больше трафика (с учётом того, что это качественный трафик с лояльной базы) — однозначно лучше.
• Тест рассылки: конверсия
Интересно всё же посмотреть вариант, когда тестируется итоговая конверсия.
Мы уже убедились, что стандартный механизм — взять 10-20% базы для эксперимента — здесь не сработает, потому что тестовые группы получаются слишком маленькими, чтобы достичь значимой разницы в конверсии.
Поэтому для этого теста поделим базу 50 на 50. Да и в этом случае база должна быть достаточно велика (тысячи и десятки тысяч подписчиков).
Теперь предположим, что мы тестируем 2 варианта лэндинга с формой заявки на услугу: А и Б. Лэндинг пока никак больше не анонсируем, только в рассылке.
Тогда отправим подписчикам 2 письма с одной только разницей: первое письмо ссылается на лэндинг А, второе — на лэндинг Б. В остальном письма совершенно одинаковые.
→ На какие показатели влияет?
→ Как измерить?
→ Когда измерять?
Речь идёт о конверсии, поэтому ждём не менее суток.
→ Достоверен ли результат?
Опробуем более «продвинутый» калькулятор: http://www.evanmiller.org/ab-testing/chi-squared.html.
(кстати, я узнал о нём из статьи Блога про e-commerce, в котором есть ещё много интересных инструментов).
Через сутки получаем:
Через неделю получаем:
В итоге статистически значимой разницы в конверсии всё же не набралось: база оказалась недостаточно велика, чтобы реально испытать лэндинги.
Так что единственный вывод по тесту: нужно больше трафика:) Например, можно попробовать запустить кампанию контекстной рекламы.
Интересно, что просмотры и клики у двух совершенно одинаковых писем тем не менее немного разные (это называется А/А тест).
Но если «прогнать» их через калькулятор, получим, что эта разница недостоверна:
Различие в отклике, конечно, есть — всё же это разные группы подписчиков. Но оно недостаточно велико, чтобы заподозрить механизм теста в ошибке.
Заключение
Итак, у нас есть 4 наводящих вопроса, которые помогут измерить любой тест в email маркетинге. А также формат таблицы, в которой удобно сопоставлять результаты.
Конечно, этот формат примерный: можно менять его как удобно — добавляя или «выкидывая» столбцы, дописывая примечания и т.д.
В случае email, как мне кажется, лучше сосредоточиться на тестах темы и содержания писем, как на способах реально повысить эффективность рассылки.
Для тестов конверсии email тоже годится — как, впрочем, и любой другой канал коммуникации — но с одной оговоркой: подписчиков в тестовых группах должно быть реально много. Т.е. тест конверсии для небольших баз в пару сотен или даже тысяч подписчиков, это скорее что-то неэффективное.
[В следующий раз опробуем описанную выше методику на ещё одном виде тестов, который здесь не рассматривали — на тестах источников подписки]. | |
P.S. Вы находите материалы Email-practice полезными?
Тогда читайте мою книгу «E-mail маркетинг для интернет-магазина»!
Если вы ещё не подписались на мою рассылку — самое время это сделать. Я не только анонсирую свежие статьи блога, но и делюсь с подписчиками бонусной информацией, а также показываю отдельные приёмы email маркетинга на практике. До встречи в вашем
почтовом ящике 😉