Как измерять результаты тестов в рассылках (№91)

В прошлый раз мы занимались играми в email. Сегодня обратимся к тестам в рассылках, а вернее — к порядку их измерения. Ведь важно не только провести тест рассылки (с этим при наличии у многих сервисов функционала сплит-тестирования сложностей не возникает), но и правильно интерпретировать его результат, чтобы извлечь из теста максимум полезной информации.

Email маркетинг для интернет-магазина К слову сказать, материалы о тестах есть
не только в моём блоге под соответствующим тегом, но и в книге «Email маркетинг для интернет-магазина», где им отведена вся 9-я глава.

 

Методика измерений

Итак, предлагаю следующую последовательность вопросов. На них предстоит ответить один за другим, чтобы измерить проведённый тест рассылки:

→ На какие показатели влияет тест?
→ Как их измерить?
→ Когда измерять?
→ Достоверен ли получившийся результат?

 

• Показатели

На мой взгляд, есть 3 показателя, на которые стоит обращать внимание во время теста:

Просмотры | Клики | Конверсия

Есть ещё, правда, уровень отписки и жалоб на спам. Но вряд ли основная цель нашего тестирования — получить как можно меньше отписок и жалоб — поэтому здесь эти показатели не рассматриваем.

 

• Как измерить

Дополним имеющиеся показатели способами измерения:

С помощью чего измерять сплит-тесты в рассылках

 

• Когда измерять

Ответ на этот вопрос зависит от того, что мы тестируем.

Мэйл Чимп У Мэйл Чимп есть любопытное исследование:
результаты теста по открытиям можно измерять через 2-12 часов, по кликам — через 1-3 часа, а по конверсии через 12-24 часа (https://blog.mailchimp.com/how-long-to-run-an-ab-test/).

Итак, возьмём за правило измерять результаты большинства тестов через 2-3 часа после их запуска. Когда речь идёт о конверсии, будем ждать сутки.

 

• Достоверность

Не забываем про статистическую значимость результатов эксперимента. Честно говоря, про неё всё время хочется забыть:) Особенно, если результаты выглядят ярко и однозначно:

Результаты сплит-теста в email рассылке

Здесь нам на помощь приходят калькуляторы статистической значимости, которые всегда под рукой в онлайне, и пользоваться которыми достаточно просто. Например:

https://www.kissmetrics.com/growth-tools/ab-significance-test/
http://www.zettasphere.com/abcalculator/
http://www.evanmiller.org/ab-testing/chi-squared.html

 

Формат измерений

Последний вопрос, который нам нужно решить перед тестом —
в каком виде мы будем оформлять измерения?

Главное здесь, чтобы их было удобно сопоставлять по всем основным показателям, выявленным раньше.

При этом иногда хватает внутренних отчётов рассылочных сервисов, которые довольно наглядны:

Отчёт о сплит-тесте в Мэйл Чимп

Но я всё же предпочитаю переносить их в отдельную таблицу, где можно добавить данные по конверсии из Гугл Аналитикс или Яндекс.Метрики, перевести абсолютные значения в относительные, а также указать статистическую значимость результата.

Вот, как примерно это выглядит:

Таблица для измерения результатов сплит-теста в email маркетинге

(подробнее о коэффициентах из таблицы см. здесь)

 

Примеры

Теперь попробуем применить эту методику на практике. Цифры в примерах будут условными, однако с опорой на результаты реальных тестов, которые я проводил.

 

• Тест рассылки: тема письма

Предположим, мы хотим сравнить результативность двух тем для письма в рассылке интернет-магазина.

В теме А задаём подписчикам интригующий вопрос, в теме Б призываем к действию — и соединяем это в формате АБ-теста, когда в базе случайным образом отбираются 2 группы подписчиков по 10% для проверки нашей гипотезы.

→ На какие показатели влияет?

На что влияют сплит-тесты темы письма

→ Как измерить?

Как измерять результаты теста email рассылки

→ Когда измерять?

Поскольку в данном случае основной показатель, на который мы ориентируемся — просмотры, для выявления результата достаточно подождать 3 часа (можно взять небольшой запас, и подождать 4).

→ Достоверен ли результат?

Для оценки достоверности воспользуемся калькулятором https://www.kissmetrics.com/growth-tools/ab-significance-test/.

Вот, что у нас получается (доставку для простоты примем за 100%):

Сплит-тест темы письма в email рассылке

Итог: уверенно победила тема А, и мы можем с чистой совестью рассылать её на всю остальную базу.

К слову сказать, через несколько дней (я обычно выжидаю неделю), можно измерить тест повторно, чтобы убедиться в правильности первоначального выбора:

Сплит-тест темы письма в email рассылке

Как видим, тема А осталась лидирующей, а результаты рассылки по остальной базе с ней примерно совпадают (разница в показателях статистически незначима).

Интересно, что конверсия в заказы в вариантах А и Б осталась по нулям. Это объясняется тем, что тестовые группы недостаточно большие, чтобы сгенерировать заказы. Если бы в одной из групп и был заказ, то скорее всего как что-то случайное.

 

• Тест рассылки: содержание письма

Предположим, в рассылке новостного портала мы тестируем разные призывы к действию (что-нибудь вроде «читать полностью» и «получить всю информацию»).

→ На какие показатели влияет?

На что влияет тест содержания рассылки

→ Как измерить?

Как измерить тест содержания email рассылки

→ Когда измерять?

Мы ориентируемся на клики, поэтому ждём порядка 2-3-х часов (опять же, когда есть возможность, я предпочитаю брать небольшой запас и ждать 4 часа).

→ Достоверен ли результат?

Калькулятор попробуем следующий: http://www.zettasphere.com/abcalculator/.

Получаем:

Результаты сплит-теста содержания в email рассылке

Лидирует вариант Б — его и рассылаем на всю остальную базу.

Через неделю измеряем окончательный результат:

Результаты сплит-теста содержания в email рассылке

С конверсией в платную подписку ситуация, к слову сказать, противоположная: у А есть 1 подписка, у Б нет ни одной. Но это ни о чём не говорит, поскольку тестовые группы были недостаточно большими, чтобы получить статистически значимый результат.

Может возникнуть вопрос: имеет ли смысл такой тест вообще?
Что мы выигрываем, отдавая предпочтение варианту Б?

Ответ: мы выигрываем трафик.

Благодаря тесту мы получили на 30% больше кликов с письма.
В абсолютных числах это рост с 800 до ~1000 переходов на сайт.
При средней конверсии в платную подписку 1% получаем:

800 х 1% = 8 подписок
1000 x 1% = 10 подписок

Т.е. скорее всего благодаря тесту мы получили больше платных подписок.

Привлекать больше трафика (с учётом того, что это качественный трафик с лояльной базы) — однозначно лучше.

 

• Тест рассылки: конверсия

Интересно всё же посмотреть вариант, когда тестируется итоговая конверсия.

Мы уже убедились, что стандартный механизм — взять 10-20% базы для эксперимента — здесь не сработает, потому что тестовые группы получаются слишком маленькими, чтобы достичь значимой разницы в конверсии.

Поэтому для этого теста поделим базу 50 на 50. Да и в этом случае база должна быть достаточно велика (тысячи и десятки тысяч подписчиков).

Теперь предположим, что мы тестируем 2 варианта лэндинга с формой заявки на услугу: А и Б. Лэндинг пока никак больше не анонсируем, только в рассылке.

Тогда отправим подписчикам 2 письма с одной только разницей: первое письмо ссылается на лэндинг А, второе — на лэндинг Б. В остальном письма совершенно одинаковые.

→ На какие показатели влияет?

На что влияет тест конверсии в email рассылке

→ Как измерить?

Как измерить результат сплит-теста конверсии в email рассылке

→ Когда измерять?

Речь идёт о конверсии, поэтому ждём не менее суток.

→ Достоверен ли результат?

Опробуем более «продвинутый» калькулятор: http://www.evanmiller.org/ab-testing/chi-squared.html.

(кстати, я узнал о нём из статьи Блога про e-commerce, в котором есть ещё много интересных инструментов).

Через сутки получаем:

Результат сплит-теста конверсии в email рассылке

Через неделю получаем:

Результат сплит-теста конверсии в email рассылке

В итоге статистически значимой разницы в конверсии всё же не набралось: база оказалась недостаточно велика, чтобы реально испытать лэндинги.

Так что единственный вывод по тесту: нужно больше трафика:) Например, можно попробовать запустить кампанию контекстной рекламы.

Интересно, что просмотры и клики у двух совершенно одинаковых писем тем не менее немного разные (это называется А/А тест).

Но если «прогнать» их через калькулятор, получим, что эта разница недостоверна:

Результат рассылки в калькуляторе статистической значимости

Различие в отклике, конечно, есть — всё же это разные группы подписчиков. Но оно недостаточно велико, чтобы заподозрить механизм теста в ошибке.

 

Заключение

Итак, у нас есть 4 наводящих вопроса, которые помогут измерить любой тест в email маркетинге. А также формат таблицы, в которой удобно сопоставлять результаты.

Конечно, этот формат примерный: можно менять его как удобно — добавляя или «выкидывая» столбцы, дописывая примечания и т.д.

В случае email, как мне кажется, лучше сосредоточиться на тестах темы и содержания писем, как на способах реально повысить эффективность рассылки.

Для тестов конверсии email тоже годится — как, впрочем, и любой другой канал коммуникации — но с одной оговоркой: подписчиков в тестовых группах должно быть реально много. Т.е. тест конверсии для небольших баз в пару сотен или даже тысяч подписчиков, это скорее что-то неэффективное.

Тест источника подписки [В следующий раз опробуем описанную выше методику на ещё одном виде тестов, который здесь не рассматривали — на тестах источников подписки].

P.S. Вы находите материалы Email-practice полезными?
Тогда читайте мою книгу «E-mail маркетинг для интернет-магазина»!

Если вы ещё не подписались на мою рассылку — самое время это сделать. Я не только анонсирую свежие статьи блога, но и делюсь с подписчиками бонусной информацией, а также показываю отдельные приёмы email маркетинга на практике. До встречи в вашем
почтовом ящике 😉