№82 О пользе тестирования темы письма

В прошлый раз речь шла об аналитике нотификаций.
Сегодня хотел написать про тестирование времени отправки, но увидел в сети статью от EmailSoldiers  Заблуждения в email маркетинге… и поменял планы — поскольку одно из озвученных в ней утверждений показалось мне не вполне справедливым:

«Обычно а/б тесты в рассылках используют так: надо отправить рассылку, давай попробуем две разные темы письма, — ого! смотри-ка, выиграла первая тема. А дальше что? Эту же тему письма вы не сможете использовать в дальнейшем, потому что вы её уже использовали в прошлый раз».

К слову сказать, похожую мысль высказывал в своё время и
Дмитрий Кудренко (руководитель сервиса eSputnik) в своём видео Сплит-тестирование в email маркетинге, где говорил, что такой «сиюминутный» формат тестирования не особенно полезен —
лучше тестировать идеи, чем, скажем, менять цвет кнопки в письме с красного на зелёный.

Что ж, настал черёд поспорить с этой точкой зрения, подкрепив свои возражения кое-какими цифрами.

 

-

Сплит-тестирование темы письма

База интернет-магазина составляет ~40 000 подписчиков.
Для начала создадим контрольную группу по методу «каждый N-й».

Маркетинг на основе баз данных Подробнее о контрольных группах можно узнать в хорошей книге Артура Хьюза «Маркетинг баз данных» — майнд карта которой, кстати, есть в моей Библиотеке.

Достаточный размер группы определяем по эмпирической формуле:
[ 500 / ожидаемый уровень отклика ].

За отклик принимаем средний уровень просмотров в рассылках,
который составляет 16%.

Итого, необходимый размер контрольной группы:
[ 500 / 0,16 = 3 125 подписчиков ].

Пусть будет с запасом — 4000. То есть достаточно взять каждого десятого подписчика в базе, чтобы получить нужный объём выборки.

Далее готовим очередную товарную рассылку магазина, которая отправляется с периодичностью раз в неделю по всей базе подписчиков.

Придумываем 3 темы для сплит-тестирования:

 А:  Удачные каникулы продолжаются!
 Б:  уДАЧНЫЕ каникулы: ещё больше моделей со скидками 50%
 В:  Новые авто, подлодки, самолёты и игрушки со скидками до 50%

В 12 часов дня отправляем контрольной группе письмо с темой А.
Тогда же запускаем и сплит-тест с темами А, Б и В по оставшимся
~36 000 подписчикам.

Для этого используем стандартный механизм тестирования в рассылочном сервисе, установив размер тестовой выборки 20%
(т.е. примерно по 2400 писем на каждый вариант) и способ выбора победителя — вручную.

Через 3 часа смотрим, какой результат получился:

Результаты сплит-теста темы письма

По просмотрам лучше выглядит вариант письма с темой Б, но по кликам явно лидирует вариант В. Статистическая значимость разницы по кликам, посчитанная с помощью калькулятора (кстати, отличный инструмент для тех, кто как и я, со статистикой «на вы» — спасибо за рекомендацию ребятам из EmailSoldiers), составляет 93% и выше, что говорит о достоверности результатов.

Для контрольной группы и варианта А, у которых одинаковая тема, уровень просмотров совпадает, а клики расходятся, но незначительно. Статистическая значимость такого расхождения составляет 65%, в то время как для «железной» достоверности нужен уровень 95% —
т.е. отклик здесь можно считать сопоставимым.

Предварительные выводы делаем такие: хотя тема у варианта Б ярче, всё же более правильные ожидания от письма формирует тема В, что и способствует более высокому уровню кликов.

Клики для нас в данном случае важнее (поскольку эффективность рассылки оценивается по количеству заказов, а эта величина, в свою очередь, зависит от объёма трафика на сайт — чем больше трафик, тем больше в потенциале заказов).

Таким образом, выбираем вариант письма с темой В и досылаем его на всю оставшуюся часть базы (ещё порядка 29 000 подписчиков).

Через неделю после отправки измеряем результат:

Результаты сплит-теста темы письма

Вариант В остался достаточно убедительным лидером по кликам.
Статистическая значимость в паре А / В осталась 93%,
в паре Б / В снизилась до 79%. Это, конечно, портит совсем уж идеальную картину,  но по крайней мере вариант А мы точно обошли.

Интересно сравнить контрольную группу и вариант А, где была одинаковая тема, а также вариант В и остальную часть базы, на которую он был позднее разослан. И там и там итоговые показатели по кликам несколько хуже тестовых вариантов.

Скорее всего это вызвано влиянием сопутствующих факторов: разницей в количестве и составе подписчиков в группах, разным временем отправки. Статистическая значимость расхождения при этом в одном случае 80%, в другом — 68%. Это всё же позволяет говорить, что различия по кликам здесь не слишком достоверны.

Наконец, сравним отклик контрольной группы с темой А и остальной части базы с темой В. Уровень кликов в последнем варианте на 40% лучше, со статистической значимостью 100%.

Т.е. мы наверняка улучшили результаты рассылки по кликам, использовав тему В вместо темы А при отправке на остальную часть базы. И скорее всего приподняли количество кликов по сравнению с темой Б (хотя и несколько проиграли в просмотрах).

 

-

А дальше что?

Полученный результат может встретить возражения:

Мы выиграли в кликах, но как же итоговая конверсия в целевое действие (в нашем случае, в заказы)?

На что можно ответить: в тесте мы исходим из того, что повышение уровня просмотров и кликов — это благо. В подписчиках случайные люди встречаются реже, чем, скажем, в трафике с контекстной рекламы или поисковиков. И чем больше подписчиков мы привлекаем на сайт по конкретному предложению — тем лучше, так как это почти гарантированно улучшает наш итоговый результат.

К тому же, просмотры и клики — часто единственное, на что напрямую может влиять email маркетолог. Вносить какие-то изменения в сайт, которые могут повысить уровень конверсии — часто не в его власти и компетенции.

Выиграли здесь и сейчас, но что это говорит нам о базе подписчиков, какие выводы позволяет сделать
в долгосрочной перспективе?

Ответ: а никаких:)

Мы всего лишь определили, что тема В в данном случае эффективнее, чем темы А и Б, и получили выигрыш по кликам в этой конкретной рассылке. В следующий раз мы протестируем новые темы и снова получим выигрыш, после чего повторим всё в послеследующей рассылке — и так далее.

Таким образом, систематически применяя сплит-тесты темы в каждой нашей массовой рассылке и повышая этим эффективность, мы в итоге получим и долгосрочную выгоду, увеличив наши средние показатели по просмотрам и кликам. Возможно, не каждый наш тест увенчается убедительным успехом, но в целом тенденция будет налицо.

 

-

Дополнительный пример

Ещё одно возражение, которое может здесь прозвучать:

Один единственный тест — не показатель.
Нужно больше, чтобы сделать какие-либо определённые выводы.

Что же, ниже результаты ещё одного аналогичного эксперимента — в этот раз, для площадки, где общаются молодые мамы:

Результаты сплит-теста темы в email рассылке

Другой проект, другая база, другой тип рассылок и размер выборок. Тестирование 4-х тем вместо 3-х. И тем не менее, картина складывается довольно похожая на предыдущий эксперимент.

Предполагаю, что и на прочих проектах можно получить такие результаты.

 

-

Выводы

Сплит-тесты темы работают ещё как, и результаты от них вполне может сказаться на стратегических результатах рассылок, если поставить их проведение на поток.

Это совсем несложно: достаточно придумать пару-тройку альтернативных тем для письма, а затем сравнить отклик на них на малой части базы.

Важно только не забывать «правила гигиены» сплит-тестов: иметь достаточный объём выборки (сотни, а лучше тысячи подписчиков), ждать достаточное время (не менее 3-4 часов) и по возможности оценивать статистическую значимость результатов.

 В июне всё же доберёмся до тестирования времени отправки писем:) Посмотрим, как его проводить, и нужно ли вообще
этим заниматься? 
-

P.S. Вы находите материалы Email-practice полезными?
Тогда читайте мою книгу «E-mail маркетинг для интернет-магазина»!

Если вы ещё не подписались на мою рассылку — самое время это сделать. Я не только анонсирую свежие статьи блога, но и делюсь с подписчиками бонусной информацией, а также показываю отдельные приёмы email маркетинга на практике. До встречи в вашем
почтовом ящике ;)