ŁADOWANIE

Jak analizować wyniki testów A/B?

przez Krzysiek Nowakowski 21 czerwca, 2020
Jak analizować wyniki testów a/b?

Uruchomiłeś już swój pierwszy test A/B. Podszedłeś do niego metodycznie, zacząłeś od zbierania danych. Dane ilościowe czerpałeś z Google Analytics, wspomogłeś się danymi z clickmap, przeprowadziłeś również rozsądnie zaplanowane ankiety.

Zbierałeś dane cierpliwie, uwzględniając całe tygodnie z weekendami. Czy wiesz jednak, w którym momencie powinieneś wyłączyć test A/B? Czy wiesz, jak zinterpretować jego wynik?

Analiza wyników testu to nierzadko podchwytliwe zadanie. Możliwe, że doświadczyłeś sytuacji, w których zwycięska wersja po wdrożeniu nie przyniosła spodziewanych wzrostów wskaźnika konwersji. W tym artykule opiszę, jak uniknąć takich sytuacji i mieć pewność, że test faktycznie przyniesie oczekiwany rezultat.

Zwracaj uwagę, co wskazują wskaźniki statystyczne

Pisałem już o tym, że jednym z błędów popełnianych podczas przeprowadzania testu A/B jest nieuwzględniania statystyki. Zacznijmy zatem od tego najmniej lubianego zagadnienia, jednak bezwzględnie koniecznego do przeprowadzenia rzetelnego testu.

Z tego powodu, zwracaj uwagę na poniższe dane statystyczne:

Istotność statystyczna – ten wskaźnik powie Ci, z jakim prawdopodobieństwem wynik testu powtórzy się w populacji. Aby to prawdopodobieństwo było jak najwyższe, zazwyczaj czeka się z rozstrzygnięciem testu aż osiągnie on wynik 95% lub 98%.

Innymi słowy, jeśli wynik testu nie jest istotny statystycznie, to mimo potencjalnego wzrostu podczas samego testu, nie ujrzysz rezultatu w postaci większej sprzedaży.

Obliczając istotność statystyczną polecam korzystać z tych trzech kalkulatorów:

http://www.evanmiller.org/ab-testing/chi-squared.html

http://isvalid.org

https://cxl.com/ab-test-calculator/

Pamiętaj, że istotność statystyczna mówi jedynie, że pojawiła się zauważalna różnica między wariacjami testu. Nie zawiera w sobie informacji, ile ta różnica wynosi, ani w jakim stopniu testowana wersja jest lepsza od oryginalnej. Nie mówi też o tym, kiedy należy test zakończyć – jest jedynie wskaźnikiem.

Test można zakończyć dopiero, jeśli zebrałeś konkretną, ustaloną wcześniej próbę do badania, przedziały ufności nie pokrywają się, przeprowadzałeś test co najmniej dwa tygodnie, a istotność statystyczna osiągnęła poziom 95%.

Szczególnie istotne jest, by nie kierować się jednak istotnością statystyczną podczas kilku pierwszych dni trwania testu. Wówczas może mieć miejsce zjawisko zwane regresją do średniej – w wyniku losowego doboru próby, osoby poddane testowi jako pierwsze, nie będą reprezentatywne dla całej testowanej populacji. Tym samym mogą mieć inne zachowania zakupowe, co z kolei będzie rzutować na niemiarodajny wzrost współczynnika konwersji.

Test a/b regresja do średniej
Regresja do średniej w praktyce. W pierwszych dniach testu wersja kontrolna (original) miała wyższy współczynnik konwersji. Po kilku dniach różnica ta nie tylko zmalała, ale nawet odwróciła się.

Przedział ufności i margines błędu – wspomniałem o tym przed chwilą. Przedział ufności jest to poziom błędu, jaki trzeba uwzględnić podczas przeprowadzania testu A/B.

przedziały ufności testu a/b

Jak widzisz na obrazku powyżej, wartości konwersji są bardzo zbliżone. Po nałożeniu marginesu błędu na te wartości okazuje się, że różnicy w konwersji w zasadzie nie ma…

Błędy statystyczne I i II rodzaju. Test może zakończyć się wynikiem pozytywnym, negatywnym lub nie przynieść żadnego rezultatu. Wciąż jednak bazujemy na próbkach, dlatego rezultat testu może się różnić od jego rzeczywistego wpływu na zachowania klientów. W testach A/B możemy mieć do czynienia z dwoma rodzajami błędów:

  • Błąd I rodzaju, czyli wynik fałszywie pozytywny, ma miejsce wtedy, gdy test mówi nam o tym, że wystąpił efekt w postaci wzrostu współczynnika konwersji, jednak w rzeczywistości taki efekt nie występuje. Na wystąpienie tego błędu może mieć wpływ zbyt duża liczba testowanych wariantów, niedostateczna próba badawcza lub zbyt krótki czas trwania testu. Ten błąd jest groźny, ponieważ w skrajnych przypadkach może spowodować straty.
  • Błąd II rodzaju, czyli wynik fałszywie negatywny możemy zauważyć, gdy test nie jest w stanie określić, że wystąpił efekt w postaci wzrostu współczynnika konwersji, jednak testowana zmiana przyniosłaby rezultat w rzeczywistości. Nie jest tak groźny jak błąd I rodzaju, jednak trudniejszy do wykrycia – na szczęście da się go uniknąć obliczając odpowiednią wielkość próby przed rozpoczęciem testu A/B.

Porównaj segmenty

Jest to szczególnie ważne, jeśli na pierwszy rzut oka test okazał się nierozstrzygalny. Pamiętaj złotą zasadę analityki – średnia kłamie. Nawet jeśli obydwie wariacje przygotowane do testu miały podobne wyniki i tak może się okazać, że dla niektórych segmentów jedna z wariacji przeważyła. Sprawdź, jak rozłożyły się wyniki testu w takich segmentach jak: 

  • Nowi i powracający użytkownicy,
  • Użytkownicy komputerów stacjonarnych, tabletów i smartfonów,
  • Użytkownicy względem źródeł ruchu, np. SEO, SEM, wejść bezpośrednich itd.

Jeśli odkryjesz jakieś zależności między konwersją i konkretnymi segmentami, to właśnie położyłeś podwaliny pod personalizację. Możesz zdecydować, jakie rozwiązania zastosować w przypadku optymalizacji pod kątem urządzeń mobilnych. Dowiesz się, na które strony kierować ruch z płatnych wyników wyszukiwania oraz jakim stronom warto podnieść pozycję w Google (bo przynosi więcej zysku).

Sprawdź jak zmieniło się zachowanie użytkowników na click mapach

Każda zmiana wywiera wpływ na to, w jaki sposób użytkownicy nawigują stronę. Powinieneś mieć zintegrowane wszystkie narzędzia do testów A/B z narzędziami analityki ilościowej oraz wizualnej, żeby mieć większą pewność swoich danych.

Niektóre narzędzia jak Visual Website Optimizer udostępniają click mapy. Dzięki nim możesz sprawdzić:

  • Jak użytkownicy nawigują stronę? Czy testowana wersja wywarła wpływ na to, do którego miejsca scrollują tę stronę?
  • Czy są miejsca, które nużą użytkowników przez co opuszczają stronę nie zapoznając się z całością?
  • Czy zmieniła się liczba kliknięć na testowanej wersji? Które elementy są najbardziej klikalne? Czy odciągają uwagę od Call to Action?

Jeśli potrzebujesz przewodnika po wykorzystaniu click map, zapraszam do tego posta.

Wyeliminuj czynniki zewnętrzne

Uwzględnianie czynników zewnętrznych w testach A/B to bardzo poważny błąd, który opisałem tutaj.

W teorii nie powinniśmy przeprowadzać żadnych testów, jeśli istnieje ryzyko, że wpływ na wynik będą miały czynniki, na które nie mamy wpływu. Zaburzy to nam rzetelność danych przez wprowadzenie dodatkowej zmiennej.

Do takich czynników zewnętrznych mogą należeć:

  • Kara z wyszukiwarki i spadek pozycji w Google,
  • Okres przedświąteczny i świąteczny,
  • Wakacje oraz ferie,
  • Zdarzenia specyficzne dla branży – musisz zidentyfikować, jakie mogą to być zdarzenia dla Twojej branży,
  • Udana akcja PR-wa lub PR-owa wpadka – Twoja lub konkurenta,
  • Promocje sezonowe dostępne w Twoim sklepie.

Możesz wyeliminować wpływ spadku pozycji w wynikach wyszukiwania przez nałożenie odpowiedniego filtru wykluczającego ten segment ruchu.

W pozostałych przypadkach sprawa jest bardziej skomplikowana i nie zidentyfikujesz w prosty sposób klientów, na których te sytuacje miały wpływ. Dopóki nie przeanalizujesz każdego indywidualnie, nie dowiesz się, czy te czynniki miały wpływ na zakup, czy jednak nowa genialna wersja Twojej strony.

Aby wyeliminować takie sytuacje, możesz oczywiście powtórzyć test, kiedy tylko echa czynników zewnętrznych zamilkną i porównać z pierwotnymi wynikami.

A Ty, jak radzisz sobie z interpretacją wyników testów A/B? Czy zawsze po przeprowadzonym teście i wdrożeniu zmian widzisz realne wzrosty wskaźników? Jak zabezpieczasz i analizujesz dane? Podziel się swoimi doświadczeniami w komentarzu.

Social Shares

1 Komentarze

Zostaw komentarz

Twój adres email nie będzie opublikowany. Wymagane pola oznaczone się znakiem *

Witryna wykorzystuje Akismet, aby ograniczyć spam. Dowiedz się więcej jak przetwarzane są dane komentarzy.