in Plan: 계획

A/B테스트에서 하면 안되는 7가지 실수

Share

AB테스트 / 마케팅개인화에 대한 접근성과 도구들이 크게 개선되면서 관심도 높아지고 있습니다.

테스트 진행 시 흔히 범하게 되는 실수와 이에대한 예방법을 정리해봤습니다.

(글 뒷부분에는 A/B테스트 진행시 활용할 수 있는 template 을 공유합니다).

1. 답정너

“새 디자이너가 밤새 작업한 디자인이 나왔으니, 당연히 클릭율이 높아질거야.”

“많은 예산이 투입된 추천 알고리즘이 기존에 수작업보다 더 성과가 좋을거야.”

“가입 단계가 줄어들었으니깐 당연히 전환율도 올라갈거야.”

답정너 테스트

왜 주의해야 하는가:

AB 테스팅 시 가장 많이하는 실수로써, 데이터 기반의 의사결정처럼 보이지만 결국 비즈니스 이해관계 또는 본인 가설을 증명하는 방향으로만 결정을 내리게됩니다.

사실 테스트 진행하는 담당자도 사람인지라, 개인의견과 경험을 완전히 배제하는 것은 어렵습니다. 특히 며칠밤을 새워 개발한 컨텐츠나 본인이 애착을 갖는 경우라면 더욱 그렇습니다.

이런 경우, 테스트목표가 처음엔 클릭율이었다가, 어느순간 전환율, 또 체류시간으로 바꿔가며 결국 처음 계획한 비즈니스 목적과는 멀어지게 됩니다.

기억하세요:

“몇 시간 또는 며칠에 걸쳐 개발한 결과물이라 해도, 데이터에 따라 미련없이 던져버리릴 수 있는 용기, 그것이 진정으로 data-driven 이 되어간다는 표시이다.” – Kameleoon

2. Before/After 테스트

“전월 동기간 운영했던 A배너보다, 이번달에 새로만든 B배너의 클릭율이 더 높았습니다. 따라서 B가 A보다 성과가 좋습니다.”

방문자수 변동

왜 주의해야 하는가:

만약 이번달 새 캠페인이 런칭되어 신규방문자수가 급격히 늘어났다면? 다른 이벤트를 진행했다면? 심지어 이번주에 비가 많이 오는 날씨라면?

여러가지 변수로 인해 지난주 동기간과 이번주의 방문자 성향은 크게 달라질 수 있습니다. 전환율 5%가 다음날 4%, 그 다음날은 9%로 널뛰는 것은 흔한 일입니다. 이때문에 지난주 동기간이라 할지라도, Before/After 테스트는 올바른 AB테스트라 할 수 없습니다.

비포 애프터 테스트

이전(Before)과 이후(After)의 방문자 성향이 엄연히 다릅니다.

기억하세요:

Visual Website Optimizer 에서는 A/B테스팅을 이렇게 정의합니다.

두 개의 웹(또는앱)페이지 중 어떤것이 성과가 좋은지 판단하기 위해, 다른 시안을 “비슷한 사용자군”에게 “동시에” 노출함으로써 성과를 측정한다.

비슷한 사용자군에게 동시에 노출하는 것이 올바른 AB테스트의 첫 단추입니다.

3. p-value 집착

“정확히 A 가 B 보다 몇% 전환율이 높은건가요?”

“이번 p-value 가 0.05 이상인데, 신뢰할 수 있나요? 한달 더 진행해야 하는거 아닌가요?”

p-value 와 ab테스트

왜 주의해야 하는가:

마케터는 통계학자가 아닙니다. 실적에 대한 Pressure 가 있으며 빠르게 의사결정을 내릴 책임이 있습니다.

(무슨뜻인지 이해하기 어려운) P-value, 귀무가설, 대립가설은 비록 통계실험에선 중요하다 할지라도, 현실적인 비즈니스 상황을 고려하지 않은 채 통계적 정확도만을 추구하는 것은 의사결정을 지연시킵니다.

결국 A/B 테스팅를 통해 알고싶은 것은 “A와 B 디자인 중 어떤것이 나은가, 이 결과가 믿을만한가” 정도이지, 장황한 통계분석이 필요한 것은 아니기 때문입니다.

기억하세요:

“연구실의 과학자(분석가) 들에겐 정확한 분석결과가 가장 중요하다. 실험을 진행하는 건 어렵지않지만, 분석결과가 정확하지 않다면 망신살과 심지어 커리어에 치명타를 남길 수 있기 때문이다.

마케터는 이와 정반대되는 입장에 있다. 경영진은 최대한 빠르게 성과를 보고싶어한다… (중략) … 가장 중요한 것은 마케터는 비즈니스 성장에 관심있다는 점이다. 올바른 분석결과는 비즈니스 성장으로 연결될 때에만 가치가 있다.” – Kiss Metrics

4. 통계 무시

그런데 또 통계적인 기본 안전장치를 완전히 무시해버리면 곤란합니다.

일반적으로 많이 얘기되는 사례는 왼손/오른손 동전 던지기 입니다. 앞뒷면이 나오는 확률은 당연히 5:5 여야 하지만, 던진 횟수(=샘플수)로 인해 아래와 같은 차이가 발생할 수 있습니다. 이 결과를 가지고는 당연히 올바른 의사결정이 이뤄질 수 없습니다.

AB테스트 오류

왜 주의해야 하는가:

기본적인 안전장치 없이 무작정 테스트를 진행하는 경우, 표면적으론 성과가 좋은 winning variant 이지만, 실제로는 오히려 성과가 떨어지는 loser 를 선택해서, 결과적으론 전환율이 하락할 수 있습니다.

기억하세요:

위와같은 실수를 범하지 않으려면, 적어도 적정 샘플사이즈통계적 유의미도 (Statistical Significance) 정도는 마케터가 직접 챙겨야 합니다.

다행히도 해외의 고마운 전문가들이 만들어놓은 다양한 툴이 있으므로,  참조하면 도움될 것입니다.

특히 두번째 Neil Patel 계산기는 통계적 유의미도를 쉬운말로 풀어줍니다. 아직 개념이 낯선 분들에게 강추합니다.

Neil Patel 통계적 유의미도 계산기

“B 가 A보다 34% 더 전환이 많이 이뤄졌습니다. B가 전환율을 개선할 것이라고 99% 확신합니다.”

5. 빨주노초파남보 버튼 색상

“오랜지색 CTA 버튼을 파란색으로 바꾸었더니 전환율이 0.03% 상승했습니다. 여름이라 시원한 바다색이 잘 먹히는듯 합니다.”

그럴싸한데

왜 주의해야 하는가:

그로쓰해커나 마케터 분들은 ‘버튼색깔 하나 바꿨더니 전환율 XX% 상승했다’는 동화같은 최적화 사례를 한 번쯤은 들어봤을 것입니다.

실제로 버튼컬러가 중요한 경우도 있습니다. 예를 들어 ‘네, 삭제합니다’ 라는 버튼은 녹색(=긍정), 빨간색(=부정), 아니면 회색(=비활성화)이냐 따라 사용자경험 및 클릭율에 차이를 가져올 수 있습니다.

그럼에도 불구하고, 이젠 비즈니스 임팩트 없는 버튼컬러 AB테스트에서 벗어나야 한다고 감히 말씀드립니다.

굳이 버튼색상을 콕 집어 얘기하는 이유는, 그 중요도가 마케팅에서 크게 과대평가됐다고 개인적으로 생각하기 때문입니다. 실제로 여러 기업의 테스트가 목적없이 CTA 버튼색상 교체 수준에 머물러있는 경우가 많습니다.

버튼 색깔 테스트

이런 걸 하기위해 쓰는 AB테스트 툴이 아닙니다

기억하세요:

만약 프렌치후라이와 어니언링 중 어떤것이 더 선호도가 높은지 파악하기 위해, 길을 가다 마주친 5명에게 질문했다고 하자. 이중 3명이 어니언링을 선택했다고 하자.

결과는 나왔지만, 여기서 새롭게 알게된 인사이트가 있는가? (중략)

테스트 전 스스로에게 “이 테스트가 고객에 대한 새로운 정보를 줄 것인지“를 질문해보자. 만약 그 답이 ‘아니오’ 라면, 다른 중요한것을 최적화해보는게 나을것이다.

– Dave Danzeiser

 

6. 테스트를 위한 테스트

“올해 저희팀 KPI 는 AB테스트 20회 입니다.”

주객전도

뭔가 앞뒤가 바뀐것 같습니다

왜 주의해야 하는가:

“Test Everything (모든것을 테스트하는)” 문화는 많은 장점이 있지만, AB 테스트 건수를 KPI 로 설정하는 건 말그대로 주객이 전도된 것입니다. 이 경우 많은 리소스를 허비하는것 뿐만 아니라, 결국 테스트를 통해 달성하려는 비즈니스 목표도 잊혀지게 됩니다.

굳이 테스팅이 필요없는 경우에도 시간과 리소스를 투입하고있는건 아닌지 항상 주의가 필요합니다.

기억하세요:

ntalbs님은 본인이 경험한 목적없는 테스팅을 아래와 같이 말합니다.

예전에 다녔던 회사에는 모든 변경이 AB 테스트를 거쳐야 한다는 규칙이 있었다.. (중략)..

그런 와중에 AB 테스트 건수로 팀을 평가하겠다는 공지가 내려왔다. 각 개발팀은 좋은 평가를 받기 위해 온갖 잡다한 아이디어를 짜내 AB 테스트를 수행하기 시작했다. 어떤 가설을 세웠고 어떤 사실을 배웠는지는 중요하지 않았다. AB 테스트 건수를 늘리는 게 중요했다. 

무작위로 AB 테스트를 진행하면서 소가 뒷걸음치다 쥐를 잡는 격으로 운 좋게 대박이 걸리는 경우도 있었지만, 그 성공은 다른 성공으로 이어질 수 없었다.

목적지 없는 여행

목적지 없는 여행은 고단합니다

7. 無가설 無기록

코웃음

테스트 가설을 엑셀에 기록하라고 하면 대부분 이렇게 반응합니다.

왜 주의해야 하는가:

AB 테스트는 단순히 Winner/Loser 발견 후 전환율을 높이는 것이 아니라, 비즈니스에서 더 나은 의사결정을 위한 인사이트를 찾는 것이 목적입니다.

왜 ‘다운로드하세요’ 카피보다 ‘지금 다운로드하세요’의 성과가 나은지, 왜 그렇지 않은지 명확한 가설을 세우고 결과를 Reflection 하지 않으면, 한 번의 성공은 가능할지 몰라도 비즈니스 의사결정을 개선하는 장기적인 인사이트는 창출할 수 없습니다.

기억하세요:

스마트한 마케터들은 테스트 결과와 인사이트를 꾸준히 기록하는 습관이 있습니다. 엑셀이던 Trello 같은 프로젝트 관리툴이건, 일정한 형태로 Archive 를 만들어두면 본인의 다음 의사결정에 도움될 것입니다.

A/B테스팅, 어떻게 시작하나?

우선 자체적으로 컨텐츠, 통계분석, 결과 리포트 등 A부터 Z까지 해결하는건 쉽지않기 때문에, 많은 기업에선 어도비 타겟(Adobe Target), 옵티마이즐리(Optimizely), 구글 Optimize 와 같은 별도의 Personalization 툴을 활용합니다.

특히 WYSIWYG 에디터와 여러 통계분석기능 (예: 유의미도 측정, Lift, etc..) 이 built-in 제공되어서 IT/디자인/분석 리소스를 효과적으로 단축할 수 있습니다.

어도비 타겟

어떻게 계획하고 기록해야 하는가?

물론 가설/프레임워크 형식에 정답은 없으나, 개인적으로 업무시 활용해오던 샘플 템플릿을 공유합니다.

사본을 생성하시거나 다운로드 후 사용하시면 되겠습니다.

 

테스트 결과를 어떻게 해석해야하는지 궁금하신 분들에겐 Box & Whisker 블로그글을 추천드립니다.

 

  • Sunha Baik

    지금 진행하는 프로젝트에 많은 도움이 되는 글입니다. 감사합니다. 🙂

  • Ko Molly

    많은 도움되었습니다:) 감사합니다

  • Yaekyum Lee

    좋은 글 감사합니다, 혹시 Col L의 통계적 유의미도는 계산법이 어떻게 된건지 공유 해주시면 감사하겠습니다~

    • 안녕하세요~ 직접 계산한 것이 아니라, Tool 에서 테스트마다 statistical significance 를 알려주는 값을 기록한것입니다. 직접 구하는것은 시간과 노력이 많이 들어서, 검증된 stat engine이 built-in 된 솔루션을 이용하시는 것을 권장합니다.

      단, 다소 불완전하긴 하지만, 아주 간단하게라도 계산을 하시려면 위 통계적 유의미도 계산기를 확인해보시는것도 좋은 방법입니다 .
      http://neilpatel.com/ab-testing-calculator/

      • Yaekyum Lee

        아…그렇군요! 감사합니다