in Plan: 계획

UV의 덫: 정확한 사용자수는 측정 가능한가?

Share

“이 리포트와 저 리포트 UV가 왜 다른가요? 어떤 툴에서든지 숫자가 같아야하는 것 아닌가요?”

“Ad ID·IDFA·쿠키값·회원ID 싹 추출해서 맵핑하면 정합성 체크되지 않나요?”

“이 값이 리셋된다면, 과연 그게 맞는 기준인가요?”

……

음.. 아놔…

모바일앱·웹 분석을 시작하기도 전에 정합성에 집착(?)하는 상황을 보면 개인적으론 안타깝습니다. 정확성은 추구하되, 검증보단 기준이, 고민보단 실행이 훨씬 더 중요하다고 믿기 때문입니다.

순방문자 (UV, Unique Users 또는 사용자수) 측정은 2017년 지금도 여전히 완벽하지 않습니다. 그리고 그럴만한 이유도 있습니다.

디지털 분석의 기본개념과 한계를 설명한 글 일부를 공유합니다 (긴글주의).

(*원문: You’d Think We’d Have Figured Out How To Measure Web Traffic By Now)

왜 여전히 정확한 방문자수를 알 수 없는가

지난 5월 한 기사에 따르면, ESPN 공식블로그인 Grantland 순방문자(UV)가 3월에는 6백만명이었지만, 내부 수치로는 4월들어 1천만명에 가까웠다고 합니다.

작년 말 월스트리트저널은 버즈피드의 월간 이용자수가 7460만명이라 했으나, 버즈피드 내부 데이터에 따르면 “약 2억명으로 컴스코어(comScore) 수치와 큰 차이를 보인다”고 밝혔습니다.

아리아나 허핑턴은 허핑턴포스트의 1억1500만 UV를 기념하기 위해 ‘1억개의 감사메시지’ 라는 글을 썼지만, 내부 집계는 이미 3억 6800만명을 넘어섰으며 공식수치보다 높다고 밝혔습니다.

UV오차

여러 인터넷기업이 UV 데이터 오차를 겪고 있습니다.

순방문자(Unique Visitors) 는 많은 사람들이 디지털 트래픽을 얘기할 때에 사용하는 지표입니다. 사용자가 사이트를 매일 몇번을 방문하던지, 순방문자는 말그대로 한 명으로 기록됩니다 (최소한 이게 그 정의입니다).

초기에는 페이지뷰(PV) 라는 지표를 사용했습니다. 하지만 단순 조회수를 측정하는 PV 보다 실사용자수를 나타내는 순방문자(UV) 지표는 어느새 빠르게 중요성을 인정받았습니다. 광고주들은 이제 페이지뷰가 아닌 고유 방문자수에 신경을 씁니다.

하지만 정말로 ‘고유한’ 방문자라면, 어떻게 집계기준간에 4백만, 1억, 심지어 2억명 이상 오차가 발생하는 걸까요? 스마트폰과 컴퓨터가 모든 정보를 수집하고있는 이시대에도, 여전히 당신의 사이트에 몇명이 방문했는지 정확한 측정은 불가능합니다.

그리고 이 문제의 중심에는 쿠키라는 구멍이 자리하고 있습니다.

web-cookies

…..

‘쿠키 (cookie)’: 인간이 웹에남긴 첫 흔적

쿠키는 웹에 기억력을 불어넣기 위해서 루 몬툴리(Lou Montulli) 라는 개발자가 처음 만들었습니다. 그의 블로그에 따르면, 쿠키가 만들어지기 전 인터넷은 마치 ‘치매에 걸린 사람과 대화’하는 것과 같았다고 합니다. 만날때마다 매번 내 자신을 소개해야 하는 것입니다.

이메일을 확인하려면 매번 아이디와 비밀번호를 입력해야 했습니다. 온라인 쇼핑은 더 어려웠는데, 주문완료를 위해서는 페이지마다 끈김이 없어야만 했습니다. 혹시라도 뒤로가기 버튼을 누르거나 실수로 창을 닫게되면, 처음부터 쇼핑을 다시 시작해야만 했습니다.

몬툴리는 1994년 그가 넷스케이프 프로그래머였던 시절 이 문제를 개선하려 했습니다. 그는 쿠키라고 하는 메모리파일을 만들어서, 사용자의 온라인 활동내역을 저장했습니다. 만약 Outpost.com 라는 사이트를 처음 방문하면, 브라우저가 하드드라이브에 쿠키를 다운받게 됩니다. 다음에 또다시 같은 사이트를 방문하면 사이트는 브라우저에게 쿠키파일이 있는지 여부를 확인합니다. 쿠키가 있다면 당신이 누구인지, 장바구니엔 어떤 제품이 있었는지 내역을 기억해서, 처음부터 다시 쇼핑을 시작할 필요가 없어졌습니다.

그런데 사실 이것보다 더 간단한 해결방법은 모든 브라우저나 사용자에게 각각 고유 ID/ 코드를 부여하는 것이었습니다. 마치 고속도로 통행시에 면허증을 제시하는 것처럼 말입니다.

면허증

하지만 당시 몬툴리는 이 아이디어를 매우 반대했는데, 그는 “고유 ID 를 사용하면 모든사이트에서 유저를 추적할 수 있기때문”이라고 밝혔습니다.

바꿔 말하면, 쿠키는 개인정보보호와 트랙킹을 동시에 충족하는 고유 신분증이 아닌, 방문할때마다 스탬프를 찍어주는 적립카드에 더욱 가까웠습니다.

적립카드

곧이어 마케터들은 쿠키의 유용함을 알게됐습니다.

사이트 고유의 쿠키 (1st party) 뿐만 아니라, 마케팅 및 타겟팅을 위한 제3자 쿠키 (3rd party) 도 사이트에 심을 것을 요구했습니다. 이렇게되면 유저가 동일한 3rd party 쿠키가 설치된 두 개의 사이트를 방문했을때, 이 두 사이트 모두에서 방문기록이 남고, 이걸 계속 확장하면 마케터는 당신의 전반적인 브라우징 패턴을 이해할 수 있게 됩니다. 당신이 눈치채지 못하게 등에 이름표를 붙여놓으면 굳이 면허증마저도 필요가 없어진 것입니다.

이를 통해 마케터는 방문자 프로필 데이터를 구축하고, 더 나아가서 사용자에게 최적화된 광고를 노출할 수 있게 되었습니다. 법률사이트 방문 후에 다른 사이트에 가면 변호사 사무소 배너광고를 노출하는 식입니다.

그러나 쿠키 작동방식의 한계로 인해, 여전히 마케터들은 사이트를 방문한 실제 사람수가 정확하게 몇 명인지까진 알 수 없습니다. 적립카드(=1st-party 쿠키) 이던 몰래 붙이는 이름표(=3rd-party 쿠키) 이던 관계없이, 쿠키는 사용자별로 발급되는 것이 아니라 특정 기기내 특정 브라우저로만 설정되기 때문입니다.

만약 당신이 크롬과 사파리를 같은날 사용한다면, 당신은 두 개의 다른 쿠키로 인식됩니다. 만약 크롬과 사파리를 집·회사 컴퓨터 두군데에서 모두 사용한다면, 두개는 네 개가 됩니다. 여기에 스마트폰·태블릿도 사용하고, 각 기기에서 두 개 이상 브라우저를 사용한다면 네 개가 8개로 늘어납니다.

그리고 만약 캐시나 쿠키를 삭제하고 해당사이트를 다시 방문하게 되면, 수치는 더욱 올라갑니다.

쿠키 = 스탬프카드

마치 합산안되는 커피샵 스탬프카드 여러장 갖고있는것과 같습니다.

내부집계 UV 데이터는 결국 이 고유 쿠키값을 카운트한 수치입니다. 사용자가 실제로 사이트를 방문한 횟수를 사용브라우저·기기수로 곱한 수치 말입니다.

이 쿠키 수를 한 번 더 가공·처리한 수치가 바로 ComScore(컴스코어), Quantcast(퀀트캐스트), 닐슨에서 발표하는 자료입니다. 이런 리서치회사는 자체 예측모델을 활용해서, 사용자가 실제로 사이트를 방문했는지 여부를 추측합니다.

그렇다면 표본조사 방식은 대안인가?

컴스코어는 닐슨이 TV 시청률 측정을 위해 사용했던 방식을 디지털분석에 처음 적용한 회사 중 하나입니다. 당시 닐슨은 패널 가구를 선정해서 조사 후, 이 샘플을 토대로 전체인구에 대한 추정치를 구했습니다. 이 데이터는 설치된 조사기기를 통해 수집되거나, 패널들이 직접 작성한 시청일지를 바탕으로 이뤄졌습니다.

컴스코어도 이와 마찬가지로 패널들의 PC에 자사 트랙킹 스크립트 설치 후 수집된 데이터를 분석합니다.

닐슨의 TV 시청률 조사는 약 5만여명의 패널을 통해 이뤄졌는데 (미국기준), 컴스코어는 디지털 보고서를 위해 약 22만 5천명의 패널 샘플을 이용합니다. 컴스코어 스스로도 샘플수가 더 높아질 필요가 있다고 하는데, 이는 디지털 사용패턴이 각 유저별로 매우 다르기 때문입니다.

결과치는 물론 예측값이지만, 적어도 컴스코어는 이 데이터가 쿠키가 아닌 실제 사용자들로부터 나온 것임을 압니다.

샘플링 오류

하지만, 모바일 시대로 넘어오면서 이 접근방법은 더이상 유효하지 않게 되었습니다. PC와는 달리, 모바일앱은 사용하지 않을 때 백그라운드에서 실행되지 않기 때문에, 사용자 데이터를 지속적으로 수집할 수 없었기 때문입니다.

그래서 점차 사용자들이 모바일로 옮겨가기 시작할 때, 컴스코어는 복합적인 방식을 시도하게 됩니다.

“2009년 이전에는 표본조사 방식이 유의미했으나, 곧 우리는 한계를 깨달았다. 이제야 어느정도 올바른 측정방향에 대해 확신이 섰는데, 그건 바로 표본조사와 태그를 통한 Site-centric (전수) 측정을 같이 해야 한다는 것이다” – 조쉬 체이신, comScore 최고 연구담당임원

많은 외부자료에서 컴스코어 수치가 인용되지만, 이것이 곧 정확하다는 것을 의미하진 않습니다. 컴스코어 스스로도, 더 정확한 측정을 위해선 모바일 표본수가 더 높아져야 한다고 말합니다.

기술적인 부분 이외에도, 모델링은 시간이 소요됩니다. 컴스코어같은 조사업체들이 발표하는 ‘가장 많이 방문한 웹사이트/앱’ 리포트는, 적어도 몇주에서 몇달 이후에나 받아볼 수 있는데, 즉각적인 의사결정이 요구되는 마케터나 미디어 담당자들에게는 의미가 다소 떨어집니다.

리서치 회사별로 예측 모델이 다르기 때문에 각각 매월 다른 수치를 제공하며, 이것을 연령대·가구별 소득수준·구매행태별로 나눠보면 오차는 더 커집니다. 이건 사용자 설문에 전적으로 의존하는 정보이기 때문입니다.

봇 트래픽또다른 복병, 봇트래픽

그리고 지금까지의 얘기는 어디까지나 쿠키가 실제 사람들에 의해서만 남겨졌다는 가정에 한해서만 유효합니다.

조사에 따르면, 대형 사이트의 56% 정도가 봇 트래픽이며, 소규모 블로그나 중소 미디어사이트의 경우 최대 80% 까지 차지합니다. 이중엔 구글과 같은 검색엔진이 사용하는 “좋은” 봇이 있는 반면, 해커들이 사용하는 “나쁜” 봇도 있습니다.

이때문에 미디어 검증 위원회 (MRC) 라는 기관에서 봇 디텍션과 제외규칙을 공식적으로 정하고, 분석솔루션 업체들에게 사용을 권고합니다 (어도비 및 구글애널리틱스에서도 사용중입니다).

GA 관리자 메뉴내 봇 필터링 옵션. 괜히 있는게 아니었습니다.

어도비와 구글에서도 IAB 기준으로 봇 필터링이 이뤄집니다.

하지만 모든 봇트래픽을 걸러낸다 하더라도, 이또한 추정치에 추정을 더한 것일 뿐입니다.

“만약 우리 내부수치가 정확하다고 말한다면, 미국 전체인구가 지난달에 ESPN 을 적어도 한 번씩 방문했다는 뜻인데, 물론 그랬다면 좋지만 사실은 아니다.”

“어떤것이 옳고 잘못된 것이 아니라, 그냥 다른 기준으로 집계되는것일 뿐이다. 그리고 이래야만 한다는 것이 사실이 매우 불편하다” – 데이비드 콜레티, ESPN 디지털미디어분석 VP

따라서 UV 라고 하는건 현재 기술에서는 언제나 추정치일 것이며, 미디어에서 기자들이 인용하는 내부측정치라고 하는것 마찬가지로 실제 ‘고유한’ 사용자수와는 거리가 멉니다.

페이스북은 알고있다?!

페이스북은 이 문제에 새로운 접근을 시도하고 있습니다.

페이스북은 사용자수 트랙킹을 위해 쿠키값을 필요로하지 않습니다. 실제 사용자들의 사진이 있고, 얼굴 인식도 할 수 있고, 심지어 이름, 나이, 성별, “좋아요”, 거주지역같은 정보도 파악할 수 있습니다.

페이스북 광고플랫폼 소개페이지

단순한 쿠키 기록이나 단편적인 통계 수치가 아닌 실제 사람들에 대한 정보

애플·구글같은 기업도 기기·브라우저·기간에 구애받지 않는 ‘영구 로그인‘ 을 활용해서 쿠키·기기ID 에서 벗어나기 위해 노력중이지만, 아직까진 페이스북이 가장 우위를 점하고 있다고 할 수 있습니다.

그리고 이 방식에선 몇명의 사용자가 방문했는지를 넘어서, 실제 방문자가 누구인지 조차도 알 수 있습니다.

근사치, 추정치, 쿠키가 아니라 당신의 기록이 그대로 남는 것입니다.

온라인 사생활 침해

정확한 데이터에 가까워질수록 또다른 사생활 침해 논란을 일으킬 수 있습니다.

결론

진정한 고유 사용자수를 알기위한 노력은 여전히 진화중입니다. 점차 많은 기업이 슈퍼쿠키와 같은 기술을 검토하고 있습니다. 더이상 적립카드가 아닌, 말그대로 궁극의 온라인 면허증이 사용되는 시대가 오고 있습니다.

어쨌든 아직까진 루 몬툴리의 쿠키는 사용자 트랙킹 뿐만 아니라 보이지않는 개인정보 보호 측면에서도 여전히 쓸모가 있습니다. 빠져나갈 작은 틈새를 허용하는 것도 어찌보면 쿠키라는 기술이 가진 이점입니다 (모바일 Ad ID, IDFA 등도 비슷한 부분이 있습니다).

결국 검증가능하고 정확한 사용자 데이터란 존재하지 않습니다.

중요한 건 조직원 모두가 합리적이라고 생각하는 기준점과 이를보며 실행해나가는 힘입니다.

 

  • Jacob

    글 재미있게 잘 읽었습니다:)
    저도 광고 클릭 수와 앱 설치 수 간의 discrepancy에 대한 문의 정말 많이 받았었는데..
    이 글을 보니 또 생각나네요…ㅎㅎㅎ
    좋은 글 잘 보고 갑니다!

  • kayros

    UV에 대한 오차는 모든 마케터들이 한번쯤 겪어봤을 법한 이슈죠 ㅎㅎ
    마지막 문장에 깊은 공감을 하고 갑니다 ^^

    • 하하 네 다들 그렇게 느끼시나봐요~ 감사합니다 kayros 님