양승화님의 그로스 해킹을 읽다보면 참 공감가는 부분도 많고 제가 미쳐 알지 못했던 부분을 짚어주시는 점이 너무나도 좋은 것 같습니다.
[책리뷰] 그로스해킹_양승화 (AARRR)
평소에 많이 추천 받고 들어본 책 중 하나인 "그로스해킹-양승화"를 읽으면서 중요한 핵심을 정리해보려고 합니다! 데이터를 활용해 서비스를 개선시키고자 하는 사람이라면 꼭 한번쯤 읽어봐
xod22.tistory.com
오늘은 저번 포스팅에 이어 AARRR 뒷부분인 지표 활용하기 및 A/B 테스트 부분을 읽으면서 되새기면 좋을 것 같은 부분에 대해 공유해보려고 합니다!
1. 지표 활용
1) 스톡지표 = 허상지표
스톡지표는 특정한 찰나(일반적으로는 현재 시점)에 관찰할 수 있는 누적된 값을 말합니다.
스톡지표의 반댓말로 플로지표는 시작과 끝에 대한 시간 범위가 존재하며, 일정한 시간 동안의 변화량을 나타내는 지표입니다.
"린분석"이라는 책에서 허상지표에 대해 읽으면서 지표를 시각화할 때, 대부분 올라가는 지표를 보기위해 시각화한다고 하는 부분에 공감이 간적이 있습니다.
실질적으로 사업에 도움이되는 지표는 어느 부분에 문제가 있는건지, 그러한 문제점을 발견하기 위한 지표여야하기 때문이었습니다.
이와 같은 맥락에서 스톡지표는 단순 누적량을 보여주는 허무지표(=허상지표)에 가깝다고 합니다.
때문에 현업에서 핵심 지표를 선정하거나 성과를 측정할 때 목표하는 지표가 스톡 지표인지, 플로 지표인지 정확하게 인지해야할 것 같습니다.
좋은 지표가 가져야 할 조건 중 하나는 그 지표를 바탕으로 행동할 수 있는 액셔너블한 지표여야 한다고 합니다.
누적 다운로드 / 누적 앱 설치 / 누적 방문자 / 페이지뷰 등 당연하게 시간이 흐름에 따라 증가하는 지표인 허상지표에 빠지지 않도록 항상 인지하고 있는 것이 중요할 것 같습니다.
2) 지표를 명확하게 정의
현업에서 하나의 데이터를 추출하더라도 요청사항을 명확하게 캐치하는 것이 사소하지만 중요한 사항입니다.
MAU를 구한다고 하더라도 어떤 기준으로 집계해서 보는지에 따라 같은 MAU지만 값이 달라지기 때문입니다.
특정 용어에 대한 이해는 사람마다 다르기 때문에 조직 내에서 모든 구성원이 동의할 수 있는 명확한 측정 기준을 정의해야한다고 합니다.
양승화 님의 경험으로 "마이리얼트립"에서도 "크로스셀"을 집계하는 데 사용할 기준을 만들기 위해 질문 리스트를 만들고 회사의 경영진과 각 팀 리더들을 찾아다니며 의견을 듣고 조율하는 과정을 길게 거쳤다고 합니다.
저도 전 직장에서 관리하는 지표(ex, 불량율, 재가공율 등)를 시각화하기 위해 정확한 집계 기준을 만들었어야 했는데요.
이를 위해 오랜시간 조율을 거쳤던 경험이 생각나면서 서로 생각하는 기준을 공유하고, 조율하고, 질문하고, 답변하는 과정이 꼭 필요하다는 점을 상기시킬 수 있게되었습니다.
3) 전체 최적화
지표를 개선하기 위한 행동이 부분 최적화가 아닌 전체 관점에서의 최적화에 초점을 맞춰야 합니다.
일반적으로 광고 성과를 측정할 때 광고의 클릭 당 비용 (Cost Per Click, CPC)은 보통 낮을 수록 좋습니다.
CPC는 낮지만 광고 성과는 좋지 않다면 좋은 광고일까요?
때문에 CPC만으로 광고 성과를 판단하는 것은 적절하지 않은 방법이라고 합니다.
또 다른 예시로 "페이스북 손흔들기 기능"은 대화 활성화를 유도하지만, 실수로 누르기 쉬운 위치에 있어 사용자들의 불편함을 야기했다고 합니다.
이런 넛지(nudge, 쿡쿡찌르다) 전략은 단기적으로 DAU는 증가시킬 수 있겠지만 동시에 사용자 만족도도 함께 증가할까?에 대한 질문에는 마냥 그렇다!고 할 수 없기 때문에 항상 전체 최적화에 대한 고민을 해야할 필요가 있는 것 같습니다.
4) 심슨 패러독스
전체 데이터를 놓고 보면 잘 드러나지 않는 특성들이 쪼개진 상태에서는 명확하게 드러나는 경우가 있습니다.
실제로 데이터를 쪼개보기 위한 방법론으로 코호트 분석, A/B테스트, 퍼널 분석 등이 있구요!
이렇게 쪼개진 데이터에서 성립하는 관계가 합쳐진 데이터에서는 반대로 나타나는 현상을 심슨 패러독스라고 합니다.
실제 데이터를 분석해볼 때, 전체를 볼 때는 원인을 분석해볼 수 없던 것이 데이터를 뜯어보았을 때 원인이 발견되는 경우가 있습니다.
데이터 분석가에게 쪼개보기란 매우 중요하다는 것을 다시금 상기시킬 수 있었습니다!
5) 대푯값 설정하기
데이터 분석에서 가장 일반적으로 활용되는 대푯값은 평균입니다.
저도 데이터 분석을 진행할 때 평균을 보통 대푯값으로 설정했던 경험이 있습니다.
하지만 분석 대상 데이터 세트에 아웃라이어가 있거나 분포를 알 수 없는 경우라면 중앙값(median)을 대푯값으로 사용하는 것을 적극적으로 고려해 볼 필요가 있다고 합니다.
값에 따라 의사결정이 달라지기 때문에 대푯값을 정확하게 설정해야할 필요가 있는데요.
평균의 경우 아웃라이어의 영향을 많이 받는 값이기 때문에 대푯값을 정하기에 앞서 분포를 확인해보고 아웃라이어가 있다면 영향을 덜받는 중앙값을 대푯값으로 설정해야할 것 같습니다!
2. OMTM = 북극성 지표
OMTM은 지금 가장 중요한 지표를 지칭하는 용어로 지금 우리 서비스에서 가장 중요한 지표를 말합니다.
보통 많은 기업에서는 부서별로 달성해야할 KPI를 설정하고, 이 지표는 부서별로 충돌되는 경우도 있습니다.
모든 부서가 KPI를 달성했다면 서비스가 고속 성장하고 있어야할 것 같은데 실제로는 그렇지 않은 경우가 굉장히 많다고 합니다.
이는 즉 KPI 달성과 서비스의 성장이 서로 연결돼 있지 않다는 의미로 이해할 수 있겠죠!
이러한 측면에서 OMTM은 그 자체로 서비스가 진짜 잘 되고 있는지를 알려주는 중요한 지표라고 할 수 있습니다.
OMTM을 설정할 때 흔히 매출을 OMTM으로 정하는 경우가 있는데, 매출은 서비스의 핵심 가치가 사용자에게 잘 전달되었는지와 비례해서 증가하지 않는다는 점에서 좋은 OMTM 지표는 아니라고 합니다.
설령 매출을 높이고 싶은 단계라고 하더라도 OMTM은 매출을 높이는데 기여하는 선행지표를 찾아 정의하는 것이 좋다고 합니다!
3. A/B 테스트
1) 샘플 크기 정하기
가설 정의 단계에서 정한 목푯값 (ex. 가입 전환율이 10% 더 높을 것이다) / 검정력 / 유의수준을 입력하면 샘플 크기를 정할 수 있다.
실험을 진행하기 전, 가설을 검증하려면 어느정도 숫자가 필요한지 파악하는 것은 필수적이다!
Sample Size Calculator
Visual, interactive sample size calculator ideal for planning online experiments and A/B tests.
www.evanmiller.org
Adobe Target Sample Size Calculator
experienceleague.adobe.com
2) A/B 테스트 계산기
통계적인 지식이 없는 경우, A/B 테스트 결과를 단순히 요약값만으로 비교하기도 하는데 (예, A 조건의 클릭율은 5.2%이고, B 조건의 클릭율은 5.4%이므로 B가 더 좋다) 이런 1차원적 비교는 잘못된 판단이 될 가능성이 있다고 합니다.
우연에 의해서 나타난 결과와 실제 효과를 구분할 수 없기 때문입니다.
- 종속변수(y)가 범주형 (예 : 클릭 여부, 가입 여부)
-> 로지스틱 회귀, 카이 제곱 검정
Chi-Squared Test
Visual, interactive, 2x2 chi-squared test for comparing the success rates of two groups.
www.evanmiller.org
A/B Test Calculator
www.abtestcalculator.com
- 종속변수(y)가 이산형 (예 : 클릭 횟수, 결제 금액)
-> T검증, 분산분석
Two-Sample T-Test
Visual, interactive two-sample t-test for comparing the means of two groups of data.
www.evanmiller.org
T-test for two Means - Unknown Population Standard Deviations - MathCracker.com
Use this T-Test Calculator for two Independent Means calculator to conduct a t-test for two population means u1 and u2, with unknown pop standard deviations
mathcracker.com
1️⃣ A/B 테스트 결과를 분석하는 방법
A 조건의 클릭율은 5.4%이고, B 조건의 클릭율은 5.2%이고 테스트 결과를 95% 신뢰수준에서 분석하였다고 가정을 해보겠습니다.
95% 신뢰수준에서 A 조건의 클릭율이 B 조건의 클릭율보다 유의미하게 높다.
이 결과는 어떻게 해석하면 될까요?
통계학에서 가설 검정을 진행할 때, A조건과 B 조건의 클릭율 차이가 없다는 것을 귀무가설로 설정합니다.
가설 검정 결과, 검정통계량이 매우 큰 값이 나온다면(p-value 값은 매우 작은값) 귀무가설 하에 극단적인 검점통계량이 관찰될 확률은 5% 미만이라는 것으로 해석할 수 있습니다.
즉, 이 실험 결과는 대립가설을 채택하여 A 조건과 B 조건은 클릭율의 차이가 있다고 판단하는 것입니다.
A 조건과 B 조건은 클릭율의 차이가 있다.
=> (이 실험 기준) A 조건의 클릭율이 B 조건의 클릭율보다 유의미하게 높다.
2️⃣ 효과 측정하기
우선 A/B테스트에서 가설검정 결과를 100% 신뢰해서는 안된다고 합니다.
표본의 크기가 커지면 p값은 자연스럽게 낮아지는 특성이 있기 때문에 실험 집단의 규모가 매우 크다면 p값이 가지는 의미가 왜곡될 수 있기 때문입니다.
또한 p값이 충분히 낮은 경우라고 하더라도 집단 간의 차이 자체가 미미하다면 실실적으로는 사업적 관점에서의 의미가 없는 경우도 생깁니다.
(ex. A 조건의 클릭율 5.220%, B 조건의 클릭율 5.225%인 상황 -> B 조건의 클릭율이 통계적으로 엄청나게 유의미하게 높다고 해도 이 결과가 현실적으로 가치 있다고 말하기는 어렵다.)
💡다음과 같은 A/B테스트 결과를 가정해보겠습니다.
- A 조건 : 구매 전환율 3%
- B 조건 : 구매 전환율 3.5%
- p<0.01, 즉 99% 유의수준에서 통계적으로 의미있는 결과
이 결과는 얼마나 가치가 있는 실험일까요?
p값이 0.01보다 낮은 결과가 나왔으니 엄청나게 인상적인 실험일까요?
혹은 두 조건의 구매 전환율 차이가 0.5%에 불과한 의미없는 실험일까요?
두가지 비즈니스 상황을 가정해보겠습니다.
상황1)
- DAU (Daily Active User) : 1,000명
- ARPPU (Average Revenue Per Paing User, 결제자 인당 평균 매출) : 10,000원
-> 구매 전환율이 0.5% 개선되면 일 5만원(1,000명 x 0.005 x 10,000원)의 추가 매출이 발생
상황2)
- DAU (Daily Active User) : 1,000,000명
- ARPPU (Average Revenue Per Paing User, 결제자 인당 평균 매출) : 10,000원
-> 구매 전환율이 0.5% 개선되면 일 5,000만원(1,000,000명 x 0.005 x 10,000원)의 추가 매출이 발생
이러한 상황에서 알 수 있는 것은 A/B 테스트의 가치는 단순히 테스트 자체의 결과로 인해 얻어지는 p값과 두 조건의 요약값 차이로만 판단할 것이 아니라, 실험이 실질적으로 효과를 미치는 크기나 영향력을 고려해서 판단해야합니다!
그로스 해킹 책을 읽으면서 두고두고 분석가가 항상 생각하고 있어야 할 점들에 대해 상기시킬 수 있었던 것 같습니다.
이 글 역시 주기적으로 읽고 저의 분석을 회고하는 과정을 거쳐야겠다는 생각을 하게되었습니다!
'✏️ 생각 기록 > 독서' 카테고리의 다른 글
[데이터] 읽고싶은 책 (1) | 2023.12.17 |
---|---|
[데벨챌] 데이터 문해력 1,2장 후기 - 1주차 (0) | 2023.10.08 |
[책리뷰] 프로덕트 오너 (김성한) 리뷰 (0) | 2023.09.24 |
[책리뷰] 그로스해킹_양승화 (AARRR) (0) | 2023.02.13 |