세미나 광고 이미지
  • 데이터 분석

코호트 분석 Cohort Analysis

세미나 광고 이미지
세미나 광고 이미지
안녕하세요. 데이터리안의 윤선미입니다.
지난 글에서 보민님이 RFM 분석을 소개해주셨어요. 고객들을 Recency, Frequency, Monetary 라는 세 기준을 가지고 분류하고 이것을 어떻게 활용할 수 있을지에 대한 이야기를 해봤습니다. 이렇게 고객들을 공통의 특징을 기준으로 그룹화하는 작업을 '고객 세분화(Customer Segmentation)'라고 합니다.
 
 

고객 세분화 Customer Segmentation

공통의 특징을 공유하는 집단별로 고객을 세분화하면 다양한 일들을 할 수 있습니다.
 
『린 분석』 p59 웹사이트에서는 방문자들을 다양한 기술적 정보와 인구통계학적 정보에 따라 세분화한 다음 한 고객군을 다른 고객군과 비교한다. 만약 파이어폭스 브라우저를 사용하는 방문자들이 다른 방문자들보다 구매 건수가 훨씬 적다면 그 이유를 밝히기 위해 테스트를 실시해야 한다. 만약 오스트레일리아 사용자들이 다른 지역의 사용자들보다 웹사이트 활동이 활발하다면 그 이유를 조사해서 알아낸 다음 다른 고객군에게도 그 성공을 복제하려고 노력해야 한다.
 
이처럼 고객을 세분화하여 나누고 나면 개선이 필요한 고객군을 발견하기도 하고, 다른 고객군들과 현저하게 다른 성과를 내는 고객군을 발견하기도 합니다.
여러분들이 쇼핑몰을 운영하고 있다고 생각해봅시다. 그리고 쇼핑몰의 고객들을 최초 유입 경로에 따라 세분화 해봅시다. 페이스북에서 광고를 본 사람, 인스타그램에서 광고를 본 사람, 지인의 추천으로 알게 된 사람, 구글 검색으로 알게 된 사람 등 쇼핑몰의 고객들은 매우 다양한 경로를 통해 이 쇼핑몰에 가입했을겁니다.
 
이렇게 고객들의 집단을 세분화하면 아래 질문에 답할 수 있게 됩니다.
  • 어떤 채널을 통해 가입한 고객들이 가장 많은가요?
  • 유입 채널 별로 고객 1인당 결제 금액(ARPU, Average Revenue Per User)이 다른가요?
  • 어떤 유입 채널을 통해 들어온 고객이 우리 서비스에 가장 많은 지출을 하고 있나요?
  • 그 유입 채널의 광고를 늘려볼까요? 아니면, 그 유입 채널에서 하고 있는 광고 형식을 다른 채널에도 적용해볼까요?
 
만약 인스타그램 광고를 보고 최초 유입된 고객 그룹이 다른 그룹보다 서비스 참여도도 높고 지출도 많다면 '오 그렇군😲' 하고 넘어갈 것이 아니라 이 성공이 어떻게 발생했는지를 알아내고 그 성공 방정식을 확대 적용해야 합니다. 만약 인스타그램이라는 채널 자체의 특성 덕분이었다면 인스타그램으로부터 고객 유입을 더 유도하기 위해 마케팅 예산을 확대해볼 수도 있습니다.
 
 

코호트 분석 Cohort Analysis

코호트 분석은 위에서 얘기한 고객 세분화를 '시간의 흐름'을 기준으로 하는 것을 말합니다. 사실 넓게 이야기 하는 사람들은 위의 고객 세분화와 코호트 분석을 따로 구분하지 않습니다. 저도 고객 세분화와 코호트 분석을 엄밀하게 구분하는건 크게 의미가 없다고 생각합니다만(이름이 뭐가 중요하겠어요. 분석으로 얻은게 있었나가 중요하지요.), 고객을 세분화하는데 시간 축을 이용해 분석하는 것이 꽤 유용한 분석 방법론이 되기 때문에 이 파트에서 따로 이야기를 해보겠습니다.
예를 들어, 여러분이 온라인 쇼핑몰의 분석가라고 생각해봅시다. 이 쇼핑몰에는 매달 천 명이 신규로 가입합니다. 사업을 시작한 후 첫 5개월 동안의 고객 당 평균 매출액을 표로 그렸을 때 아래와 같다고 가정합시다.
 
1월
2월
3월
4월
5월
전체 고객 (명)
1,000
2,000
3,000
4,000
5,000
고객 당 평균 매출 (달러)
$5.00
$4.50
$4.33
$4.25
$4.5
표 출처: 『린 분석』 p60
 
우리 쇼핑몰, 잘 되고 있는걸까요?
이 표를 보고 상황이 좋아지고 있는지, 나빠지고 있는지 알기는 어렵습니다. 고객 당 평균 매출이 5달러면 잘 하고 있는걸까요? 5달러에서 4.25달러까지 감소했다가 5월에 4.5달러 수준으로 회복하고 있으니까 상황이 좋아지고 있다고 생각해도 되는걸까요?
이제 같은 데이터지만 고객군을 가입 시기에 따라 나누어서 표를 다시 그려보겠습니다.
 
코호트
볼륨
1개월
2개월
3개월
4개월
5개월
1월 가입자
1,000명
$5.00
$3.00
$2.00
$1.00
$0.50
2월 가입자
1,000명
$6.00
$4.00
$2.00
$1.00
3월 가입자
1,000명
$7.00
$6.00
$5.00
4월 가입자
1,000명
$8.00
$7.00
5월 가입자
1,000명
$9.00
평균
1,000명
$7.00
표 출처: 『린 분석』 p61
 
위 표를 같이 읽어봅시다. 일단 매월 1,000명의 신규 가입자가 들어오고 있는 것을 알 수 있습니다. 그리고 매월 신규로 가입한 고객의 첫 달 평균 구매액이 1월 가입자는 $5에서 5월 가입자는 $9로 거의 두 배 가까이 증가하고 있습니다. 그리고 1월 가입자들의 평균 구매액이 $5에서 $3로 가입 이후 시간이 지날수록 가파르게 하락하고 있는데 반해 3월 가입자들은 첫 달 평균 구매액은 $7에서 다음달은 $6으로 그리고 그 다음달에는 $5로 완만하게 하락하고 있습니다.
고객들의 첫 달 구매액은 크게 증가하고 있고 구매액의 감소폭도 개선되고 있는 것을 알 수 있습니다. 이렇게 사용자들을 시간의 흐름에 따라 그룹으로 나누어 분석하는 방법은 매출을 분석할 때 뿐만 아니라 리텐션, 바이럴 효과, 이탈 등 여러분들이 분석하고 싶은 어떤 지표에도 적용해볼 수 있습니다.
아래에서는 Google Analytics 에서 기본 보고서로 제공하는 리텐션 차트를 같이 살펴보면서 코호트 분석을 리텐션에 응용한 사례를 설명하겠습니다.
 

코호트 분석 응용 - 리텐션 차트

리텐션을 처음 들어보셨다면 리텐션 (1) Classic Retention을 먼저 읽어주세요.
아래 차트는 Google Analytics 콘솔에서 지원하는 데이터리안 웹사이트 사용자 유지율 차트입니다. 삼각형의 차트 형태가 익숙하시죠? 위에서 봤던 코호트 분석을 리텐션에 적용했기 때문입니다. 사용자를 첫 방문 시기별로 나누어 시간이 지남에 따라 각 그룹의 사용자들이 웹사이트에 재방문하는지를 볼 수 있습니다.
아래 표에서는 사용자 그룹을 일주일 단위로 나누었습니다. 표에서는 1월 30일 ~ 2월 5일 사이에 웹사이트에 첫 방문한 사용자 그룹 등 총 6개의 사용자 그룹을 볼 수 있습니다. 컬럼에는 각 사용자 그룹이 첫 방문 이후 얼마나 시간이 지났는지를 표시합니다. 첫 방문한 주차를 0주째, 그 다음 주차를 1주째라고 부르는 식입니다.
 
notion image
 
이 차트에서는 색이 진할수록 비율이 높음을 의미합니다.
코호트 분석을 배운 여러분들이 보시기에 데이터리안 웹사이트는 어떤가요? 잘 운영되고 있는 것 처럼 보이시나요? 여러분이 데이터리안의 데이터 분석가라면 이 리텐션 차트를 보고 어떤 분석을 추가적으로 해보시겠어요?
 
 

데이터 분석은 사용자를 이해하고 설득의 방법을 찾는 여정

데이터 분석은 결국 사용자를 이해하고, 설득의 방법을 찾는 여정이라는 생각이 듭니다. 데이터 없이 사용자들의 생각을 알 수 있을까요? 아니요. 우리는 사용자들을 오해만 할 수 있을 뿐입니다. 결제를 안 하는 사용자들이 밉죠. 우리 서비스 좋은데 왜 결제를 안해줄까. 광고는 잘 되고 있고 앱을 다운로드까지 했는데 하루 이틀만에 삭제해버리는 사용자들이 원망스럽습니다. 우리 앱 재밌는데 왜 안 써줄까?
데이터를 들여다보면 사용자를 이해할 수 있게 됩니다. '아 결제 하는데 이런 어려움이 있었구나', '앱 튜토리얼이 너무 어려웠구나' 그리고 떠나간 사용자들 또는 미래에 다시 만나게 될 사용자들을 설득할 방법을 찾을 수 있게 됩니다.
이번 글에서는 한 발 더 나아가서 '사용자'라고 뭉뚱그려 생각했던 집단을 여러 그룹으로 나누어봤습니다. 특정 SNS 플랫폼에서 어떤 광고를 보고 들어온 사용자들과 다른 사용자들을 비교하면서 그 둘이 다른 사용자들임을 이해했습니다. 그리고 특정 세분화 그룹(Segmentation)의 성공을 보고 감탄만 할 것이 아니라, 적극적으로 확대 적용해야 한다는 것도 이야기했습니다. 그리고 시간의 흐름에 따라 사용자를 그룹화하는 분석 방법(코호트 분석)까지 살펴봤습니다.
혹시 이슬아 작가와 정세랑 작가를 아시나요? 제가 좋아하는 두 작가인데요. 이슬아 작가가 정세랑 작가의 소설 쓰는 수업에 들어가서 ‘소설이 너무 안써져요' 라고 했더니 정세랑 작가가 ‘등장 인물이 몇 명이에요? 등장 인물을 추가하세요' 라고 대답했다고 합니다. 이 얘기를 듣고 난 이후에 저도 수업에서 종종 농담조로 "소설이 잘 안써지면 인물을 추가하면 된대요. 분석이 잘 안풀리면 코호트를 추가하세요." 라는 말을 합니다. 꼭 데이터 분석가가 아니더라도 데이터를 사용하려고 시도해본 사람이라면, 널려있는 데이터들 사이에서 길을 잃은 것 같은 느낌을 받은 적이 있었을거라고 생각합니다. 어떤 면에서 데이터 분석은 소설을 쓰는 것과도 비슷한 것 같아요. 백지를 이야기로 채워나가야 하니까요. 결국 그 백지를 사람에 대한 이야기로 채워야 한다는 점도 비슷합니다. 이번 글을 통해 사용자를, 유저를, 고객을 더 섬세하게 이해하는데 가장 좋은 도구를 여러분에게 쥐여드렸습니다. 데이터를 가지고 사용자에 대한 이야기를 써내려가봅시다.
 
여러분의 서비스를 사용하는 사람들은, 어떤 사람들인가요?
윤선미데이터 분석가

어느새 7년차 데이터 분석가이고, 4년째 데이터 분석 교육을 하고 있습니다. 데이터리안 멤버들과 함께 일하면서 데이터의 힘을 더 믿게 되었습니다.

함께 읽어보면 좋은 글

주식회사 데이터리안