세미나 광고 이미지
  • 데이터 분석
  • 통계

개별 사용자를 고려한 이탈 측정하기

세미나 광고 이미지
세미나 광고 이미지
✍🏻
Editor 선미's comment
이 글의 출처는 박스앤위스커 블로그 개별 사용자를 고려한 이탈 측정하기 입니다. 이전 글인 이탈 기준 정하기에서는 이탈이란 무엇인지 기준을 정하는 방법에 대해서 얘기했다면, 이 글에서는 개별 사용자의 서비스 충성도를 고려하여 사용자마다 이탈할 위험을 계산하는 위험 비율(Risk Ratio)를 소개합니다.
쉽게 이야기하면 ‘한 달에 한 번 접속하던 사용자가 3일 동안 서비스에 들어오지 않은 것보다, 원래 매일 들어오던 사용자가 3일 동안 서비스에 들어오지 않은 것이 더 위험하다’는 직관을 숫자로 표현한 것이 위험 비율입니다. 더 나아가면 이 위험 비율을 사용해 개별 사용자가 이탈할 확률을 계산할 수 있게 됩니다. 이런 이야기가 흥미로우신가요? 그렇다면 이 글을 읽어보세요!
 

개별 사용자의 이탈

‘이탈 기준 정하기’에서 ‘이탈(churn)’의 기준을 데이터로 정하는 방법에 대해서 논의하였다. 데이터로 이탈 기준을 정했지만, 개별 유저의 특성을 무시하고 하나의 기준을 만드는데 그쳤다. 사용자마다 서비스 접속 주기가 다를 수 있으므로 이를 고려한 이탈 기준을 찾는다면 더 나은 사용자 관리가 가능하다.
 
 

예시: 접속 주기가 다른 사용자 비교

아래 그림은 A라는 사용자의 접속 빈도를 시계열로 나타낸 것이다. 편의상 일 단위 접속을 예시로 든다. 서비스의 특성에 따라 접속 기준은 일정한 시간 간격으로 바꿀 수 있다.
 
평균적으로 1.75일에 한 번씩 접속하는 A 사용자
평균적으로 1.75일에 한 번씩 접속하는 A 사용자
 
화살표가 서비스에 접속한 날을 의미하고, 각 화살표 사이의 숫자는 접속 주기를 나타낸다. 예를 들어, ‘2’라는 숫자는 A라는 사용자가 이틀만에 서비스에 접속했다는 의미다. A 사용자는 총 9번 접속한 기록이 있으며, 8개의 접속 간격을 계산할 수 있다. 이 8개 접속 간격의 평균을 계산하면, (1 + 1 + 1 + 2 + 1 + 3 + 2 + 3) / 8 = 1.75이며, 편의상 반올림하여 2일이 된다. 즉, A라는 유저는 평균 이틀에 한 번 꼴로 접속한다. 그러나, 오늘 날짜에서 A는 7일 동안 접속하지 않았다. 평균 이틀에 한 번씩 접속하던 사용자가 7일 동안 접속하지 않았으므로, 이탈 가능성이 높다.
이제 또 다른 사용자 B의 접속 주기를 살펴본다.
 
평균적으로 3.5일에 한 번씩 접속하는 B 사용자
평균적으로 3.5일에 한 번씩 접속하는 B 사용자
 
A와 마찬가지로 B 사용자도 평균 접속 주기를 계산할 수 있다. (2 + 3 + 4 + 5) / 4 = 3.5이며 반올림하면 4일이 된다. 즉, 사용자 B는 평균적으로 4일에 한 번 꼴로 서비스에 접속한다. B도 7일 동안 접속하지 않았으므로, 이탈 가능성이 높다.
 
 

이탈 가능성 비교

사용자 A와 B는 똑같이 7일 동안 접속하지 않았다. 만약 서비스의 일괄적인 이탈 기준이 5일이라면 두 명의 사용자는 똑같은 이탈 유저가 된다. 그러나, 서로 다른 접속 주기를 고려한다면 A와 B는 다른 이탈 가능성을 갖는다. 단순히 마지막 접속 경과일이 특정 숫자를 넘으면 이탈 유저이고 그렇지 않으면 이탈 유저가 아니라는 식의 구분은 주어진 정보를 충분히 사용하지 않는 것이다.
이러한 문제를 해결하기 위해서 개별 사용자의 접속 주기와 최종 접속 경과일을 함께 고려한 척도가 필요하다. 하나의 대안으로 [최종 접속 경과일] / [평균 접속 주기]라는 새로운 지표를 만들고 위험 비율(Risk ratio)이라고 부른다. 사용자 A와 B에 대해서 새로운 지표를 계산하면 아래 그림과 같다.
 
위험 비율(Risk Ratio) = 최종 접속 경과일 / 평균 접속 주기
위험 비율(Risk Ratio) = 최종 접속 경과일 / 평균 접속 주기
 
A의 경우, 평균적으로 2일마다 서비스에 접속했으나 최근 7일 동안 접속하지 않았으므로 7 / 2 = 3.5의 위험 비율을 갖는다. 평균 접속 주기의 3.5배 시간만큼 접속하지 않았다는 의미가 된다. B의 경우, 평균적으로 4일마다 서비스에 접속했으나 최근 7일 동안 접속하지 않았으므로 7 / 4 = 1.8의 위험 비율을 갖는다. 평균보다 1.8배의 시간동안 접속이 없었다. 이 두 가지 숫자를 비교하면 사용자 B보다는 A가 이탈 가능성이 높다.
 
 

위험 비율의 의미

기존의 이탈 기준은 최종 접속일 이후 경과한 시간을 기준으로 사용자의 이탈 유무를 구분하였다. 따라서 사용자가 그동안 어느 정도의 충성도로 서비스를 이용했는지 아무런 정보를 사용하지 않는다. 새롭게 계산한 위험 비율은 최종 접속 경과일과 함께 개별 사용자의 충성도를 고려한다. 두 가지의 중요한 정보를 함께 고려하기 위해서 위험 비율이라는 하나의 척도로 이를 요약하였고, 이를 통해서 서로 다른 충성도와 다른 휴지기를 갖는 사용자를 비교할 수 있게 되었다.
 
 

위험 비율을 이용한 이탈 예측 모형

위험 비율은 그 자체 숫자만을 가지고 사용자 사이의 이탈 위험성을 상대 비교할 수 있다. 어떤 사용자가 이탈할 가능성이 더 높은지 비교하는 척도로 사용 가능하다. 이를 더 발전시키면 이탈 예측을 위한 통계 모형의 중요 설명 변수로 사용 가능하다. 상대 비교가 아니라 특정 사용자의 이탈 확률이 얼마인지 계산하는 방법에 이용할 수 있다. 특히, 이탈 기준 정하기에서 도출한 일괄적인 이탈 기준을 결합하면 위험 비율을 이용한 이탈 예측 모형을 만들 수 있다. 이를 통해서 위험 비율이라는 척도를 0과 1사이의 이탈 확률로 표현할 수 있다. 이는 이탈 예측하기에서 자세히 살펴본다.
박장시데이터 분석가

2008년부터 넥슨에서 데이터 분석가로 근무하였고, 2013년부터 프리랜서 분석가로 다수의 데이터 분석 프로젝트에 참여하였다.

함께 읽어보면 좋은 글

주식회사 데이터리안