[TIL-260427] 멋쟁이사자처럼 그로스마케팅 4기 - 데이터분석 개론 day33 | 머신러닝 - 시계열 데이터 분석 2 & 코호트 리텐션율 예측
pamsyra2026. 4. 27. 20:34
▼오늘 배운 사항들 1. 시계열 데이터 분석 2. 코호트 W1 리텐션율 예측
Part 1. 시계열 데이터 분석
[시계열 데이터 분석 단계]
1단계 : 데이터 만들기
2단계 : 데이터 분리
3단계 : 데이터 탐색 - 시각화
4단계 : ARIMA 모델 학습
5단계 : 모델 예측
6단계 : 모델 예측 결과 확인 - 시각화
7단계 : 정확도 요약 → 마케팅 인사이트 : 모델링 인사이트
8단계 : 실제 데이터 예측
▶ 중요한 건 흐름이고 단계별로 나오는 데이터와 변수들이 다음단계에서 어떻게 적용되고 얼라인되는지 파악하는 것
[3단계&6단계] 데이터 탐색 - 시각화
실무에서는 노이즈가 많은 데이터를 다루게 됨
주어진데이터와 모델링 돌린 데이터 시각화를 비교
[예측결과 확인]
1. 좁게 시작했는데 넓어지는 현상 : 단기예측보다 장기예측이 더 어렵다는 점
2. 주황색 : 우리가 예측한 값으로 트렌드에 맞게 우상향하는걸 보아 트렌드 방향이 잘 되었구나
3. 실선에 점선이 잘 붙은걸 보아 예측 정확도가 나쁘지 않구나
[7단계] 정확도 요약
모델 성능 평가 시, 반복문 활용해서 steps만큼 나오는 연결성 잊지말기
[8단계] 실제 데이터 예측
실제 데이터를 넣을뿐 모델 예측과 동일하게 진행
미래예측결과를 가지고 마케팅 KPI 설정 시 근거로 활용
# 9. 실제 데이터로 학습하기
# 36개월 전부넣고 그 이후의 6개월에 대한 예측 실제로 진행
# 9-1 모델 생성
model = ARIMA(df['가입자'], order=(1,1,1))
# 9-2 모델 학습
최종모델 = model.fit()
# 9-3 모델 예측 - 향후 6개월
미래예측결과 = 최종모델.get_forecast(steps=6)
# 9-4 예측값 추출
미래예측가입자수 = 미래예측결과.predicted_mean.values # values는 배열형태로 값을 받겠다
# 9-5 95%에 대한 예측 범위
미래예측범위 = 미래예측결과.conf_int(alpha=0.05)
미래예측하한 = 미래예측범위.iloc[:,0].values
미래예측상한 = 미래예측범위.iloc[:,1].values
Part 2.코호트 W1 리텐션율 예측
[리텐션 데이터]
리텐션율 : 앱이나 서비스를 사용하기 시작한 유저가 일정 기간 후에도 계속 사용하고 있는 비율 그럼 리텐션율=잔존율?
[실습] 데이터 파악 및 모델 선정
코호트 : 같은 주에 처음 앱을 설치한 유저 그룹
W1 리텐션 : 설치 후 7~13일 사이에 다시 접속한 비율
시계열 : 매주 새로운 코호트 생성, 해당 코호트의 W1 리텐션율을 주 단위로 기록하는 구조