🔎 B2B v. B2C 산업 구조 이해
| 항목 | B2B | B2C |
| 구매 대상 | 기업(다수의 의사결정자) | 개인 소비자(개인 혹은 가계) |
| 의사결정 구조 | 복수의 이해관계자, 긴 구매 주기 | 단일 혹은 소수의 의사결정자, 비교적 짧은 주기 |
| 구매 동기 | 기능적/비용절감/ROI 중심 | 감성, 브랜드, 경험 중심 |
| 콘텐츠 유형 및 메시지 | 사례연구, 화이트페이퍼, 교육형 콘텐츠 | 비주얼·스토리텔링 중심, 빠른 클릭/전환 중심 |
| 채널 | LinkedIn, 전문 웹세미나, 이메일, 계정 기반 마케팅 | Instagram, TikTok, 페이스북, 옴니채널 리테일/이커머스 |
| 성공 측정 지표 | 고객 생애가치(LTV), 파이프라인 기여, 계약규모 | 클릭률(CTR), 전환율(CVR), 브랜드 인지도, 반복구매율 |
그로스 마케팅에서 의사결정 트리 활용
- 캠페인 ROAS 예측 및 분류
- 적용 시나리오 : 다양한 광고 캠페인의 성과를 예측하고 높은 ROAS 그룹 식별
- 주요 입력 변수(feature) : 캠페인 유형, 예산, 노출수, 클릭수, 전환수, CPC, CPM
- 목표 변수(target) : ROAS 등급
- 머신러닝 목적 : 분류
- 실무 인사이트 : ROAS가 높은 조합을 자동 탐색하여 예산 효율이 높은 광고 세그먼트 식별
- 사용자 행동 기반 이탈 예측
- 적용 시나리오 : 앱 사용자나 구독자의 로그 데이터를 통해 이탈 가능성 예측
- 주요 입력 변수 : 최근 로그인 횟수, 세션시간, 클릭수, 구매횟수, 마지막 접속일
- 목표 변수 : 이탈 여부
- 머신러닝 목적 : 분류
- 실무 인사이트 : 이탈 가능성ㅇ이 높은 사용자군에 쿠폰 제공 전략 도출
- 고객 생애 가치(LTV) 예측
- 적용 시나리오 : 신규 고객의 장기 구매 가능성 예측 (*투자 요청서에 들어가는 핵심 지표, 객관적 지표로서 의미가 있음)
- 주요 입력 변수 : 첫 결제 금액, 첫 7일 내 방문수, 구매 빈도, 제품군, 유입 채널
- 목표 변수 : 고객 LTV
- 머신러닝 목적 : 회귀
- 실무 인사이트 : 고객군별 LTV 예측으로 리텐션 마케팅 전략 세분화
- 광고 소재별 전환율 예측
- 적용 시나리오 : 광고 이미지나 문구별 성과를 비교하여 전환율 높은 소재 식별
- 주요 입력 변수 : 이미지 유형, 문구 길이, 감성 점수, 노출수, 클릭수
- 목표 변수 : 전환율(%)
- 머신러닝 목적 : 회귀
- 실무 인사이트 : 어떤 카피나 이미지 톤이 전환율이 기여하는지 시각적으로 도식화
- 랜딩페이지 A/B 테스트 자동 의사 결정
- 적용 시나리오 : A/B 테스트 결과 데이터를 학습해 자동으로 높은 전환 페이지를 선택
- 주요 입력 변수 : 페이지 디자인, CTA 색상, 체류시간, 클릭률, 전환수
- 목표 변수 : 전환율(%)
- 머신러닝 목적 : 분류/회귀 혼합
- 실무 인사이트 : 전환율이 높은 랜딩 조합을 의사결정 트리가 자동 추천
머신러닝 관점
| 항목 | 설명 |
| 모델 목적 | 단순히 분류(Classification)나 회귀(Regression)가 아닌 마케팅 의사결정 지원 시스템 구축 |
| 모델 특징 | 비선형 관계를 쉽게 파악하고, 변수 중요도(feature importance)를 시각화하여 마케터가 해석 가능 |
| 실무 장점 | ① 해석력 높음 (블랙박스 모델 대비 직관적) ② 피처 중요도 분석을 통한 핵심 지표 도출 ③ 캠페인 효율 최적화 의사결정 자동화 가능 |
| 활용 형태 | 독립 모델로 사용하거나, 랜덤포레스트·XGBoost 등의 앙상블 모델 기반으로 성능 향상 |
| 출력 결과 | 의사결정 트리 구조를 통해 "예산 100만 원 이상 & 클릭률 2% 이상이면 ROAS 높음" 같은 규칙 기반 의사결정 인사이트 제공 |
의사결정 트리 = 마케팅 전략 의사결정 자동화 도구
- 목표 : 데이터 기반으로 ROI를 높이는 최적 경로 탐색
- 활용 분야 : ROAS 분류, 이탈 예측, LTV 예측, 광고소재 성과 분석, A/B 테스트 자동화
- 핵심 가치 : '설명 가능한 AI'를 통한 마케팅 전략 최적화
실습 1. 캠페인 ROAS 분류
다양한 광고 캠페인 데이터로부터 ROAS가 높은 캠페인 식별
의사결정 트리 모델 생성 과정 정리
- 초기 설정 및 데이터 로드
- 데이터 준비
- 데이터 분할
- 모델 학습
- 모델 성능 평가
- 의사결정 트리 시각화
- 교차 검증 수행
- 피처 중요도 계산 및 시각화
- 실제 v. 예측 결과 비교 시각화
- 모델 저장 및 로드
- 추론 함수 및 사용자 입력




실습 2. 사용자 행동 기반 이탈 예측
사용자 로그 기반으로 이탈 가능성 높은 고객 식별
1. 모델 성능 평가 결과


2. 의사결정 트리 시각화

3. 모델 로딩 및 추론

실습 3. 고객 생애가치(LTV) 예측
신규 고객의 장기 구매 가능성 예측
의사결정 트리 모델 생성 시 필요한 과업, 조건, 순서 정리

1. 데이터 준비 및 분할
2. 모델 학습 및 성능 평가
모델 성능 평가:
Mean Squared Error (MSE): 40.50
Root Mean Squared Error (RMSE): 6.36
R-squared (R2): 0.88

3. 피처 중요도 분석

4. 의사결정 트리 구조

5. 모델 로딩 및 추론

6. 인사이트 및 비즈니스 시사점
6.1. 인사이트
- 핵심 영향 요인
- '7일간 방문 횟수(visits_7days)'와 '첫 구매 금액(first_purchase)'이 LTV 예측에 가장 중요한 피처로 나타남
- 신규 고객의 첫 주 방문 빈도와 첫 구매 시 지출 금액이 고객 생애 가치(LTV)에 결정적 영향을 미침
- 캠페인 소스 영향도
- 'campaign_source' 관련 피처 중요도가 상대적으로 낮음
- 어떤 캠페인을 통해 유입되었는지보다 고객의 초기 행동 데이터(방문·구매) 가 LTV와 더 높은 상관을 보임
- 단, 이는 데이터 특성·모델 구조의 한계일 가능성 있으므로 해석 시 주의 필요
- 카테고리 다양성 영향도
- 'category_variety' 피처의 중요도는 거의 0에 가까움
- 고객의 구매 카테고리 다양성은 본 데이터셋 기준으로는 LTV와 큰 연관이 없음
6.2. 시사점
- 신규 고객 온보딩 강화
- 가입 후 첫 7일간 재방문을 유도하고, 첫 구매 금액을 높이는 전략이 장기 고객가치 제고에 효과적
- → 온보딩 캠페인, 첫 구매 프로모션, 추천 시스템 개선 등 적용 가능
- 채널별 초기 행동 데이터 분석 필요
- 캠페인 소스 자체보다는 각 채널을 통해 유입된 고객이 얼마나 자주 방문하고 얼마를 지출하는지에 집중
- → 높은 초기활동(방문·구매)으로 이어지는 채널에 예산 집중 배분
- 카테고리 다양성의 보조적 활용
- 현재 모델에서는 LTV 영향 미미하지만 재구매율·특정 카테고리 성장 등의 다른 지표에는 의미 있을 가능성
- → 추가 데이터 확보 및 보완 모델 분석으로 재검토 필요
✅ 확인 포인트 정리 (중요)
1. 문제 유형 구분 (Classification v. Regression)
| 구분 | 분류 | 회귀 |
| 목표(Target) | 범주형(이탈/비이탈, 0·1 등) | 연속형(LTV 금액, 매출액 등) |
| 예시 | “이탈한다(1) / 이탈하지 않는다(0)” | “LTV = 10만 / 25만 / 70만” |
| 출력 형태 | 클래스(Label) | 실수 값(Continuous Value) |
| 모델 예시 | 의사결정트리 분류기, 로지스틱 회귀 | 선형회귀, 의사결정트리 회귀기 |
| 대표 지표 | 정밀도(Precision), 재현율(Recall), F1-score, 정확도(Accuracy) | MSE, RMSE, R² (결정계수) |
→ 핵심 : LTV는 금액처럼 연속적인 값을 예측하므로 분류(Classification) 가 아니라 회귀(Regression) 문제로 접근해야 함
2. 평가 지표 선택 기준
| 모델 유형 | 적절한 평가 지표 | 지표 설명 |
| 분류 모델 | Accuracy, Precision, Recall, F1-score | 정답 여부(0/1)의 정확성 판단 |
| 회귀 모델 | MSE, RMSE, R² | 예측값이 실제값과 얼마나 가까운지 판단 |
→ 핵심 : LTV 예측과 같은 회귀 모델에서는 MSE, RMSE, R² 와 같은 오차 기반 지표를 사용해야 함
3. 왜 LTV는 회귀 문제로 봐야 하는가
- LTV는 고객별 구매 금액, 생애 가치 등 "연속형 수치"이기 때문
- 이탈 여부(0/1)처럼 명확한 범주가 아니라 연속된 수준(10만, 25만, 70만)으로 표현됨
- 따라서 모델은 “이 고객의 LTV가 얼마일까?”를 예측해야 하지, 단순히 “높다/낮다”로 분류(classify) 하는 게 아님
4. 모델 평가 시 유의점
- LTV 예측 모델은 수치형 예측이므로 → 오차 기반 평가(MSE, RMSE)를 통해 실제 값과 예측 값의 차이를 확인해야 함
- R²(결정계수)는 모델이 LTV 변동성을 얼마나 설명하는지 보여줌
5. 결론 : 이번 과제에서 짚고 넘어가야 할 핵심
- LTV 예측은 회귀(Regression) 문제
- 분류(Classification) 는 “이탈 여부”처럼 이진 판단일 때 사용
- LTV 모델 평가는 Accuracy나 F1-score가 아니라 MSE / RMSE / R² 를 사용해야 함
- 모델 성능 비교는 “오차가 작을수록 좋고(RMSE↓), R²가 클수록 좋다(↑)”로 판단
- 따라서 분류 보고서(Classification Report)는 이 문제에 적합하지 않음
실습 4. 광고 소재별 전환율 예측
광고 이미지/카피 특징으로 전환율 높은 소재 자동 식별
1. 모델 성능 평가 결과
모델 성능 평가:
Mean Squared Error (MSE): 0.0017
Root Mean Squared Error (RMSE): 0.0408
R-squared (R2): 0.9813

2. 피처 중요도 분석

3. 모델 시각화

4. 모델 로딩 및 추론

(응용) ipywidgets 라이브러리 활용


실습 5. 랜딩페이지 A/B 테스트 자동 의사결정
여러 디자인 조합 중 전환율이 높은 조합을 트리로 예측
1. 모델 성능 평가 결과

2. 피처 중요도 분석

3. 모델 시각화

4. 모델 로딩 및 추론

응용.
기존의 연속적인 전환율 값을 예측하는 회귀 모델과 별개로 랜딩페이지의 layout_type과 cta_color 조합만을 사용하여 해당 조합이 높은 전환율 그룹에 속하는지 낮은 전환율 그룹에 속하는지를 분류하는 의사결정 트리 모델 추가 생성
1. 모델 성능 평가 결과


2. 모델 시각화

3. 분석 결과 요약 및 제언
학습된 의사결정트리 모델 분석 결과, 랜딩페이지의 레이아웃과 CTA 색상 조합이 전환율 그룹을 결정하는 주요 요인으로 나타남
3.1. 주요 규칙 (트리 기반 분기 조건)
- layout_type_C = True
- cta_color_Green = True → High 전환율 그룹
- cta_color_Green = False → Low 전환율 그룹
- layout_type_C = False
- cta_color_Red = True → High 전환율 그룹
- cta_color_Red = False → Low 전환율 그룹
3.2. 주요 인사이트
- 레이아웃 타입(layout_type)과 CTA 색상(cta_color)은 전환율 그룹 예측에 유의미한 영향 요인으로 작용함
- layout_type_C 조합은 전반적으로 전환율이 높게 나타나는 경향
- layout_type_C가 아니더라도 cta_color_Red 조합의 경우 High 전환율 달성 가능성이 높음
- CTA 색상 변화만으로도 전환율 그룹 변화가 발생함 → 색상 심리학·시각적 대비 효과가 전환 행동에 영향
3.3. 향후 제언
- 고효율 디자인 조합 우선 활용
- 고효율 조합 중심으로 랜딩페이지 제작·테스트 수행
- 데이터 확장 및 A/B 테스트 강화
- 현재 데이터셋 규모가 작아 모델 일반화 한계 존재
- 다양한 레이아웃·CTA 색상 조합 실험을 통해 추가 학습 데이터 확보 필요
- 고전환 조합의 세부 요소 분석
- 배치 구조, 폰트, 버튼 크기, 시선 유도 패턴 등 세부 디자인 요소별 영향도 분석으로 디자인 가이드라인 도출
- 고도화된 모델 비교 분석
- 의사결정트리 외에 랜덤 포레스트, SVM, XGBoost 등복합 요인 반영 가능한 모델로 성능 비교 및 추가 인사이트 발굴
의사결정 트리 적용 사례
1. 백화점 고객 세분화 사례
대형 백화점이 고객의 거래내역, 구매 패턴, 연령, 지역, 구매 빈도 등의 데이터를 기반으로 의사결정트리를 적용하였다. 모델 결과를 통해 고객을 ‘고가상품 중심형’, ‘생활용품 중심형’, ‘저빈도 대량구매형’ 등 여러 세그먼트로 분류하고, 세그먼트별로 차별화된 프로모션을 설계하여 재방문율과 매출 향상 효과를 얻었다.
그로스마케팅 관점 해석
- Retention 단계에서 이탈률이 낮은 고객군을 식별하여 집중 관리
- Revenue 단계에서 객단가가 높은 그룹을 중심으로 맞춤형 쿠폰·포인트 정책 운영
- Acquisition 단계에서도 유사 프로필 고객 타깃 광고를 집행하여 신규 유입 효율 향상
출처. 「의사결정나무 기법을 활용한 백화점의 고객세분화 사례연구」, 채경희·김상철(2010), 한국경영정보학회
2. 광고 효과 예측 사례
TV 및 디지털 광고의 반응 데이터를 수집하여 광고 속성(콘텐츠 유형, 시간대, 메시지 유형, 매체 등)에 따라 소비자 반응을 예측하는 모델을 구축하였다. 의사결정 트리 결과로 특정 시간대, 감성적 메시지, 특정 제품군에서 반응률이 높다는 패턴을 도출했다.
그로스마케팅 관점 해석
- Acquisition 단계에서 클릭률, 참여율 예측 가능
- 광고 캠페인 예산 배분 효율화
- 캠페인 성과 분석 자동화로 실험-개선 주기 단축
출처. 「결정트리를 이용한 광고 사례 분석을 통한 광고 효과 예측」, 한국지능정보시스템학회
3. 카드사 고객 이탈 예측 사례
국내 한 카드사가 고객 이탈(휴면 및 해지)을 방지하기 위해 의사결정트리를 사용하였다. 데이터에는 결제금액, 포인트 사용빈도, 서비스 이용채널, 불만 접수 이력 등이 포함되었고, 트리 분석을 통해 “3개월간 결제 금액 급감 + 모바일앱 미접속 30일 이상”과 같은 명확한 이탈 징후 규칙을 도출하였다.
그로스마케팅 관점 해석
- Retention 단계에서 고위험군을 선별하여 재활성화 캠페인 진행
- AARRR 모델 중 Retention과 Revenue 강화 효과
- 의사결정트리의 규칙 기반 결과를 활용해 마케팅팀이 쉽게 전략 수립 가능
출처. 한국데이터마이닝학회 사례집, 국내 대형 카드사 내부 분석 보고서
4. 온라인 쇼핑몰 재구매 예측 사례
국내 오픈마켓 데이터를 바탕으로, 구매금액, 구매 주기, 장바구니 유지기간 등의 요인을 통해 재구매 가능성을 예측했다. 의사결정 트리 분석 결과, 특정 상품군(패션, 화장품)에서 ‘최근 1개월 내 2회 구매 + 장바구니 보관 3회 이상’ 고객의 재구매 확률이 가장 높게 나타났다.
그로스마케팅 관점 해석
- Retention 단계에서 충성고객을 분류하여 리텐션 캠페인 강화
- Revenue 단계에서 추천상품 노출 우선순위 조정
- AI 추천 알고리즘 이전 단계의 해석 가능한 예측모델로 사용
출처. 「의사결정트리 분석을 이용한 온라인 쇼핑몰 고객 행동 연구」, 한국정보통신학회논문지
5. 통신사 프로모션 반응 예측 사례
국내 이동통신사가 의사결정트리를 이용하여 요금제 변경, 이벤트 참여, 프로모션 반응률을 예측하였다. 연령, 데이터 사용량, 요금제, 지역, 고객등급 등을 입력변수로 사용하여 프로모션 참여 확률이 높은 세그먼트를 구분했다.
그로스마케팅 관점 해석
- Activation 단계에서 캠페인 반응 예측으로 효율적 타깃 설정
- Referral 단계에서 추천 이벤트 참여 가능성이 높은 고객 선별
- 실시간 마케팅 자동화 시스템에 적용해 개인화 메시지 발송
출처. 한국데이터마이닝학회 발표자료, 국내 통신사 고객 분석 프로젝트 요약
의사결정 나무를 활용한 캠페인 분산 분석
광고 캠페인의 성과는 예산, 노출비용, 전환율, 클릭률 등 여러 요인에 따라 달라진다. 하지만 각 요인의 영향력이 비선형적이기 때문에 단순한 선형모델로는 "성과의 분산(variance)"을 충분히 설명하기 어렵다. 의사결정 나무(Decision Tree)는 데이터를 자동으로 여러 규칙으로 분리하여 캠페인 간 성과 차이를 해석하기에 적합한 기법이다.
분석 목표
- CPA의 분산을 설명하는 핵심 요인을 파악
- CTR, Conversion, CPM, Budget 등 변수별 영향도 시각화
- 성과가 높은 캠페인 그룹과 낮은 그룹을 규칙으로 분할
- 비선형 관계나 상호작용을 시각적으로 해석
1. 데이터 개요 시각화

2. 의사결정 나무 모델 시각화

3. 변수 중요도 시각화

4. 예측값 v. 실제값 비교

의사결정 규칙 해석 예시
의사결정 나무는 데이터의 분산을 최소화하는 방향으로 분기함
| 규칙 | 조건 | CPA 평균 |
| Rule 1 | Conversion > 0.19 | CPA ≈ 1950 |
| Rule 2 | Conversion ≤ 0.19 and CTR > 1.0 | CPA ≈ 2100 |
| Rule 3 | Conversion ≤ 0.19 and CTR ≤ 1.0 | CPA ≈ 2300 |
- 전환율이 0.19를 초과하는 캠페인은 CPA가 가장 낮음 → 효율적
- 전환율이 낮고 CTR도 낮은 캠페인은 CPA가 높음 → 비효율적
- 의사결정나무는 이러한 조건을 자동으로 학습하여 성과 분산의 원인을 설명
캠페인 분산 해석 요약
| 구분 | 결과 해석 |
| 핵심 변수 | Conversion, CTR이 CPA 분산의 주요 요인 |
| 비용 영향 | CPM, Budget은 부차적 영향 (단, 과도하면 CPA 증가) |
| 효율 구간 | Conversion > 0.19 구간이 효율적 캠페인 |
| 모델 해석력 | 트리 구조를 통해 CPA 변동 원인 시각적으로 확인 가능 |
예제.
1. 캠페인 데이터 준비 및 기본 탐색
- 데이터 생성 파이프라인 : 하드코딩된 데이터 → DataFrame 변환
- EDA 파이프라인 : describe()로 기초 통계 확인 + pairplot()으로 변수 관계 확인

KPI 관계 해석 연습
1. 양(+)의 상관관계
| 변수 조합 | 관계 해석 |
| CTR ↔ Conversion | 클릭률이 높을수록 전환율도 함께 상승 (긍정적 캠페인 반응 구조) |
| CTR ↔ CPM | 클릭률이 높을수록 노출단가(CPM)도 다소 상승 (우수한 광고일수록 단가 높음) |
| CTR ↔ Budget | 클릭률이 높은 캠페인일수록 예산이 많이 투입되는 경향 |
| Conversion ↔ CPM | 전환율이 높을수록 CPM도 상승 (집행 단가와 전환 효율이 동반 상승) |
| Conversion ↔ Budget | 전환율이 높을수록 예산이 높은 캠페인에 집중 (성과 기반 예산 배분) |
| CPM ↔ Budget | 예산이 많을수록 CPM(1,000회 노출당 단가)도 함께 상승 (확산 시 단가 상승 효과) |
- CTR, Conversion, CPM, Budget은 서로 양의 상관 구조를 가지며 예산이 늘수록 노출 단가도 높고, 클릭과 전환이 함께 증가하는 경향이 보임
2. 음(-)의 상관관계
| 변수 조합 | 관계 해석 |
| CTR ↔ CPA | 클릭률이 높을수록 전환당 비용(CPA)이 낮음 (효율적인 캠페인 구조) |
| Conversion ↔ CPA | 전환율이 높을수록 CPA가 낮음 (성과가 좋을수록 단가 효율 증가) |
| CPM ↔ CPA | CPM이 높아질수록 CPA도 상승하는 경우가 있지만, 일부 구간에서는 반대 경향 (효율 구간 존재) |
| Budget ↔ CPA | 예산이 많을수록 CPA가 다소 상승 (규모 확장 시 효율 하락 가능성) |
- CTR과 Conversion이 높을수록 CPA(전환 단가)는 하락, 즉 효율이 높아짐
- 반면 Budget이 커질수록 CPA가 다소 오를 수 있음 → 규모의 한계 또는 효율 하락 구간 존재
3. 정리 요약
| 구분 | 주요 변수 관계 | 상관 방향 |
| CTR – Conversion | 클릭률↑ → 전환율↑ | 🔼 양의 상관 |
| CTR – CPA | 클릭률↑ → 전환비용↓ | 🔽 음의 상관 |
| Conversion – CPA | 전환율↑ → 전환비용↓ | 🔽 음의 상관 |
| Budget – CPM | 예산↑ → 노출단가↑ | 🔼 양의 상관 |
| Budget – CPA | 예산↑ → 전환비용↑ | 🔽 약한 음의 상관 (효율 감소 가능) |
2. 트리 시각화 및 변수 중요도 분석


실습 6. 광고 클릭 예측
신규 광고 캠페인에서 어떤 이용자가 광고를 클릭할 가능성이 높은가를 예측하여 효율적인 타겟 마케팅 전략을 수립한다.
의사결정 트리 모델 생성 시 필요한 과업, 조건, 순서 정리 (복습)

1. 모델 성능 평가

2. 모델 시각화

3. 모델 로딩 및 추론

실습 7. 구매 전환 예측
광고를 클릭한 사용자 중 누가 실제 구매로 이어질 가능성이 높은가를 예측하여 전환율을 극대화하고 CPA를 절감한다.
1. 모델 성능 평가

2. 모델 시각화

3. 모델 로딩 및 추론

실습 8. 이탈 고객 예측
구독 서비스 이용 고객 중 이탈(Churn) 가능성이 높은 고객을 사전에 예측하여 리텐션 마케팅 전략을 수립한다.
1. 모델 성능 평가

2. 모델 시각화

3. 모델 로딩 및 추론

실습 9. 캠페인 성과(ROAS) 분류
다양한 광고 캠페인의 데이터로부터 ROAS가 높은 캠페인을 식별한다.
1. 모델 성능 평가

2. 모델 시각화

3. 모델 로딩 및 추론

실습 10. 이메일 캠페인 반응 예측
보낸 이메일 캠페인에 대해 어떤 고객이 메일을 열람하고 클릭할 가능성이 높은가를 예측한다.
1. 모델 성능 평가

2. 피처 중요도 분석

3. 모델 시각화

4. 모델 로딩 및 추론

연습문제 풀이
Q1. 의사결정 트리가 그로스 마케팅에서 자주 사용되는 이유를 ‘해석 가능성(Explainability)’과 ‘자동 의사결정(Auto Decision)’ 관점에서 서술하시오.
A1. (해석 가능성 관점) 의사결정 트리는 예측 과정이 트리 구조로 표현되므로 어떤 변수 혹은 기준이 찾고자 하는 결과에 영향을 미쳤는지를 시각적으로 이해하기 편하다. 데이터 기반으로 의사 결정 이유를 명확히 설명할 수 있기 때문에 자주 사용된다. (자동 의사결정 관점) 일정한 기준을 자동으로 생성하므로 자동화된 로직을 만들 수 있어 자주 사용된다.
Q2. 아래는 이메일 캠페인 예시 데이터의 일부이다. 예시 데이터를 의사결정 트리로 분석할 경우, click 여부를 예측하는 데 가장 영향력이 큰 변수는 무엇이며, 그 이유를 마케팅적 관점에서 설명하시오.
A2. 오픈율, 이메일이 열리지 않으면 클릭으로 이어질 수가 없는 구조이므로 '오픈율'이 가장 직접적인 역할을 하는 지표이다.
Q3. 캠페인 ROAS(Return on Ad Spend) 분류 모델을 구축했다고 가정할 때, 트리 분석 결과 “예산이 높고 클릭률이 높은 캠페인일수록 ROAS가 높다” 는 규칙이 도출되었다. 이때 마케터가 취해야 할 예산 재배분 전략을 구체적으로 서술하시오.
A3. 클릭률이 높고 ROAS가 높은 캠페인에 예산을 추가로 증액하고, ROAS가 낮은 캠페인의 예산을 줄이거나 해당 캠페인 운용을 중단한다.
Q4. 의사결정 트리 모델을 실제 마케팅 데이터에 적용할 때 발생할 수 있는 과적합(Overfitting) 문제를 방지하기 위한 구체적인 방법 2가지를 기술하시오.
A4. 교차 검증을 진행하거나 하이퍼파라미터를 조정한다. (트리 깊이, 최소 분할 샘플 수 등을 조정해 불필요한 세부 분기(가지치기)를 줄인다. 또한, 랜덤 포레스트나 XGBoost 같은 앙상블 기법을 활용하면 과적합을 완화하고 예측 안정성을 높일 수 있다.)
Q5. 이탈 예측(Churn Prediction) 모델의 결과로 “최근 로그인 횟수 ≤ 3회, 마지막 접속일 14일 이상” 조건이 이탈 고객의 주요 규칙으로 도출되었다. 이 결과를 활용해 마케팅팀이 실행할 수 있는 리텐션(유지) 전략을 제시하시오.
A5. 이탈 고객의 주요 규칙으로 도출된 고객은 접속의 공백이 긴 그룹으로, 리마인드 캠페인을 진행하거나 이탈을 방지하기 위한 복귀 유도형 혜택을 제공한다.
마케팅 업무와 머신러닝
1. 마케팅 업무의 핵심 구조
| 구분 | 주요 내용 | 대표 지표 |
| 시장 분석 (Market Analysis) | 시장 규모, 경쟁사, 고객 세분화 분석 | 점유율, 성장률 |
| 고객 관리 (Customer Management) | 고객 행동, 구매 패턴, 이탈 가능성 분석 | LTV, Retention Rate |
| 캠페인 기획 (Campaign Planning) | 타깃 설정, 채널 선택, 메시지 최적화 | CTR, Conversion Rate |
| 성과 측정 (Performance Measurement) | 광고 효율 및 ROI 평가 | CPA, ROAS |
| 예측 및 자동화 (Forecasting & Automation) | 머신러닝 기반 성과 예측 및 추천 시스템 적용 | 예측 정확도, 자동화율 |
2. 마케팅에서 머신러닝의 역할
- 머신러닝 : 데이터로부터 패턴을 학습하고 미래를 예측하는 기술 (*미래 예측 = 회귀)
- 마케팅에서는 반복적·데이터 기반의 업무를 자동화하고, 고객 이해를 정교화하는 데 핵심적인 역할을 함
| 적용 영역 | 머신러닝 기법 | 주요 활용 목적 |
| 고객 세분화 (Segmentation) | K-means, DBSCAN 등 군집화 | 유사 행동 고객 그룹 도출 |
| 구매 예측 (Purchase Prediction) | 의사결정트리, 로지스틱 회귀 | 구매 확률이 높은 고객 예측 |
| 이탈 예측 (Churn Prediction) | 랜덤포레스트, XGBoost | 서비스 이탈 고객 사전 탐지 |
| 광고 성과 예측 (Ad Performance) | 회귀모델, 신경망 | CTR·CPA 등 KPI 예측 |
| 추천 시스템 (Recommendation) | 협업필터링, 딥러닝 | 개인 맞춤형 상품·콘텐츠 제안 |
| 가격 최적화 (Pricing Optimization) | 강화학습, 베이지안 최적화 | 수요-가격 관계를 통한 최적가 산정 |
| 캠페인 자동화 (Automation) | AutoML, Decision Tree | 실시간 타깃팅 및 메시지 선택 자동화 |
3. 마케팅 프로세스에 머신러닝이 통합되는 방식
- 데이터 수집 단계
- 고객 행동 로그, 구매 데이터, 소셜 미디어 반응, 광고 클릭 로그 등 다채널 데이터 수집
- (예) Google Analytics, Meta Ads, CRM 로그
- 특징 추출(Feature Engineering)
- 고객 속성, 방문 빈도, 평균 장바구니 금액, 최근 구매일 등 유의미한 변수를 생성
- 모델 학습 및 평가
- (예) 랜덤 포레스트로 전환 가능 고객을 예측 → AUC, Precision, Recall로 평가
- 인사이트 도출 및 전략 반영
- 예측 결과를 기반으로 “전환 확률 80% 이상” 고객군에 한정된 메시지 발송
- 성과 측정 및 자동 피드백 루프(Growth Loop)
- 모델 성능을 모니터링하며 자동 업데이트
- 마케팅 퍼널(AARRR) 단계별 개선에 연결
4. 최신 트렌드
- 생성형 AI + 머신러닝 융합 (Generative AI × ML)
- GPT, Claude 등 LLM을 이용해 마케팅 카피, 캠페인 전략, 이메일 콘텐츠 자동 생성
- 머신러닝 예측 모델과 결합해 "예측+생성"형 의사결정 지원 시스템으로 발전
- 멀티채널 통합 분석 (Omni-channel Analytics)
- 오프라인과 온라인 채널의 행동 데이터를 통합 분석하여 고객 여정을 전체적으로 예측
- 업리프트 모델링(Uplift Modeling)
- 단순 반응 예측이 아니라 "캠페인 개입이 성과에 미친 인과적 효과"를 예측하는 모델 확산
- Explainable AI(XAI)
- 마케터가 결과를 이해하고 설명할 수 있는 모델(예: SHAP, LIME) 도입 증가
- 단순한 예측 정확도보다 의사결정 해석력이 중시됨
- AutoML 기반 마케팅 자동화
- 비전문가도 데이터만 업로드하면 자동으로 예측·세분화·추천 모델을 생성하는 솔루션 확산
마케팅 관점 요점 정리
- 마케팅은 감(感)이 아닌 데이터 기반 의사결정(Data-Driven Decision) 시대로 전환되었으며, 머신러닝은 이를 실현하는 핵심 기술
- 특히 의사결정 트리, 랜덤 포레스트, XGBoost 등의 해석 가능한 모델은 마케터가 KPI 개선 요인을 이해하는 데 매우 유용함
- 향후에는 LLM과 머신러닝 모델이 결합된 AI 마케팅 시스템이 "데이터 분석 → 인사이트 생성 → 실행 자동화" 전 과정을 통합하게 될 것
최종 실습. 의사결정 트리 기반 마케팅 데이터 분석 대시보드



✏️ 개인 회고
1. 알고리즘을 잘 고르고 쓰는 것도 능력이다. 또한, 왜 이 모델을 선택했고 어떤 의사결정에 기여할 수 있는지 설명할 줄 알아야 한다.
2. 지식을 구하는 건 매우 쉬운 세상이지만 그걸 온전한 내 것으로 만드는 데엔 메타인지가 필요하다. 내가 뭘 알고 모르는지, 어디서부터 다시 배워야 하는지를 명확히 파악하는 것이 중요하다.
3. 오늘 하루 총 10개의 의사결정 트리 모델을 생성했다 ! 어떤 프로세스를 가지고 있는지 아주 조금 알 것 같기도 ... 아닌가 흠 🤔 백지 상태에서 과정을 그려보는 연습을 끊임없이 해야겠다