목차
1. 분석 목표
2. EDA 개요
3. EDA 탐구 및 인사이트
1. 분석 목표
- 콘텐츠 추가 패턴 분석
- 목표: 콘텐츠 업데이트 주기 분석으로 주기적 변화 파악.
- KPI: 월별 및 분기별 콘텐츠 추가 빈도, 주기적 변화율.
- 장르 선호도 분석
- 목표: 시즌별 인기 장르 변화 분석.
- KPI: 분기별 장르 점유율, 인기 장르 변화 트렌드.
2. EDA 개요
- date_added 컬럼을 이용해 넷플릭스 콘텐츠 추가 추이를 살펴보았다. (시계열 분석)
- 시간의 흐름에 따라 콘텐츠가 추가되는 추세이나, 콘텐츠가 많이 늘리거나 적게 늘리는 주기가 반복되는거 같아 그 주기를 탐구해보기로 하였다.
2. EDA 탐구 및 인사이트
가설 1. 특정 시즌(연말, 분기,요일)에 집중될 것이다 - 주기 분석
i) 월별 콘텐츠 추가 추이
- 7월과 12월이 가장 업로드가 많이 되는 달이다.
⇒ 💡 7월은 여름 휴가철의 시작, 12월 또한 연말이기에 1년 중 BIG EVENT 시즌이라고 할 수 있다.
ii) 분기별 그래프 구분
- 분기별로 그래프를 나누어 살펴보면 'V' 자의 형태가 반복되는 것을 알 수 있다.
⇒ 💡 분기의 '시작 달'에 콘텐츠 추가를 늘리고 있다. (예외 4분기 - 4분기는 12월에 힘을 주고 있기 때문)
⇒ 💡 분기의 시작을 넷플릭스한테는 중요한 시점일 수 있겠다. (구독을 유도해야하는 시기)
💲 비즈니스 인사이트
분석 결과 요약 |
|
비즈니스 인사이트 |
|
가설2. 시기마다 업로드 되는 장르가 구별될 것이다.
i) 분기별 주요 콘텐츠 장르 비교 (top 5)
- 분기별 주요 장르 top 5는 다음과 같다.
1위: Dramas
2위: Comedies
3위: International TV Shows
4위: International Movies
5위: Action & Adventure
- 3분기만 Action & Adventure 이 5위에서 4위로 치고 올라간다!
- 분기별로 장르 인기도가 다를 가능성 확인 ✔
ii) 분기별 장르 점유율 비교
- 장르별로 어떤 분기에 점유율이 높은지 알아보기 위한 것이다
- 전반적으로, 추가되는 장르들은 균형이 잡혀있다는 것을 알 수 있다.
- 유독 두드러지는 것들을 살펴보자면 (7월 12일이 중요 시즌이니 3분기와 4분기를 위주로 살펴보았을 때)
3분기
- action & adventure
- TV Mtsterieis
4분기
- children & famaily movies
- comedies
- romantic movies
- TV comedies
⇒ 💡 3분기는 액션 스릴러와 같은 타격감 있고 시원한 것을 사람들이 선호하는 경향이 있고, 4분기는 연말이라 따뜻한 분위기의 작품을 선호한다는 것을 알수있다.
💲 비즈니스 인사이트
분석 결과 요약 |
|
비즈니스 인사이트 |
|
분석하면서 배운것 🔍
재귀함수 + 다중 값이 들어있는 행 분리
점유율 비교를 위한 listed_in 컬럼 전처리 과정 중
- listed_in 컬럼은 한 행에 값이 여러개가 ','로 연결되어 있다.
⇒ 값들을 분리하는 작업이 필요하다!
내가 시도한 쿼리
# anchor 부분 - 맨 처음 장르 뽑아내기 (남은 장르 컬럼을 만들어야 recursive 부분을 만들수 있다)
CREATE VIEW genre_split AS
WITH RECURSIVE genre_list AS(
SELECT CAST(SUBSTRING(show_id,2) AS UNSIGNED) AS show_id,
STR_TO_DATE(date_added, ' %M %e, %Y') AS date_added,
TRIM(SUBSTRING_INDEX(listed_in,',',1)) AS genre,
TRIM(SUBSTRING(listed_in,LENGTH(SUBSTRING_INDEX(listed_in,',',1)) +2)) AS remaining,
1 AS numero
FROM netflix_titles
# recursive 부분
UNION ALL
SELECT show_id,
date_added,
TRIM(SUBSTRING_INDEX(remaining,',',1)) AS genre,
SUBSTRING(remaining,LENGTH(SUBSTRING_INDEX(remaining,',',1))+2) AS remaining,
numero + 1 AS numero
FROM genre_list
WHERE remaining <> '' OR remaining LIKE '%,%') # 종료조건인데 => remaining이 다 분리되고나서 ''도 remaining으로 간주될 가능성이 있으므로 조건 추가
SELECT show_id,
date_added,
genre,
numero
FROM genre_list
ORDER BY show_id, numero;
재귀함수를 이용한 행 분리 작업
OUTPUT
여러번의 삽질이 있었지만 깔꼼하게 잘뽑혔다!
이렇게 재귀함수도 배우고 행 분리법도 배웠다! 럭키비키!🍀
'데이터 분석 프로젝트' 카테고리의 다른 글
Superstore: 커머스 데이터 EDA를 통한 수익성 강화 액션 플랜 🚧진행중 (0) | 2025.01.13 |
---|