패스트캠퍼스 데이터분석 부트캠프 14기

[2주차] 기초 수학 통계, 엑셀을 이용한 데이터 탐색 (EDA), 데이터 전처리, 시각화

꾸꾸집사 2024. 4. 29. 18:44

 

 

지난주에는 엑셀의 다루는 기본적인 방법들을 다뤘다면 이번주부터는 부트캠프의 목적인 '데이터 분석'을 위해 엑셀을 다루는 방법과 목적을 배우기 시작했다!

 

<강의 내용 정리>

 

[탐색적 데이터 분석 EDA, Exploratory Data Analysis]

 : 정보 추출 과정에서 생성된 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 잊지 않고 주어진 자료의 특성을 파악 해내는 것. 

   

데이터분석 5단계

 

 

3단계에 해당하는 데이터 분석 및 모델링 과정에 '탐색적 데이터 분석 EDA'가 있다. 

 

탐색적 분석이 중요한 이유는 이를 통해 데이터 도메인 지식을 정확하게 축적할 수 있고, 이를 이용해 효과적으로 데이터를 파악할 수 있다. 또한, 데이터 분석 단계에서 가장 많은 시간이 소요되는 전처리 과정에서 EDA 결과가 좋은 방향성을 제시하기 때문에 신경써야하는 부분이다. 

 

*데이터 전처리: 데이터 분석에 앞서 전처리 과정을 통한 데이터 가공 및 변환 작업

 

 

[엑셀의 '데이터 분석 도구' - '기술 통계법' 이용한 기초 통계량 계산] 

*기술 통계법: raw 데이터의 수치형 변수들의 요약을 한눈에 볼 수 있는 기법 

 

*데이터 분석 도구 추가법: [파일] - [옵션] - [추가기능] - 분석도구 (팩) 선택 - [이동] - 분석도구 (팩) 체크 - [확인]

 

기초통계량 보기: 데이터 분석 선택 > [기술 통계법] 선택 > 입력범위, 출력범위 입력

 

주의1: 기술 통계법은 raw 데이터를 수치적으로 요약해주는 표다. 따라서 수치 자료만 입력 범위에 들어가야한다!

                  아래 사진을 보면 넓게 동그라미 친 부분이 왼쪽의 raw 데이터 중 수치 자료를 그대로 가져온 것!

 

주의2: 항상 첫 행 까지 같이 가져와서 '첫째 행 이름표 사용' 선택하기! 

기초 통계량 계산하는 법

 

 

[데이터 시각화 하기 -  피벗 테이블 이용하기]

 

*피벗 테이블, 피벗 차트 이용하기: [삽입] - 피벗테이블 만들기  선택!

 

피벗 테이블 제작

표 범위는 raw 데이터의 전체를 선택한다.

피벗 테이블을 만들 위치를 선택한다.

 

 

 

피벗테이블 만드는 과정

피벗 테이블을 만들면 위 사진처럼 raw 데이터의 모든 필드들을 필터, 열, 값 으로 드래그 할 수 있으며

 

피벗 테이블은 필요에 맞게 새로운 테이블을 쉽게 만들 수 있는 유용한 도구이다!

 

* (값)의 survived를 선택해 값 필드 설정을 통해 값 표현 서식을 바꿀 수 있다!  ex, 평균 합계 등등.. 

 

[이상치 탐지하기 - BOX PLOT 이용하기]

BOX PLOT 을 만들기 위해서는 필요에 따라 새로운 테이블 제작이 요구될 수도 있다!

 

아래 사진에 있는 Question도 그렇다!

 

box plot을 위한 새 테이블 제작

 

class별 운임을 확인하기 위해서는 class별로 운임을 구별해 놓은 새로운 테이블 제작이 필요하다! 

 

 

 

새로 만든 테이블을 기준으로 '상자 수염 (box plot)' 을 선택해주면 멋진 표가 나온다!

 

 

∴ 데이터 탐색 과정 (EDA)의 목적 

 - 어떤 변수가 결론에 영향을 많이 미치는지 찾기 위해서 

 - 유의미한 변수를 찾기 위해 

 - 의미없는 데이터 제거를 위해

 - 변수 간의 독립성 확보를 위해