본문 바로가기
패스트캠퍼스 데이터분석 부트캠프 14기

[2주차] 기초 수학 통계, 엑셀을 이용한 데이터 탐색 (EDA), 데이터 전처리, 시각화

by 꾸꾸집사 2024. 4. 29.

 

 

지난주에는 엑셀의 다루는 기본적인 방법들을 다뤘다면 이번주부터는 부트캠프의 목적인 '데이터 분석'을 위해 엑셀을 다루는 방법과 목적을 배우기 시작했다!

 

<강의 내용 정리>

 

[탐색적 데이터 분석 EDA, Exploratory Data Analysis]

 : 정보 추출 과정에서 생성된 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 잊지 않고 주어진 자료의 특성을 파악 해내는 것. 

   

데이터분석 5단계

 

 

3단계에 해당하는 데이터 분석 및 모델링 과정에 '탐색적 데이터 분석 EDA'가 있다. 

 

탐색적 분석이 중요한 이유는 이를 통해 데이터 도메인 지식을 정확하게 축적할 수 있고, 이를 이용해 효과적으로 데이터를 파악할 수 있다. 또한, 데이터 분석 단계에서 가장 많은 시간이 소요되는 전처리 과정에서 EDA 결과가 좋은 방향성을 제시하기 때문에 신경써야하는 부분이다. 

 

*데이터 전처리: 데이터 분석에 앞서 전처리 과정을 통한 데이터 가공 및 변환 작업

 

 

[엑셀의 '데이터 분석 도구' - '기술 통계법' 이용한 기초 통계량 계산] 

*기술 통계법: raw 데이터의 수치형 변수들의 요약을 한눈에 볼 수 있는 기법 

 

*데이터 분석 도구 추가법: [파일] - [옵션] - [추가기능] - 분석도구 (팩) 선택 - [이동] - 분석도구 (팩) 체크 - [확인]

 

기초통계량 보기: 데이터 분석 선택 > [기술 통계법] 선택 > 입력범위, 출력범위 입력

 

주의1: 기술 통계법은 raw 데이터를 수치적으로 요약해주는 표다. 따라서 수치 자료만 입력 범위에 들어가야한다!

                  아래 사진을 보면 넓게 동그라미 친 부분이 왼쪽의 raw 데이터 중 수치 자료를 그대로 가져온 것!

 

주의2: 항상 첫 행 까지 같이 가져와서 '첫째 행 이름표 사용' 선택하기! 

기초 통계량 계산하는 법

 

 

[데이터 시각화 하기 -  피벗 테이블 이용하기]

 

*피벗 테이블, 피벗 차트 이용하기: [삽입] - 피벗테이블 만들기  선택!

 

피벗 테이블 제작

표 범위는 raw 데이터의 전체를 선택한다.

피벗 테이블을 만들 위치를 선택한다.

 

 

 

피벗테이블 만드는 과정

피벗 테이블을 만들면 위 사진처럼 raw 데이터의 모든 필드들을 필터, 열, 값 으로 드래그 할 수 있으며

 

피벗 테이블은 필요에 맞게 새로운 테이블을 쉽게 만들 수 있는 유용한 도구이다!

 

* (값)의 survived를 선택해 값 필드 설정을 통해 값 표현 서식을 바꿀 수 있다!  ex, 평균 합계 등등.. 

 

[이상치 탐지하기 - BOX PLOT 이용하기]

BOX PLOT 을 만들기 위해서는 필요에 따라 새로운 테이블 제작이 요구될 수도 있다!

 

아래 사진에 있는 Question도 그렇다!

 

box plot을 위한 새 테이블 제작

 

class별 운임을 확인하기 위해서는 class별로 운임을 구별해 놓은 새로운 테이블 제작이 필요하다! 

 

 

 

새로 만든 테이블을 기준으로 '상자 수염 (box plot)' 을 선택해주면 멋진 표가 나온다!

 

 

∴ 데이터 탐색 과정 (EDA)의 목적 

 - 어떤 변수가 결론에 영향을 많이 미치는지 찾기 위해서 

 - 유의미한 변수를 찾기 위해 

 - 의미없는 데이터 제거를 위해

 - 변수 간의 독립성 확보를 위해 


TOP

Designed by 티스토리