지난주에는 엑셀의 다루는 기본적인 방법들을 다뤘다면 이번주부터는 부트캠프의 목적인 '데이터 분석'을 위해 엑셀을 다루는 방법과 목적을 배우기 시작했다!
<강의 내용 정리>
[탐색적 데이터 분석 EDA, Exploratory Data Analysis]
: 정보 추출 과정에서 생성된 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 잊지 않고 주어진 자료의 특성을 파악 해내는 것.
3단계에 해당하는 데이터 분석 및 모델링 과정에 '탐색적 데이터 분석 EDA'가 있다.
탐색적 분석이 중요한 이유는 이를 통해 데이터 도메인 지식을 정확하게 축적할 수 있고, 이를 이용해 효과적으로 데이터를 파악할 수 있다. 또한, 데이터 분석 단계에서 가장 많은 시간이 소요되는 전처리 과정에서 EDA 결과가 좋은 방향성을 제시하기 때문에 신경써야하는 부분이다.
*데이터 전처리: 데이터 분석에 앞서 전처리 과정을 통한 데이터 가공 및 변환 작업
[엑셀의 '데이터 분석 도구' - '기술 통계법' 이용한 기초 통계량 계산]
*기술 통계법: raw 데이터의 수치형 변수들의 요약을 한눈에 볼 수 있는 기법
*데이터 분석 도구 추가법: [파일] - [옵션] - [추가기능] - 분석도구 (팩) 선택 - [이동] - 분석도구 (팩) 체크 - [확인]
기초통계량 보기: 데이터 분석 선택 > [기술 통계법] 선택 > 입력범위, 출력범위 입력
주의1: 기술 통계법은 raw 데이터를 수치적으로 요약해주는 표다. 따라서 수치 자료만 입력 범위에 들어가야한다!
아래 사진을 보면 넓게 동그라미 친 부분이 왼쪽의 raw 데이터 중 수치 자료를 그대로 가져온 것!
주의2: 항상 첫 행 까지 같이 가져와서 '첫째 행 이름표 사용' 선택하기!
[데이터 시각화 하기 - 피벗 테이블 이용하기]
*피벗 테이블, 피벗 차트 이용하기: [삽입] - 피벗테이블 만들기 선택!
표 범위는 raw 데이터의 전체를 선택한다.
피벗 테이블을 만들 위치를 선택한다.
피벗 테이블을 만들면 위 사진처럼 raw 데이터의 모든 필드들을 필터, 열, 값 으로 드래그 할 수 있으며
피벗 테이블은 필요에 맞게 새로운 테이블을 쉽게 만들 수 있는 유용한 도구이다!
* (값)의 survived를 선택해 값 필드 설정을 통해 값 표현 서식을 바꿀 수 있다! ex, 평균 합계 등등..
[이상치 탐지하기 - BOX PLOT 이용하기]
BOX PLOT 을 만들기 위해서는 필요에 따라 새로운 테이블 제작이 요구될 수도 있다!
아래 사진에 있는 Question도 그렇다!
class별 운임을 확인하기 위해서는 class별로 운임을 구별해 놓은 새로운 테이블 제작이 필요하다!
새로 만든 테이블을 기준으로 '상자 수염 (box plot)' 을 선택해주면 멋진 표가 나온다!
∴ 데이터 탐색 과정 (EDA)의 목적
- 어떤 변수가 결론에 영향을 많이 미치는지 찾기 위해서
- 유의미한 변수를 찾기 위해
- 의미없는 데이터 제거를 위해
- 변수 간의 독립성 확보를 위해
'패스트캠퍼스 데이터분석 부트캠프 14기' 카테고리의 다른 글
[Tableau] 태블로의 기초: 데이터 시각화 툴의 모든것 (0) | 2024.07.17 |
---|---|
[2주차] 패스트캠퍼스 데이터 분석 부트캠프 _ 데이터 분석을 위한 기초 수학과 통계_ t-test, f-test (3) | 2024.04.30 |
[1주차] 실무 엑셀 데이터 분석 및 기초 수학/통계_ 데이터 전처리 (3) | 2024.04.25 |
[1주차] 현직자 특강 - 빅데이터 이해 & 데이터 리터러시 함양 (1) | 2024.04.23 |
패스트캠퍼스 데이터 분석 부트캠프(BDA) 14기 최종합격 그리고 OT (1) | 2024.04.22 |