1. 데이터와의 첫 만남
🤷♂️ raw data
우리가 접하는 대부분의 데이터는 아직 정제되지 않은 데이터이다. 이러한 데이터를 raw data라고 한다.
탐색적 데이터 분석 과정
탐색적 데이터 분석은 데이터를 열어보는 상황에서부터 시작되며 다음과 같은 과정이 수행돼야 한다
👆 데이터의 출처와 주제에 대해 이해하기
데이터가 어디에서 생성되고 어떻게 수집됐는지 이해하는 것이 먼저! 그 후 데이터의 이름, 구성 요소, 출처, 주제에 대해 조사한다.
✌️ 데이터의 크기 알아보기
데이터의 대략적인 양이나 개수를 알아본다. 데이터 크기에 따라 특별한 종류의 샘플리이 필요할 수도 있으며 데이터 처리 방식도 달라진다.
🤷♂️ 샘플링(Sampling): 어떤 자료로부터 일부의 값을 추출하는 행위를 의미한다.
🤟 데이터의 구성 요소(피처)를 살펴보기
마지막으로 데이터의 피처를 살펴본다. 피쳐란 신체검사 데이터 중 이를 이루는 요소 키, 몸무게, 시력등을 의미한다.
2. 데이터의 속성 탑색하기
이전 단계에서 외형적인 힌트를 얻었다면 데이터의 실직적인 내용을 탐색해야한다. 실제적인 내용 탐색의 과정은 피처의 속성 탐색, 피처간의 상관 관계 탐색 이렇게 두가지를 시행한다.
👆 피처의 속성 탐색
앞선 예제의 신체검사 데이터에서 쉽게 생각할 수 있는 속성 탐색은 학급의 평균 키 계산이다. 평균 뿐만아니라 표준편차, 중앙값, 데이터의 사분위 수 등의 통계값을 구할 수도 있다. 여기서! 제일 중요한 것은 바로 질문을 던지는 것이다.
✌️ 피처 간의 상관 관계 탐색
만일 학급의 비만도를 알고 싶다면 우리는 학급 구성하는 구성원의 몸무게를 보게된다. 하지만 몸무게로 비만도를 측정할 수 없다 왜냐하면 몸무게는 키에 따라 달라질 수 있기 때문이다. 때문에 키와 몸무계의 관계를 고려해야하며 이는 통계적인 방법으로 분석 가능하다.
3. 탐색한 데이터 시각화
패턴과 인사이트를 도출하는 것은 정돈되지 않은 데이터에서 매우 힘든 과정이다. 눈에 들어오지 않기 때문이다. 하지만 이를 시각적인 그래프로 본다면 빠르고 직관적이게 파악할 수 있다.
댓글