탐색적 자료 분석(EDA)은 존 튜키라는 미국의 저명한 통계학자가 창안한 자료 분석 방법론이다. 기존의 통계학이 정보의 추출에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는 데 어려움이 있어 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러 가지 탐색적 자료 분석 방법을 개발하였다.
EDA의 핵심은 데이터를 다루는 모든 프로젝트에서 가장 우선적이며 가장 중요한 것이 데이터를 들여다보는 것에 있다는 것이다. 데이터를 요약하고 시각화하는 것을 통해, 프로젝트에 대한 가치 있는 통찰과 이해를 얻을 수 있다.
1) 정형화된 데이터의 요소
범주형(categorical): 가능한 범주 안의 값만을 취할 수 있는 데이터.
- 명목형(nominal): 성별, 혈액형 등 단순히 분류된 자료. EX) 성별, 혈액형
- 순서형(ordinal): 값들 사이에 분명한 순위가 있는 범주형 데이터. EX) 병의 단계, 만족도, 성적표
수치형(numerical): 이산형과 연속형으로 이루어진 데이터
- 이산(discrete): 횟수와 같은 정수 값만 취할 수 있는 데이터. EX) 불량품 개수, 사고 건수
- 연속형(continuous): 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터. EX) 시간, 몸무게
이진(binary): 두 개의 값(0/1 혹은 참/거짓)만을 갖는 범주형 데이터. EX) 타이타닉 생존, 불량품 예측
2) 테이블 데이터
데이터 프레임(data frame): 통계와 머신러닝 모델에서 가장 기본이 되는 테이블 형태의 데이터 구조를 말한다.
피처(feature): 일반적으로 테이블의 각 열이 하나의 피처를 의미한다.
결과(outcome): 데이터 과학 프로젝트의 목표는 대부분 어떤 결과를 예측하는 데 있다. 실험이나 연구에서 결과(종속변수)를 예측하기 위해 피처(독립변수)를 사용한다.
레코드(record): 일반적으로 테이블의 각 행은 하나의 레코드를 의미한다.
테이블 데이터 말고도 시계열, 공간, 그래프 데이터들이 존재한다.
3) 위치 추정
데이터를 표현하는 변수들은 보통 수천 가지 다른 값을 갖는다. 데이터가 주어졌을 때, 데이터를 살펴보는 가장 기초적인 단계는 각 피처(변수)의 대푯값을 구하는 것이다.
극단값, 특잇값(outlier): 대부분의 값과 매우 다른 데이터의 값.
로버스트하다(robust): 극단값들에 민감하지 않다는 것을 의미한다.
평균(mean): 모든 값의 총합을 개수로 나눈 값.
절사평균(trimmed mean): 정해진 개수의 극단값을 제외한 나머지 값들의 평균. 평균보다 로버스트하다.
가중평균(weighted mean): 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값. 마찬가지로 평균보다 로버스트하다.
중간값(median): 데이터에서 가장 가운데 위치한 값. 데이터에 매우 민감한 평균보다는 중간값이 많을 때, 로버스트하다.
가중 중간값(weighted median): 데이터를 정렬한 후, 가중치 값을 위에서부터 더할 때, 총합의 중간에 있는 데이터 값.
로버스트 예시) 시애틀에서 레이크 워싱턴 주변 동네의 기준이 되는 가계 소득을 알아본다고 하자. 메디나와 윈더미어를 서로 비교한다고 하면, 메디나에 빌 게이츠가 살고 있기 때문에 평균은 매우 다르게 나올 것이다. 허나 중간값을 사용한다면 빌 게이츠가 얼마나 부자인지 상관없이 중간치는 매우 비슷하게 나올 것이다.
이러한 로버스트한 위치 추정 방법들은 작은 데이터에는 유용할 수 있다. 하지만 큰 데이터에, 어느 정도 크기가 되는 데이터에는 장점이 있다고 보기 어렵다.
전형적인 데이터 분석에서 특잇값들은 종종 유익한 정보를 제공하기도 하지만 때로는 골칫거리가 되기도 한다. 하지만 이와 반대로, 이상 검출(anomaly detection)에서는 대부분의 정상적인 데이터보다는 예외적으로 측정된 특잇값들이 바로 주된 관심의 대상이 된다.
4) 변이 추정
변이는 데이터 값이 얼마나 밀집해 있는지 혹은 퍼져 있는지를 나타내는 산포도를 나타낸다. 변이를 측정하고, 이를 줄이고, 실제 변이와 랜덤을 구분하고, 실제 변이의 다양한 요인들을 알아보고, 변이가 있는 상황에서 결정을 내리는 등, 통계의 핵심에 이 변이가 있다.
편차(deviation): 관측값과 위치 추정값사이의 차이.
분산(variance): 평균과의 편차를 제곱한 값들의 합을 n-1로 나눈 값, n은 데이터 개수.
표준편차(standard deviation): 분산의 제곱근.
평균절대편차(mean absolute deviation): 평균과의 편차의 절댓값의 평균.
중간값의 중위절대편차(median absolute deviation from the median): 중간값과의 편차의 절댓값의 중간값.
범위(range): 데이터의 최댓값과 최솟값의 차이.
순서통계량(order statistics): 최소에서 최대까지 정렬된 데이터 값에 따른 계량형.
백분위수(percentile): 어떤 값들의 P퍼센트가 이 값 혹은 더 작은 값을 갖고, (100-P)퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 값. 주로 상자 그림(boxplot)에서 볼 수 있다.
5) 데이터 분포 탐색하기
상자그림(boxplot): 투키가 데이터의 분포를 시각화하기 위한 간단한 방법으로 소개한 그림. 주로 사분위수를 사용한다.
도수분포표(frequency table): 어떤 구간에 해당하는 수치 데이터 값들의 빈도를 나타내는 기록.
히스토그램(histogram): x축은 구간들을, y축은 빈도수를 나타내는 도수 테이블의 그림.
밀도 그림(density plot): 히스토그램을 부드러운 곡선으로 나타낸 그림, 커널밀도추정을 주로 사용한다.
6) 이진 데이터와 범주 데이터 탐색하기
최빈값(mode): 데이터에서 가장 자주 등장하는 범주 혹은 값.
기댓값(expected value): 범주에 해당하는 어떤 수치가 있을 때, 범주의 출현 확률에 따른 평균.
막대도표(bar chart): 각 범주의 빈도수 혹은 비율을 막대로 나타낸 그림.
파이그림(pie chart): 각 범주의 빈도수 혹은 비율을 원의 부채꼴 모양으로 나타낸 그림.
7) 상관관계
상관계수(correlation coefficient): 수치적 변수들 간에 어떤 관계가 있는지를 나타내기 위해 사용되는 측정량.
상관행렬(correlation matrix): 행과 열이 변수들을 의미하는 표를 말하며, 각 셀은 그 행과 열에 해당하는 변수들 간의 상관관계를 의미한다.
산점도(scatterplot): x축과 y축이 서로 다른 두 개의 변수를 나타내는 도표
8) 두 개 이상의 변수 탐색하기
분할표(contingency table): 두 가지 이상의 범주형 변수의 빈도수를 기록한 표.
육각형 구간(hexagonal binning): 두 변수를 육각형 모양의 구간으로 나눈 그림.
등고 도표(contour plot): 지도상에 같은 높이의 지점을 등고선으로 나타내는 것처럼, 두 변수의 밀도를 등고선으로 표시한 도표.
바이올린 도표(violin plot): 상자그림과 비슷하지만, 밀도추정을 함께 보여준다.
후기) 육각형 구간과 바이올린 도표는 처음 봤다만, 나머지는 다 봤던 것들이라 복습이 되었다.
통계를 공부한다면 위의 내용들은 기본적으로 알고 있어야 할 것 같다. 나중에 긴가민가할 때 다시 보도록 하자.