데이터를 분석하는 과정 중
데이터 탐색은 매우 중요한 과정입니다.
한 집단의 특성을 수치로 나타내는 대표값들을 사용해
데이터를 살펴보는 순서는 다음과 같습니다.
평균 ---> 중앙값 ---> 최빈값 ---> 범위 ---> 사분위수범위 ---> 분산 ---> 표준편차
대표값을 제대로 활용하기 위해서는 값들에 대한 충분한 이해가 필요합니다.
수치 사용 이유
수치 사용 시기
수치의 의미
여러 가지 상황에서 적절한 수치를 사용할 줄 알아야 합니다.
### 평균
# 산술 평균
데이터의 합/데이터 개수
조사 대상의 값을 모두 더해 대상의 수로 나누는 방식입니다.
큰 값에서 작은 값으로 이동하여 전체적으로 공평하게 분배했을 때의 양이다.
사용 : 데이터의 평균적인 수치를 확인할 때 사용
단점 : 이상치가 있는 경우 대푯값의 의미 상실, 이상치에 민감
ex) 구성원의 나이 파악하기
헬스 단체 PT 구성원 나이 : [ 12, 13, 9, 15 , 50, 42 ]
헬스 단체 PT 구성원 나이 평균 : 12+13+9+15+50+42 / 6 = 23.5
27살인 나는 평균나이 23.5세의 그룹에 들어갔지만 내 또래의 구성원은 한 명도 없었다.
--> 대표값의 의미를 상실
# 기하 평균
데이터의 곱의 n 제곱근 ( n : 데이터 개수 )
곱셉을 이용하는 값에서 평균을 구할 때 사용합니다.
기간 별 상승, 하락의 수치를 사용하는 계산에 유용하게 사용할 수 있습니다.
사용 : 데이터의 기간에 따른 퍼센테이지 , 곱셈으로 값을 계산할 때 평균에 사용
ex) 물건 가격 파악하기
물가 10%상승 1주일 뒤 20%하락 1주일 뒤 10%상승했습니다.
1000원짜리 샤프의 가격은?
상승률(+10 +10)과 하락률(-20)이 같으므로 유지된다고 생각할 수 있습니다.
상승률 데이터 : [1.1 ,0.8, 1.1]
원가 : 1000
기하 평균 : (1.1 * 0.8 * 1.1) ** (1/3) = 0.9892174886...
계산 결과 : 1000 * 0.9892... * 0.9892... * 0.9892...= 968
1000원 10퍼센트 상승 -> 1000 * 100 = 1100
1100원 20퍼센트 하락 -> 1100 - 220 = 880
880원 10퍼센트 상승 -> 880 + 88 = 968
이는 3주동안 1주일 간 약 0.989%의 물가 변동이 일어났음을 의미합니다.
# 조화 평균
데이터의 역수 산술 평균 , 다시 역수 변환
구하고자 하는 값의 분자가 고정되어 있는 경우 사용합니다.
보통 평균 속도 , 일정 금액을 가지고 구입할 수 있는 수량의 평균을 구할 때 이용합니다.
모델의 성능 평가 시 Precision , Recall의 조화평균을 사용해서 F1 score를 구하기도 합니다.
### 중앙값
크기 순으로 정렬한 데이터에서 중앙에 위치한 값을 말합니다.
전체 데이터 중 가장 중간에 위치한 데이터를 중앙값으로 사용합니다.
자료 개수 홀수 : 중앙에 있는 자료
자료 개수 짝수 : 중앙 부근 두 자료의 산술평균 값
사용 : 이상치의 영향을 받지 않고 평균을 구할 때 사용합니다.
단점 : 자료의 수가 많아지면 , 그 집단을 대표하는 대표성이 사라집니다.
ex) 상품 주문 횟수
A 상품 1주 주문 횟수 데이터 = [ 1, 1, 1, 1, 1, 15, 30 ]
중앙값 : 1
주 마지막에 광고, 홍보 등을 통해 주문량이 늘었습니다.
해당 데이터의 중앙값은 1로 제대로 된 대표값으로 사용할 수 없습니다.
### 최빈값
데이터 중 빈도수가 가장 높은 데이터를 말합니다.
전체 데이터에서 가장 횟수가 많은 데이터를 대푯값으로 사용합니다.
사용 : 데이터 내 빈도수를 기준으로 평균을 값을 찾을 때 사용합니다.
단점 : 최빈값이 없을 수도 있고, 하나 이상이 될 수도 있습니다.
ex) 옷 사이즈별 공정 예상
A 상품의 옷 사이즈 데이터 : [ S , M , L , XL ]
A 상품의 사이즈 주문 데이터 : [ S, S, M, M, M, M, M, M, M, M, L, L, XL ]
최빈값 : M
데이터를 사용해 M 사이즈를 가장 많이 생산, 발주를 요청해야 한다는 정보를 얻습니다.
광고 사이트 , 홍보 대상 등의 연령층, 성별 등을 파악하여 효율적인 방법을 구할 수 있습니다.
### 평균, 중앙값, 최빈값 비교
정규분포 그래프를 사용해 데이터의 구성과 대표값을 파악합니다.
# Left skew
평균(mean) < 중앙값(median) < 최빈값(mode)
[ 1, 3, 5, 7 ,10, 10, 10 ]
평균 : 6.5
중앙값 : 7
최빈값 : 10
데이터 구성을 확인했을 때, 값이 큰 데이터가 많이 분포하고 있습니다.
# Normal Distribution
평균(mean) = 중앙값(median) = 최빈값(mode)
[ 4, 6, 7, 7 ,7 ,8 ,10 ]
평균 : 7
중앙값 : 7
최빈값 : 7
데이터가 골고루 분포하고 있습니다.
# Right skew
평균(mean) > 중앙값(median) > 최빈값(mode)
[ 1, 1, 1, 2, 2, 5, 6 ]
평균 : 2.5
중앙값 : 2
최빈값 : 1
작은 값을 갖는 데이터가 많고 값이 큰 데이터는 적습니다.
중앙값을 기준으로 반은 더 같거나 작고, 반은 더 같거나 큰 값을 갖습니다.
'데이터 분석' 카테고리의 다른 글
[데이터 분석] 확률 밀도 함수 (0) | 2021.02.16 |
---|---|
[데이터 분석] 확률 변수(Random Variable) (0) | 2021.01.29 |
[데이터 분석] 표준편차 | 분산 (1) | 2021.01.21 |