데이터 분석

[데이터 분석] 대푯값 | 평균 , 중앙값 , 최빈값

LeeSeunghyuk 2021. 1. 6. 08:00
반응형

 

 

데이터를 분석하는 과정 중

데이터 탐색은 매우 중요한 과정입니다.

 

한 집단의 특성을 수치로 나타내는 대표값들을 사용해

데이터를 살펴보는 순서는 다음과 같습니다.

 

평균 ---> 중앙값 ---> 최빈값 ---> 범위 ---> 사분위수범위 ---> 분산 ---> 표준편차 

 

대표값을 제대로 활용하기 위해서는 값들에 대한 충분한 이해가 필요합니다.

 

수치 사용 이유 

수치 사용 시기

수치의 의미

 

여러 가지 상황에서 적절한 수치를 사용할 줄 알아야 합니다.

 

### 평균

 

# 산술 평균

 

데이터의 합/데이터 개수

 

조사 대상의 값을 모두 더해 대상의 수로 나누는 방식입니다.

큰 값에서 작은 값으로 이동하여 전체적으로 공평하게 분배했을 때의 양이다.

 

사용 : 데이터의 평균적인 수치를 확인할 때 사용

단점 : 이상치가 있는 경우 대푯값의 의미 상실, 이상치에 민감

 

ex) 구성원의 나이 파악하기

 

헬스 단체 PT 구성원 나이 : [ 12, 13, 9, 15 , 50, 42 ]

     헬스 단체 PT 구성원 나이 평균 : 12+13+9+15+50+42 / 6  = 23.5

     27살인 나는 평균나이 23.5세의 그룹에 들어갔지만 내 또래의 구성원은 한 명도 없었다.

     --> 대표값의 의미를 상실         

        

 

# 기하 평균

 

데이터의 곱의 n 제곱근 ( n : 데이터 개수 )

 

곱셉을 이용하는 값에서 평균을 구할 때 사용합니다.

기간 별 상승, 하락의 수치를 사용하는 계산에 유용하게 사용할 수 있습니다.

 

사용 : 데이터의 기간에 따른 퍼센테이지 , 곱셈으로 값을 계산할 때 평균에 사용

 

ex) 물건 가격 파악하기

 

     물가 10%상승 1주일 뒤 20%하락 1주일 뒤 10%상승했습니다.

     1000원짜리 샤프의 가격은?

     상승률(+10 +10)과 하락률(-20)이 같으므로 유지된다고 생각할 수 있습니다.

 

   상승률 데이터 : [1.1 ,0.8, 1.1]

원가 : 1000

   기하 평균 : (1.1 * 0.8 * 1.1) ** (1/3) = 0.9892174886...

   계산 결과 : 1000 * 0.9892... * 0.9892... * 0.9892...= 968

1000원 10퍼센트 상승 -> 1000 * 100 = 1100

1100원 20퍼센트 하락 -> 1100 - 220 =  880

880원 10퍼센트 상승   ->  880 +  88 =  968 

 

이는 3주동안 1주일 간 약 0.989%의 물가 변동이 일어났음을 의미합니다.

     

 

# 조화 평균 

 

데이터의 역수 산술 평균 , 다시 역수 변환

 

구하고자 하는 값의 분자가 고정되어 있는 경우 사용합니다.

보통 평균 속도 , 일정 금액을 가지고 구입할 수 있는 수량의 평균을 구할 때 이용합니다.

 

모델의 성능 평가 시 Precision , Recall의 조화평균을 사용해서 F1 score를 구하기도 합니다.

 

### 중앙값

 

크기 순으로 정렬한 데이터에서 중앙에 위치한 값을 말합니다.

전체 데이터 중 가장 중간에 위치한 데이터를 중앙값으로 사용합니다.

 

자료 개수 홀수 : 중앙에 있는 자료

자료 개수 짝수 : 중앙 부근 두 자료의 산술평균 값

 

사용 : 이상치의 영향을 받지 않고 평균을 구할 때 사용합니다.

단점 : 자료의 수가 많아지면 , 그 집단을 대표하는 대표성이 사라집니다.

 

ex) 상품 주문 횟수

 

A 상품 1주 주문 횟수 데이터 = [ 1, 1, 1, 1, 1, 15, 30 ]

중앙값 : 1

 

주 마지막에 광고, 홍보 등을 통해 주문량이 늘었습니다.

해당 데이터의 중앙값은 1로 제대로 된 대표값으로 사용할 수 없습니다.

 

### 최빈값

 

데이터 중 빈도수가 가장 높은 데이터를 말합니다.

전체 데이터에서 가장 횟수가 많은 데이터를 대푯값으로 사용합니다.

 

사용 : 데이터 내 빈도수를 기준으로 평균을 값을 찾을 때 사용합니다.

단점 : 최빈값이 없을 수도 있고, 하나 이상이 될 수도 있습니다.

 

ex) 옷 사이즈별 공정 예상

 

A 상품의 옷 사이즈 데이터 : [ S , M , L , XL ]

A 상품의 사이즈 주문 데이터 : [ S, S, M, M, M, M, M, M, M, M, L, L, XL ]

최빈값 : M

 

데이터를 사용해 M 사이즈를 가장 많이 생산, 발주를 요청해야 한다는 정보를 얻습니다.

 

광고 사이트 , 홍보 대상 등의 연령층, 성별 등을 파악하여 효율적인 방법을 구할 수 있습니다.

 

 

### 평균, 중앙값, 최빈값 비교

 

정규분포 그래프를 사용해 데이터의 구성과 대표값을 파악합니다.

 

 

# Left skew

 

평균(mean) < 중앙값(median) < 최빈값(mode)

 

[ 1, 3, 5, 7 ,10, 10, 10 ] 

평균 : 6.5

중앙값 : 7

최빈값 : 10

 

데이터 구성을 확인했을 때, 값이 큰 데이터가 많이 분포하고 있습니다.

 

# Normal Distribution

 

평균(mean) = 중앙값(median) = 최빈값(mode)

 

[ 4, 6, 7, 7 ,7 ,8 ,10 ] 

 

평균 : 7

중앙값 : 7

최빈값 : 7

 

데이터가 골고루 분포하고 있습니다.

 

# Right skew

 

평균(mean) > 중앙값(median) > 최빈값(mode)

 

[ 1, 1, 1, 2, 2, 5, 6 ] 

평균 : 2.5

중앙값 : 2

최빈값 : 1

 

작은 값을 갖는 데이터가 많고 값이 큰 데이터는 적습니다.

 

중앙값을 기준으로 반은 더 같거나 작고, 반은 더 같거나 큰 값을 갖습니다.

 

 

 

 

반응형