데이터 분석

[데이터 분석] 표준편차 | 분산

LeeSeunghyuk 2021. 1. 21. 12:45
반응형

 

안녕하세요

 

지난 데이터 분석 포스팅 시간에는 대푯값에 대해 공부했습니다.

평균 / 중앙값 / 최빈값 각 의미와 사용시 장단점을 알아보았습니다.

 

 

# 데이터 탐색 순서

                     평균값 -> 중앙값 -> 최빈값 ->    |  범위 -> 사분위수 범위 ->  분산값 -> 표준편차값

     데이터 중심 어디 ?                            데이터 분포 파악             

   

 

# 자료의 특징을 알아보는 2가지 방법

 

대푯값 & 산포도

 

대푯값은 자료들의 중심에 관한 위치를 나타내는 값으로 생각할 수 있습니다.

산포도는 자료들이 대푯값을 중심으로 흩어진 정도를 나타내는 값입니다.

 

 

# 산포도

 

대푯값을 중심으로 자료들이 퍼진 정도입니다.

수치가 작을수록 대푯값에 가깝게 뭉쳐있습니다.

수치가 클 수록 대푯값에 멀리 흩어져 있습니다.

 

데이터의 평균이 같더라도 산포도를 통해 데이터의 퍼짐 정도를 파악해야 합니다.산포도를 사용해 데이터의 특성을 서로 비교할 수 있습니다.

 

★ 쉽게 이해하기 ★

 

A 컴퓨터 획득 점수 : 65 , 60, 70 , 55 , 60      평균 : 62

B 컴퓨터 획득 점수 :  100, 15, 55, 100, 40      평균 : 62

 

두 컴퓨터의 평균은 62점으로 같습니다.하지만 두 컴퓨터의 산포도는 다릅니다.

 

A컴퓨터의 경우 평균에 가까운 점수를 계속해서 냅니다.

B컴퓨터의 점수는 매우 높거나, 매우 낮은 결과를 나타냅니다.

 

이럴 때, 데이터가 얼마나 퍼져있는지 파악해야 합니다.

 

이번에 공부할 내용은 데이터의 퍼짐 정도를 파악하는 수치인 분산과 표준편차 입니다.

 

## 분산(Variance)

 

표준 국어 대사전 정의 : 갈라져 흩어짐 , 또는 그렇게 되게 함

어떤 대상의 흩어진 정도나 상태를 의미합니다.

 

모집단의 표준편차 : σ^2 (시그마 제곱)

표본의 표준편차 : s^2 (알파벳 에스 제곱)

 

분산을 구하는 방법은 편차의 제곱 합의 평균 값으로 구할 수 있습니다.

 

xi : 각각의 데이터

x바(-) : x 데이터 평균

N : 데이터 개수

 

분산이 작은 데이터는 높은 봉우리의 그래프 ,

분산이 큰 데이터는 완만한 봉우리의 그래프를 나타냅니다.

 

 

분산 작다 -> 퍼짐 정도 낮다 -> 대표값 근처에 모여있다 -> 봉우리 높음

분산 크다 -> 퍼짐 정도 크다 -> 대표값 멀리 떨어져있다 -> 봉우리 완만

 

 

 

※ 제곱합을 구하는 이유?

 

Data : -4 -2 0 2 4 

m(평균) : 0

d(편차) : -4 -2 0 +2 +4

 

실제 편차의 합 : 0+2+2+4+4 = 12

계산 편차의 합 : 0 -2 +2 -4 +4 = 0

 

위처럼 음수가 존재하기 때문에, 실제 편차를 제대로 구할 수 없습니다.

그렇기 때문에 편차들의 제곱 합의 평균을 사용합니다.

 

분산 : (0 + 4 + 4 +16 + 16) / 5 = 8

 

## 표준편차(Standard deviation)

 

자료의 산포도를 나타내는 수치

분산의 양의 제곱근으로 정의합니다.

 

표준 편차가 작을수록 평균값에서 변량(데이터)들의 거리가 가깝습니다.

분산 계산 시 제곱 합의 평균을 구하면서 수치가 너무 커져버렸습니다.

 

제곱을 했기 때문에, 다시 제곱근을 사용해 수치를 적절하게 줄여서 사용합니다.

 

모집단의 표준편차 : σ (시그마)

표본의 표준편차 : s (알파벳 에스)

 

 

1 표준편차 내의 데이터는 전체 데이터의 68.2 % 를 차지합니다.

2 표준편차 내의 데이터는 전체 데이터의 95.4 % 를 차지합니다.

3 표준편차 내의 데이터는 전체 데이터의 99.6 %를 차지합니다.

 

3 표준편차 외의 데이터는 이상치로 생각해도 될까요 ?

 

# 편차(deviation)

관측값(데이터)과 평균의 차이를 말합니다.

양수일 수도 있고, 음수일 수도 있습니다.

d = 관측값 - (평균 or 중앙값)

평균보다 큰 경우 양수, 평균보다 작으면 음수를 나타냅니다.

 

오늘은 데이터를 탐색할 때 , 데이터의 퍼짐 정도를 알아보는 수치인

분산과 표준편차에 대해 공부해 보았습니다.

 

읽어주셔서 감사합니다

 

 

 

 

 

 

 

 

반응형