반응형

데이터 분석 4

[데이터 분석] 확률 밀도 함수

지난 시간에 확률 변수와 확률 질량 함수에 대해 공부했습니다. 확률이 흩어져 있는 확률 분포, 이를 함수를 사용해 표현합니다. 확률 질량 함수는 이산형 확률 변수에 관한 확률 분포였습니다. 오늘은 연속형 확률 변수에 관한 확률 분포입니다. ### 연속 확률 분포 이산형 확률은 각 확률 변수에 대한 확률이 딱 떨어지게 구할 수 있었습니다. 주사위를 던졌을 때 3이나올 확률은 확률변수 X가 3인 확률입니다. 연속형 확률 변수에서 확률을 구할 때는 범위로 표현하여 구합니다. 초등학생 3명을 뽑았을 때 키가 150이상 160이하일 확률과 같이 나타냅니다. 경우의 수가 무한대인 연속 확률 변수의 분포를 설명하려면 특정한 값이 아닌 구간을 지정해 확률을 설명해야 합니다! ### 누적 확률 분포 초시계를 봤을 때 1..

데이터 분석 2021.02.16

[데이터 분석] 확률 변수(Random Variable)

데이터를 분석할 때 필요하다고 느낀 부분들을 공부하려 합니다. 데이터의 확률, 분포, 예측을 할 때 필요한 확률과 통계에 대한 개념을 공부하고 이를 간단하게 정리하여 공유하려고 합니다. ## 확률 변수(Random Variable) 표본 공간 : 발생 가능한 모든 결과들의 집합 확률 변수 : 표본 공간의 각 원소에 하나의 확률을 대응시킬 때 그 실수를 확률변수라고 합니다. 확률 변수는 하나의 원소를 확률에 대응시키므로 함수라고 할 수 있습니다. 일반적으로 X로 나타냅니다. 표본 공간의 각 사건에 대한

데이터 분석 2021.01.29

[데이터 분석] 표준편차 | 분산

안녕하세요 지난 데이터 분석 포스팅 시간에는 대푯값에 대해 공부했습니다. 평균 / 중앙값 / 최빈값 각 의미와 사용시 장단점을 알아보았습니다. # 데이터 탐색 순서 평균값 -> 중앙값 -> 최빈값 -> | 범위 -> 사분위수 범위 -> 분산값 -> 표준편차값 데이터 중심 어디 ? 데이터 분포 파악 # 자료의 특징을 알아보는 2가지 방법 대푯값 & 산포도 대푯값은 자료들의 중심에 관한 위치를 나타내는 값으로 생각할 수 있습니다. 산포도는 자료들이 대푯값을 중심으로 흩어진 정도를 나타내는 값입니다. # 산포도 대푯값을 중심으로 자료들이 퍼진 정도입니다. 수치가 작을수록 대푯값에 가깝게 뭉쳐있습니다. 수치가 클 수록 대푯값에 멀리 흩어져 있습니다. 데이터의 평균이 같더라도 산포도를 통해 데이터의 퍼짐 정도를 ..

데이터 분석 2021.01.21

[데이터 분석] 대푯값 | 평균 , 중앙값 , 최빈값

데이터를 분석하는 과정 중 데이터 탐색은 매우 중요한 과정입니다. 한 집단의 특성을 수치로 나타내는 대표값들을 사용해 데이터를 살펴보는 순서는 다음과 같습니다. 평균 ---> 중앙값 ---> 최빈값 ---> 범위 ---> 사분위수범위 ---> 분산 ---> 표준편차 대표값을 제대로 활용하기 위해서는 값들에 대한 충분한 이해가 필요합니다. 수치 사용 이유 수치 사용 시기 수치의 의미 여러 가지 상황에서 적절한 수치를 사용할 줄 알아야 합니다. ### 평균 # 산술 평균 데이터의 합/데이터 개수 조사 대상의 값을 모두 더해 대상의 수로 나누는 방식입니다. 큰 값에서 작은 값으로 이동하여 전체적으로 공평하게 분배했을 때의 양이다. 사용 : 데이터의 평균적인 수치를 확인할 때 사용 단점 : 이상치가 있는 경우 ..

데이터 분석 2021.01.06
반응형
반응형