반응형

분류 전체보기 103

[Pandas] 데이터 전처리 | Seaborn | 누락 데이터 | 중복 데이터

딥러닝과 다르게 머신러닝은 데이터의 전처리가 중요합니다. 데이터의 품질이 분석 모델의 성능을 좌우합니다. 데이터의 평균, 분포 등을 파악한 후 누락 데이터, 중복 데이터와 같은 이상 데이터를 처리합니다. 이번 시간에는 데이터의 결측치와 중복된 값을 전처리하는 과정을 실습해보도록 하겠습니다. 사용 데이터는 파이썬 내장 라이브러리 seaborn의 titanic 데이터 입니다. ※ titanic 데이터 ? 탑승객의 생존 여부를 예측하는 데이터 입니다. 나이, 성별, 가족 수, 객실 등급 등의 데이터가 존재하며 자주 사용되는 데이터 입니다. 다음은 seaborn에서 사용 가능한 데이터셋의 목록입니다. import seaborn as sns print(sns.get_dataset_names()) ### 누락 데이..

[Pandas] 데이터 시각화 | Matplotlib | 파이차트 | 박스그래프

안녕하세요! 오늘은 Matplotlib 모듈을 사용한 시각화 마지막 시간입니다. 파이차트와 박스그래프를 사용해 데이터를 시각화 해보도록 하겠습니다. # 파이 차트(Pie chart) 흔히 생각하는 파이(Pie)라는 빵 종류의 모양을 띈 그래프입니다. 파이의 각 크기는 해당 변수가 차지하는 비율로 나타납니다. 실제 데이터의 양이나 개수가 아닌, 전체 데이터를 100으로 보았을 때 백분율을 사용하여 데이터를 나타냅니다. 데이터의 종류가 너무 많거나, 적은 비율을 차지하는 데이터가 많은경우 시각화를 해도 정확하게 확인하기 힘들 수 있습니다. import matplotlib.pyplot as plt import csv f=open('d:\\판다스 실습\\emp2.csv','r') job=[] data=f.rea..

[Pandas] 데이터 시각화 | Matplotlib | 히스토그램 | 산점도

# 히스토그램 그래프 단변수 데이터 빈도수를 그래프로 나타냅니다. 즉, 하나의 변수인 데이터를 같은 여러 구간으로 나누고 구간 내 속한 데이터 개수를 사용해 그래프를 그립니다. 보통 히스토그램에서 가로축이 계급, 세로축이 도수를 뜻합니다. 계급(변수의 구간)은 서로 겹치지 않고, 붙어있어야 합니다. 일반 막대 그래프는 가로축(변수의 구간)은 생각하지 않고 세로축의 높이만 생각하며 그래프를 확인합니다. 히스토 그램 그래프는 가로축과 세로축을 함께 생각하며 그래프를 확인합니다. 계급 : 변수의 구간 도수 : 그 사건이 일어난 횟수 , 계급에 속하는 자료의 수 도수 분포 : 표본의 다양한 산출 분포를 보여주는 목록 계급 도수 160 미만 8 165 미만 15 170 미만 22 175 미..

[Pandas] 데이터 시각화 | Matplotlib | 면적 그래프 | 막대 그래프

지난 포스팅에서는 그래프를 분할, 누적 및 꾸미는 방법을 알아봤습니다. 이번 시간에는 다양한 그래프를 그래는 방법을 공부하도록 하겠습니다. # 면적 그래프 면적 그래프는 선 그래프와 x축 사이에 색을 입힙니다. 선이나 점이 아닌 도형의 면적을 이용 통계 수치의 크기를 나타냅니다. 선or 막대 그래프 -> 변화의 추이를 살펴보는데 유용 면적 그래프 -> 두 개 이상의 자료 비교시 유용 투명도(alpha), 누적여부(stacked) 등의 옵션을 사용할 수 있습니다. 누적 여부는 각 열의 선 그래프를 다른 열에 쌓아 올리는 방식입니다. ㆍstacked=True 분기별 판매량과 같은 수치를 누적해서 확인할 때 사용합니다. ㆍstacked=False 분기별 판매량과 같은 수치를 비교할 때 사용합니다. import..

[데이터 분석] 확률 변수(Random Variable)

데이터를 분석할 때 필요하다고 느낀 부분들을 공부하려 합니다. 데이터의 확률, 분포, 예측을 할 때 필요한 확률과 통계에 대한 개념을 공부하고 이를 간단하게 정리하여 공유하려고 합니다. ## 확률 변수(Random Variable) 표본 공간 : 발생 가능한 모든 결과들의 집합 확률 변수 : 표본 공간의 각 원소에 하나의 확률을 대응시킬 때 그 실수를 확률변수라고 합니다. 확률 변수는 하나의 원소를 확률에 대응시키므로 함수라고 할 수 있습니다. 일반적으로 X로 나타냅니다. 표본 공간의 각 사건에 대한

데이터 분석 2021.01.29

[Python algo] 분산 구하기 | 표준편차 구하기

안녕하세요. 분산 / 표준편차 값들은 데이터의 퍼짐을 파악하기 위해 필요한 값입니다. # 분산 ? 표준편차 ? 2021/01/21 - [데이터 분석] - [데이터 분석] 표준편차 | 분산 [데이터 분석] 표준편차 | 분산 안녕하세요 지난 데이터 분석 포스팅 시간에는 대푯값에 대해 공부했습니다. 평균 / 중앙값 / 최빈값 각 의미와 사용시 장단점을 알아보았습니다. # 데이터 탐색 순서 평균값 -> 중앙값 -> 최빈 lsh-story.tistory.com 파이썬에는 분산 , 표준편차를 구하는 다양하고 편한 함수들이 있습니다. Numpy , pandas , math 등 다양한 모듈을 사용하면 분산과 표준편차를 쉽고 간단하게 구할 수 있습니다. 하지만 직접 분산과 표준편차를 구할 수 있는 코드를 구현하면서 분산..

알고리즘 2021.01.21

[데이터 분석] 표준편차 | 분산

안녕하세요 지난 데이터 분석 포스팅 시간에는 대푯값에 대해 공부했습니다. 평균 / 중앙값 / 최빈값 각 의미와 사용시 장단점을 알아보았습니다. # 데이터 탐색 순서 평균값 -> 중앙값 -> 최빈값 -> | 범위 -> 사분위수 범위 -> 분산값 -> 표준편차값 데이터 중심 어디 ? 데이터 분포 파악 # 자료의 특징을 알아보는 2가지 방법 대푯값 & 산포도 대푯값은 자료들의 중심에 관한 위치를 나타내는 값으로 생각할 수 있습니다. 산포도는 자료들이 대푯값을 중심으로 흩어진 정도를 나타내는 값입니다. # 산포도 대푯값을 중심으로 자료들이 퍼진 정도입니다. 수치가 작을수록 대푯값에 가깝게 뭉쳐있습니다. 수치가 클 수록 대푯값에 멀리 흩어져 있습니다. 데이터의 평균이 같더라도 산포도를 통해 데이터의 퍼짐 정도를 ..

데이터 분석 2021.01.21

[Python algo] 중앙값 계산 | 중앙값 사용

안녕하세요. 이승혁 입니다. 오늘은 데이터의 중앙값을 구현해 보도록 하겠습니다. 중앙값이 무엇이고 언제 사용해야 하는지는 공부를 마쳤습니다. 중앙값에 대한 정보가 필요하신 분들은 아래 포스팅을 참고하시면 될 것 같습니다. 2021/01/06 - [데이터 분석] - [데이터 분석] 대푯값 | 평균 , 중앙값 , 최빈값 [데이터 분석] 대푯값 | 평균 , 중앙값 , 최빈값 데이터를 분석하는 과정 중 데이터 탐색은 매우 중요한 과정입니다. 한 집단의 특성을 수치로 나타내는 대표값들을 사용해 데이터를 살펴보는 순서는 다음과 같습니다. 평균 ---> 중앙값 ---> 최 lsh-story.tistory.com ## 중앙값 ? 데이터를 순차적으로 나열 , 가장 가운데에 있는 값입니다. 이상치에 대한 영향이 적습니다...

알고리즘 2021.01.20

[Python algo] 탐욕 알고리즘 | Greedy algorithm

안녕하세요 오늘은 탐욕 알고리즘이란 무엇인가 알아보고 , 이를 간단하게 구현해 보도록 하겠습니다. ### 탐욕 알고리즘(Greedy algorithm) ? 탐욕 알고리즘은 최적의 해를 구하는 방법입니다. 현재 상황에서 가장 좋다고 생각하는 것을 선택해 나가는 방식입니다. 또한, 이러한 선택 방법이 가장 좋을 것이라고 기대하고 사용하는 것입니다. 문제를 해결하는 과정에서 순간순간마다 최적의 결정하는 방식 하지만 항상 최적의 답을 구해주지는 않습니다. 예시로 다음 과정을 확인하시면 됩니다. step 1 : 1에서 시작 step 2 : 7 / 9 선택 -> 탐욕 알고리즘 , 9 선택 step 3 : 11 / 15 선택 -> 탐욕 알고리즘 , 15 선택 1 + 9 + 15 = 25 탐욕 알고리즘을 통해 25라는..

알고리즘 2021.01.19

[Python&SQL] 치환문자를 통해 피타고라스 정리 구현

안녕하세요! 오늘은 피타고라스 정리를 사용해 직각 삼각형을 판단해주는 방법을 알아보겠습니다. SQL , Python을 통해 구현해보도록 하겠습니다. ## 피타고라스 정리 ? 임의 직각 삼각형에서 밑변(a), 높이(b), 빗변(c)이라고 할 때 , 밑변과 높이의 각 제곱의 합은 빗변의 제곱과 같다. # 피타고라스 정리 증명 증명에는 여러가지 수학적 이론들이 많이 필요한 것을 찾게 되었습니다. 피타고라스 정리는 평면 기하에서 가장 의미있는 정리 중 하나라고 합니다. 300 여 개가 넘는 증명이 알려져 있다고 합니다. 유도되는 공식 중 코사인 제 2 법칙을 사용해서 피타고라스 정리를 확인해 보도록 하겠습니다. # 알고리즘 1. 밑변 , 높이, 빗변의 길이를 입력 받습니다. 2. 이를 위 공식을 사용해 값을 판..

알고리즘 2021.01.18
반응형
반응형