반응형

프로그래밍/Pandas 15

[Pandas] 데이터 전처리 | 범주형 데이터 | 구간 분할 | 더미 변수

※ 범주형 자료 수치형 자료 : 양적 데이터 , 양적 자료 범주형 자료 : 질적 데이터 , 질적 자료 범주형 자료는 순위형 자료, 명목형 자료로 구분할 수 있습니다. 순위형 : 범주 간 순서가 있는 자료입니다. 평점(1~5점) , 선호도(매우 나쁨~매우 좋음) 등이 있습니다. 명목형 : 범주 간에 순서가 의미 없는 자료입니다. 혈액형(A,B,O,AB) , 성별(남/여) 등이 있습니다. ★ 범주형 자료도 수치형 자료도 표현할 수 있다 ★ 순위형 자료의 평점 , 명목형 자료의 반(1반,2반,3반 등) 혹은 남자는 1, 여자는 0과 같이 나타냅니다. 이때 수치는 서열을 나타낼 수도, 나타내지 않을 수도 있습니다. ### 범주형 데이터 처리 ## 구간 분할 데이터 분석 알고리즘에 따라 연속한 데이터를 그대로 사..

[Pandas] 데이터 전처리 | 데이터 표준화 | 단위 변환 | 자료형 변환

실무에서 접하는 데이터 셋은 다양한 형태로 만들어 집니다. 여러 곳에서 수집한 데이터는 대문자와 소문자 , 풀네임과 축약어 등 다양하게 표현됩니다. 또, 단위가 다르게 같은 대상을 표현하는 경우도 많습니다. 그에 따라 단위 환산과 같은 과정을 통해 변환을 해 줄 필요가 있습니다. ### 데이터 표준화 동일한 대상을 표현하는 방법에 차이가 존재합니다. 이는 분석의 정확도를 낮추는 것으로 일관성 있는 포맷으로 변환해줍니다. ## 단위 환산 같은 데이터 셋 안에서 다른 측정 단위를 사용하면 일관성 측면에서 문제가 발생합니다. 또한 외국 데이터를 사용해 우리나라에서 적용하려면 화폐, 거리 등의 단위를 변경해주어야 합니다. UCI 자동차 연비 데이터셋을 활용해 해당 예시를 적용해 보겠습니다. mpg(mile pe..

[Pandas] 데이터 전처리 | Seaborn | 누락 데이터 | 중복 데이터

딥러닝과 다르게 머신러닝은 데이터의 전처리가 중요합니다. 데이터의 품질이 분석 모델의 성능을 좌우합니다. 데이터의 평균, 분포 등을 파악한 후 누락 데이터, 중복 데이터와 같은 이상 데이터를 처리합니다. 이번 시간에는 데이터의 결측치와 중복된 값을 전처리하는 과정을 실습해보도록 하겠습니다. 사용 데이터는 파이썬 내장 라이브러리 seaborn의 titanic 데이터 입니다. ※ titanic 데이터 ? 탑승객의 생존 여부를 예측하는 데이터 입니다. 나이, 성별, 가족 수, 객실 등급 등의 데이터가 존재하며 자주 사용되는 데이터 입니다. 다음은 seaborn에서 사용 가능한 데이터셋의 목록입니다. import seaborn as sns print(sns.get_dataset_names()) ### 누락 데이..

[Pandas] 데이터 시각화 | Matplotlib | 파이차트 | 박스그래프

안녕하세요! 오늘은 Matplotlib 모듈을 사용한 시각화 마지막 시간입니다. 파이차트와 박스그래프를 사용해 데이터를 시각화 해보도록 하겠습니다. # 파이 차트(Pie chart) 흔히 생각하는 파이(Pie)라는 빵 종류의 모양을 띈 그래프입니다. 파이의 각 크기는 해당 변수가 차지하는 비율로 나타납니다. 실제 데이터의 양이나 개수가 아닌, 전체 데이터를 100으로 보았을 때 백분율을 사용하여 데이터를 나타냅니다. 데이터의 종류가 너무 많거나, 적은 비율을 차지하는 데이터가 많은경우 시각화를 해도 정확하게 확인하기 힘들 수 있습니다. import matplotlib.pyplot as plt import csv f=open('d:\\판다스 실습\\emp2.csv','r') job=[] data=f.rea..

[Pandas] 데이터 시각화 | Matplotlib | 히스토그램 | 산점도

# 히스토그램 그래프 단변수 데이터 빈도수를 그래프로 나타냅니다. 즉, 하나의 변수인 데이터를 같은 여러 구간으로 나누고 구간 내 속한 데이터 개수를 사용해 그래프를 그립니다. 보통 히스토그램에서 가로축이 계급, 세로축이 도수를 뜻합니다. 계급(변수의 구간)은 서로 겹치지 않고, 붙어있어야 합니다. 일반 막대 그래프는 가로축(변수의 구간)은 생각하지 않고 세로축의 높이만 생각하며 그래프를 확인합니다. 히스토 그램 그래프는 가로축과 세로축을 함께 생각하며 그래프를 확인합니다. 계급 : 변수의 구간 도수 : 그 사건이 일어난 횟수 , 계급에 속하는 자료의 수 도수 분포 : 표본의 다양한 산출 분포를 보여주는 목록 계급 도수 160 미만 8 165 미만 15 170 미만 22 175 미..

[Pandas] 데이터 시각화 | Matplotlib | 면적 그래프 | 막대 그래프

지난 포스팅에서는 그래프를 분할, 누적 및 꾸미는 방법을 알아봤습니다. 이번 시간에는 다양한 그래프를 그래는 방법을 공부하도록 하겠습니다. # 면적 그래프 면적 그래프는 선 그래프와 x축 사이에 색을 입힙니다. 선이나 점이 아닌 도형의 면적을 이용 통계 수치의 크기를 나타냅니다. 선or 막대 그래프 -> 변화의 추이를 살펴보는데 유용 면적 그래프 -> 두 개 이상의 자료 비교시 유용 투명도(alpha), 누적여부(stacked) 등의 옵션을 사용할 수 있습니다. 누적 여부는 각 열의 선 그래프를 다른 열에 쌓아 올리는 방식입니다. ㆍstacked=True 분기별 판매량과 같은 수치를 누적해서 확인할 때 사용합니다. ㆍstacked=False 분기별 판매량과 같은 수치를 비교할 때 사용합니다. import..

[Pandas] 데이터 시각화 | Matplotlib | 그래프 꾸미기

Oracle SQL 데이터 분석에서 다루는 데이터의 종류는 매우 다양합니다. 따라서 다양한 종류에 따라 알맞은 시각화 방법을 알아야 합니다. Matplotlib 모듈은 평면 그래프에 대한 다양한 포맷, 시각화 기능을 제공합니다. # 선 그래프 import pandas as pd import matplotlib.pyplot as plt ## 데이터 전처리 df=pd.read_excel('d:\\판다스 실습\\인구수데이터.xlsx') df.fillna(method='ffill',inplace=True) mask=(df['전출지별']=='서울특별시') &(df['전입지별']!='서울특별시') df2=df[mask] df2.drop('전출지별',axis=1,inplace=True) df2.rename({'전입지..

[Pandas] 데이터 시각화 | 판다스 내장 그래프

안녕하세요 이승혁입니다. 오늘은 판다스의 내장 그래프를 이용해 데이터를 시각화 하겠습니다. 데이터를 분석해보면서 시각화가 정말 중요하단 것을 느꼈습니다. 내가 이해하기에도, 남을 이해시키기에도 가장 좋은 방법이었습니다. 데이터를 간략하고 예쁘게 시각화 할 수 있는 능력은 데이터 분석가에게 필수라고 생각합니다. ## 판다스 내장 그래프 판다스는 데이터를 시각화 하는 라이브러리인 Matplotlib의 기능을 일부분 내장하고 있습니다. 별도로 import 하지 않아도 간단하게 데이터를 그래프로 표현할 수 있습니다. Option 종류 Option 종류 'line' 선 그래프 'kde' 커널 밀도 그래프 'bar' 막대 그래프 - 수직 'area' 면적 그래프 'barh' 막대 그래프 - 수평 'pie' 원형 그..

Pandas - 통계 함수 max min corr

산술 데이터를 갖는 DataFrame의 열에 통계 함수를 적용해 결과를 확인합니다. 특정 열에 적용할 수 있습니다. # mean - 평균값 산술 데이터를 갖는 각 열에 대한 평균값을 시리즈 객체로 반환 # median - 중앙값 데이터의 모든 열의 중앙값을 시리즈 객체로 반환 # max , min - 최대값 , 최소값 각 열 데이터의 최대값과 최소값을 반환 # std - 표준 편차 각 열 데이터의 1 표준 편차 값을 시리즈 객체로 반환합니다. 스칼라 값인 경우 float 유형으로 반환합니다. # corr - 상관계수 두 열 간의 상관계수를 반환합니다. 상관 계수의 범위는 -1

Pandas - 데이터 분석

안녕하세요. 이승혁입니다. 판다스를 사용해서 csv, 엑셀, Json 등의 파일을 읽어옵니다. DataFrame 형태의 데이터를 확인할 수 있는 코드를 실습해 보겠습니다. ## 파일 읽기(read) 1. csv - pd.read_csv('경로/파일명') 2. excel - pd.read_excel('경로/파일명) 3. Json - pd.read_json('경로/파일명') 4. html - pd.read_html('경로/파일명') ## 파일 저장하기(save) 1. csv - pd.to_csv('경로/파일명') 2. excel - pd.to_excel('경로/파일명) 3. 하나의 액셀, 여러 데이터프레임 - pd.ExcelWriter('경로/파일명') 4. Json - pd.to_json('경로/파일명')..

반응형
반응형