구간을 설정하여, 해당 구간(bins)에 포함되는 데이터가 몇 개인지 세는 차트를 히스토그램이라고 한다.
히스토그램의 데이터는 같아도 구간(bins) 설정에 따라 히스토그램의 모양이 완전 달라진다.
hist함수로 만들 수 있다.
구간 변경은 파라미터 값에서 변경할 수 있다.
arange 함수를 통해 최솟값과 최댓값을 구하여 특정 범위만큼 일정한 간격으로 나눌 수 있다.
한 화면에 여러 개의 차트를 보여줄 수 있는 공간을 만들 수 있는 figure 함수이다.
사용법은 subplot 함수로 지정된 차트들을 담을 수 있고
파라미터 값의 숫자가 크면 클수록 보여주는 화면의 크기가 커지게 된다.
두 가지의 컬럼, 데이터 집합 간의 상관관계를 분포도를 통해 알아볼 수 있는 scatter 함수이다.
파라미터 값의 x , y 는 컬럼명을 입력한다.
분포값을 통해 데이터 집합 간의 관계가 비례관계인지, 반비례관계인지, 관계가 없는지를 판단할 수 있다.
Seaborn 의 regplot 함수는 reg를 뜻하는 선이 보이므로 데이터 간의 상관관계를 훨씬 더 직관적으로 알 수 있다.
paitplot 으로 다양한 형태로 상관관계를 파악할 수도 있다.
scatter 로는 데이터의 밀집도를 확인하는데에 어려움이 있으므로 밀도를 파악할 때는 Heat Map을 이용하는 것이 편하다.
hist2d 함수로 만들 수 있다.
파라미터 값 중 cmap으로 색깔을 반전시킬 수 있다.
색깔만 있으면 이해가 어려우니 colorbar 함수로 색깔 안내도 꼭 해주도록 하자.
차트에 한글을 입력하여 오류가 나고 깨지는 경우에 위 코드를 입력하고 실행시켜주면 해결된다.
import platform
from matplotlib import font_manager, rc
plt.rcParams['axes.unicode_minus'] = False
if platform.system() == 'Darwin':
rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
path = "c:/Windows/Fonts/malgun.ttf"
font_name = font_manager.FontProperties(fname=path).get_name()
rc('font', family=font_name)
else:
print('Unknown system... sorry~~~~')
마지막으로 , 차트를 저장하는 함수인 savefig 함수이다.
파라미터 값에 저장될 이름과 확장자를 적어주면 된다.
댓글