본문 바로가기
  • 콩's 코딩노트

Python/Python 문법39

39. 라이브러리( Library ) (2) - 맷플롯립 ( Matplotlib ) : 데이터프레임의 시각화 (hist (히스토그램), figure, Scatter, Heat Maps, 차트 한글 깨짐 현상 해결), 차트 저장하기 구간을 설정하여, 해당 구간(bins)에 포함되는 데이터가 몇 개인지 세는 차트를 히스토그램이라고 한다. 히스토그램의 데이터는 같아도 구간(bins) 설정에 따라 히스토그램의 모양이 완전 달라진다. hist함수로 만들 수 있다. 구간 변경은 파라미터 값에서 변경할 수 있다. arange 함수를 통해 최솟값과 최댓값을 구하여 특정 범위만큼 일정한 간격으로 나눌 수 있다. 한 화면에 여러 개의 차트를 보여줄 수 있는 공간을 만들 수 있는 figure 함수이다. 사용법은 subplot 함수로 지정된 차트들을 담을 수 있고 파라미터 값의 숫자가 크면 클수록 보여주는 화면의 크기가 커지게 된다. 두 가지의 컬럼, 데이터 집합 간의 상관관계를 분포도를 통해 알아볼 수 있는 scatter 함수이다. 파라미터 값의 x.. 2022. 5. 2.
38. 라이브러리( Library ) (1) - 맷플롯립 ( Matplotlib ) : 데이터프레임의 시각화 (plot , countplot, pie) Tidy Data, 말 그대로 정연하게 정리된 자료를 말한다. 행과 열로 이루어져 하나의 데이터프레임으로 정리된 자료를 말한다. 이런 자료를 한눈에 더 보기 쉽게 차트와 히스토그램으로 만들어주는 두 라이브러리에 대해 알아보자. Matplotlib Seaborn 이 두 가지 라이브러리로 데이터프레임으로 정리된 데이터를 시각화시킬 수 있다. 두 가지 모두 골고루 자주 사용하게 된다. 가장 기본적인 plot 함수는 x 와 y에 입력한 값 그대로 꺾인 선의 형태로 나오는 그래프이다. 파라미터 값은 x축과 y축의 값 입력이다. 차트를 시각화시키면 메모리가 같이 찍혀나오는데 show 함수로 감추고 출력할 수 있다. Seaborn 라이브러리에서도 똑같이 사용가능하다. 각 데이터 양을 막대 그래프의 형태로 표현할 수 .. 2022. 5. 2.
37. 라이브러리( Library )- 판다스 ( Pandas ) (6) : 데이터프레임의 연결고 병합 ( concat 함수, merge 함수) 데이터를 가공할 때에는 필수불가결하게 여러 데이터프레임을 하나의 데이터프레임으로 묶어 데이터들간의 연관성을 이용해 작업하게 될 일이 많다. 그런 상황에 사용하는 concat 함수와 merge 함수에 대해 알아보자. 간단하지만 중요한 내용이니 놓치지 말고 넘어가자. 먼저 concat 함수에 대해 알아보자. 위와 같은 데이터프레임 3개가 있는 상황이 준비되어있다면 간단하게 .concat( df1 , df2 , df3 ) 으로 한 데이터프레임으로 합칠 수 있다. 여기에는 꼭 지켜야할 조건이 있다. 컬럼의 이름이 똑같을 때에만 concat 함수로 합칠 수 있다는 것이다. 꼭 잊지말도록 하자. 또한 axis 지정으로 가로로 합칠 수도 있다. ( 새로운 컬럼을 붙이는 것 ) ----------------------.. 2022. 5. 2.
36. 라이브러리( Library )- 판다스 ( Pandas ) (5) : 판다스의 연산과 활용 / array 함수 / 판다스 데이터 프레임의 정렬 어느 과정에서든 제일제일 중요한 판다스의 연산에 대해 알아보자. 기본적으로 빠질 수 없는 Boolean 을 통한 True , False 값을 통해 데이터를 판별하고 행을 억세스해오는 모습이다. 이 때 주의할 점은 컬럼을 억세스하는 [ ] 를 기억하는 것과, 행을 loc 불러오는 loc 함수의 차이를 분명히 이해하는 것이다. 컬럼은 [ ]속에 억세스 해올 컬럼명을 직접 입력한다는것, loc 함수는 , 콤마를 기준으로 좌우에 행과 열을 입력해야한다는 점들을 꼭 기억하자. 이처럼 loc 함수 파라미터 값중 열의 정보에 컬럼이 복수로 들어가는 경우 언제나 그랬듯이 리스트로 묶어서 한번에 표현하면 된다. 판다스에서는 파이썬 조건문에서 사용하던 and를 당연히 사용할 수 없다. 대신 & 기호로 and 를 표현한다... 2022. 4. 29.
35. 라이브러리( Library )- 판다스 ( Pandas ) (4) : 데이터프레임의 정보 확인 / 카테고리컬 데이터, 유니크 데이터 /groupby 함수 이러한 데이터프레임을 불러왔다고 생각하자. 이 데이터프레임을 가공하기 위해서는 먼저 각 컬럼의 밸류들의 속성과 정보를 알아야 할 것이다. 그러한 정보를 확인하는 속성들을 알아보자. 먼저 head함수와 tail 함수를 알아보자. 일종의 요약보기 같은 함수로서 각각 맨 위 n 행, 맨 밑부터 n행을 줄여서 볼 수 있다. 주로 데이터가 많아 한 눈에 데이터프레임의 형태를 구분하기 힘들 때 많이 사용한다. 파라미터 값은 보여줄 행열의 수다. shape 함수는 현재 데이터프레임의 행과 열의 수를 보여준다. isna 함수는 현재 데이터프레임 속 데이터들 중 값이 없는 NaN이 있는지 확인하는 함수이다. True False 값으로 나오므로 sum 함수를 이용해 총 개수를 확인한다. 이처럼 데이터가 다 존재하는지 확인.. 2022. 4. 29.
34. 라이브러리( Library )- 판다스 ( Pandas ) (3) : 2차원 판다스 (데이터프레임)의 데이터 억세스 / 데이터 가공 / NaN 처리 데이터프레임의 억세싱에 대해 알아보자. 일단 기본적으로 데이터 억세스 기호는 언제나 항상 [ ] 대괄호이다. 판다스 데이터프레임에서 데이터 억세스를 하는 방법은 총 3가지이다. 첫 번째, 파이썬 기본 데이터 억세스처럼 하는 방법이다. 변수명 바로 옆에 [ ] 대괄호를 입력하는 방법이다. 다만, 판다스 데이터프레임에서는 컬럼 데이터억세스하는 방법이다. 두 번째, loc 를 이용한 방법이다. loc[ ] 에 [ , ] 가운데 콤마를 찍고 행과 열을 차례대로 작성하면 된다. 만약 입력을 안하는 자리가 있다면 : 이라도 써둬야 입력된다. 세 번째는, iloc 를 이용한 방법이다. iloc[ ] 에는 문자열이 아닌 기존의 컴퓨터가 매기는 인덱스 번호를 입력한다. 이 방법을 알고 있으면 좋은 이유는 나중에 반복문과.. 2022. 4. 28.