36. 라이브러리( Library )- 판다스 ( Pandas ) (5) : 판다스의 연산과 활용 / array 함수 / 판다스 데이터 프레임의 정렬

어느 과정에서든 제일제일 중요한 판다스의 연산에 대해 알아보자.

기본적으로 빠질 수 없는 Boolean 을 통한 True , False 값을 통해 데이터를 판별하고 행을 억세스해오는 모습이다.

이 때 주의할 점은 컬럼을 억세스하는 [ ] 를 기억하는 것과, 행을 loc 불러오는 loc 함수의 차이를 분명히 이해하는 것이다.

컬럼은 [ ]속에 억세스 해올 컬럼명을 직접 입력한다는것,

loc 함수는 , 콤마를 기준으로 좌우에 행과 열을 입력해야한다는 점들을 꼭 기억하자.

이처럼 loc 함수 파라미터 값중 열의 정보에 컬럼이 복수로 들어가는 경우

언제나 그랬듯이 리스트로 묶어서 한번에 표현하면 된다.

판다스에서는 파이썬 조건문에서 사용하던 and를 당연히 사용할 수 없다.

대신 & 기호로 and 를 표현한다.

이 때, 주의할 점은 & 양 옆의 값들은 ( ) 소괄호로 감싸져 있어야 한다.

or 의 경우에는 | (shift + \)를 입력하면 된다.

-----------------------------------------------------------------------------------------------------------------

array 함수는 파라미터 값에 입력된 함수를 데이터 프레임 밸류값들의 적용시키는 함수이다.

원리를 먼저 살펴보자.

데이터 프레임에서 글자수를 세어 컬럼을 새로 만들 땐 이런 방법으로 할 수 있다.

또 다른 방법으로

apply 함수를 이용해 훨씬 간단한 식으로 컬럼을 추가할 수 있다.

더 이해하기 쉬운 예시를 보자.

def 를 통해 직접 정의한 함수를 적용하는 방법이다.

이 방법의 경우 사용자가 직접 함수를 설계하기 때문에 apply 함수의 활용도가 훨씬 올라가게 된다.

---------------------------------------------------------------------------------------------------------------

판다스의 정렬에 관해 알아보자.

그동안 어떤 컬럼, 밸류값이 큰지 작은지는 쉽게 볼 수 있었지만

그 값을 기준으로 데이터프레임을 정렬하는 것은 어려웠다.

그 때 사용하는게 sort_values , sort_index 함수이다.

sort_values 은 데이터 프레임 뒤에 붙어서 사용하게 된다.

이것만으로 데이터프레임을 정렬하는 함수라는 것을 알 수 있다.

sort_values 의 파라미터 값에는 기준이 될 컬럼값을 입력하는 것과

오름차순, 내림차순을 결정하는 ascending 값을 True 와 False 로 구성되어 있다.

이 때 오름차순이 True , 내림차순이 False 값이다.

38. 라이브러리( Library ) (1) - 맷플롯립 ( Matplotlib ) : 데이터프레임의 시각화 (plot , countplot, pie) (0)	2022.05.02
37. 라이브러리( Library )- 판다스 ( Pandas ) (6) : 데이터프레임의 연결고 병합 ( concat 함수, merge 함수) (0)	2022.05.02
35. 라이브러리( Library )- 판다스 ( Pandas ) (4) : 데이터프레임의 정보 확인 / 카테고리컬 데이터, 유니크 데이터 /groupby 함수 (0)	2022.04.29
34. 라이브러리( Library )- 판다스 ( Pandas ) (3) : 2차원 판다스 (데이터프레임)의 데이터 억세스 / 데이터 가공 / NaN 처리 (0)	2022.04.28
33. 라이브러리( Library )- 판다스 ( Pandas ) (2) : 데이터프레임 (DataFrame) / NaN 이란? / csv 파일 저장&불러오기 (0)	2022.04.28