어느 과정에서든 제일제일 중요한 판다스의 연산에 대해 알아보자.
기본적으로 빠질 수 없는 Boolean 을 통한 True , False 값을 통해 데이터를 판별하고 행을 억세스해오는 모습이다.
이 때 주의할 점은 컬럼을 억세스하는 [ ] 를 기억하는 것과, 행을 loc 불러오는 loc 함수의 차이를 분명히 이해하는 것이다.
컬럼은 [ ]속에 억세스 해올 컬럼명을 직접 입력한다는것,
loc 함수는 , 콤마를 기준으로 좌우에 행과 열을 입력해야한다는 점들을 꼭 기억하자.
이처럼 loc 함수 파라미터 값중 열의 정보에 컬럼이 복수로 들어가는 경우
언제나 그랬듯이 리스트로 묶어서 한번에 표현하면 된다.
판다스에서는 파이썬 조건문에서 사용하던 and를 당연히 사용할 수 없다.
대신 & 기호로 and 를 표현한다.
이 때, 주의할 점은 & 양 옆의 값들은 ( ) 소괄호로 감싸져 있어야 한다.
or 의 경우에는 | (shift + \)를 입력하면 된다.
-----------------------------------------------------------------------------------------------------------------
array 함수는 파라미터 값에 입력된 함수를 데이터 프레임 밸류값들의 적용시키는 함수이다.
원리를 먼저 살펴보자.
데이터 프레임에서 글자수를 세어 컬럼을 새로 만들 땐 이런 방법으로 할 수 있다.
또 다른 방법으로
apply 함수를 이용해 훨씬 간단한 식으로 컬럼을 추가할 수 있다.
더 이해하기 쉬운 예시를 보자.
def 를 통해 직접 정의한 함수를 적용하는 방법이다.
이 방법의 경우 사용자가 직접 함수를 설계하기 때문에 apply 함수의 활용도가 훨씬 올라가게 된다.
---------------------------------------------------------------------------------------------------------------
판다스의 정렬에 관해 알아보자.
그동안 어떤 컬럼, 밸류값이 큰지 작은지는 쉽게 볼 수 있었지만
그 값을 기준으로 데이터프레임을 정렬하는 것은 어려웠다.
그 때 사용하는게 sort_values , sort_index 함수이다.
sort_values 은 데이터 프레임 뒤에 붙어서 사용하게 된다.
이것만으로 데이터프레임을 정렬하는 함수라는 것을 알 수 있다.
sort_values 의 파라미터 값에는 기준이 될 컬럼값을 입력하는 것과
오름차순, 내림차순을 결정하는 ascending 값을 True 와 False 로 구성되어 있다.
이 때 오름차순이 True , 내림차순이 False 값이다.
댓글