데이터프레임의 억세싱에 대해 알아보자.
일단 기본적으로 데이터 억세스 기호는 언제나 항상 [ ] 대괄호이다.
판다스 데이터프레임에서 데이터 억세스를 하는 방법은 총 3가지이다.
첫 번째, 파이썬 기본 데이터 억세스처럼 하는 방법이다.
변수명 바로 옆에 [ ] 대괄호를 입력하는 방법이다.
다만, 판다스 데이터프레임에서는 컬럼 데이터억세스하는 방법이다.
두 번째, loc 를 이용한 방법이다.
loc[ ] 에 [ , ] 가운데 콤마를 찍고 행과 열을 차례대로 작성하면 된다.
만약 입력을 안하는 자리가 있다면 : 이라도 써둬야 입력된다.
세 번째는, iloc 를 이용한 방법이다.
iloc[ ] 에는 문자열이 아닌 기존의 컴퓨터가 매기는 인덱스 번호를 입력한다.
이 방법을 알고 있으면 좋은 이유는 나중에 반복문과 함께 사용할 수 있으니 알아두도록 하자.
데이터 값 변경 방법!
딕셔너리 변경하던 것처럼 = 을 이용해 변경할 수 있다.
기존의 있던 컬럼끼리 + 로 합쳐 새로운 컬럼을 만들 수도 있고,
아래와 같이 append함수를 통해 새롭게 만든 딕셔너리 형태의
데이터스트럭쳐를 입력해 새로운 컬럼을 만들 수도 있다.
drop 함수를 통해 원하는 행 또는 열을 삭제할 수 있다.
axis = 0 이 기본으로 설정되어있으므로 열 삭제할 때만 axis = 1 로 변경해주면 된다.
rename 함수를 통해 기존 레이블이나 컬럼의 이름을 변경할 수 있다.
set_index 함수로 컬럼을 인덱스 명으로 사용할 수 있다.
초기화 시킬 땐 reset_index 함수를 사용한다.
isna 함수로 NaN 에 True값인지 False 값인지 판단한 후
Sum 함수로 값을 합쳐 간단하게 알아볼 수 있다.
.dropna 함수로 NaN이 존재하는 행을 아예 삭제하는 방법, 행이 통째로 사라짐
fillna 함수로는 파라미터 값에 있는 데이터로 NaN 자리를 채울 수 있다.
method : 결측값을 변경할 방식입니다.
bfill로 할경우 결측값을 바로 아래 값과 동일하게 변경합니다.
mean 함수나 sum함수를 응용해 특정 통계값으로도 채울 수 있다.
댓글