35. 라이브러리( Library )- 판다스 ( Pandas ) (4) : 데이터프레임의 정보 확인 / 카테고리컬 데이터, 유니크 데이터 /groupby 함수
이러한 데이터프레임을 불러왔다고 생각하자.
이 데이터프레임을 가공하기 위해서는 먼저 각 컬럼의 밸류들의 속성과 정보를 알아야 할 것이다.
그러한 정보를 확인하는 속성들을 알아보자.
먼저 head함수와 tail 함수를 알아보자.
일종의 요약보기 같은 함수로서 각각 맨 위 n 행, 맨 밑부터 n행을 줄여서 볼 수 있다.
주로 데이터가 많아 한 눈에 데이터프레임의 형태를 구분하기 힘들 때 많이 사용한다.
파라미터 값은 보여줄 행열의 수다.
shape 함수는 현재 데이터프레임의 행과 열의 수를 보여준다.
isna 함수는 현재 데이터프레임 속 데이터들 중 값이 없는 NaN이 있는지 확인하는 함수이다.
True False 값으로 나오므로 sum 함수를 이용해 총 개수를 확인한다.
이처럼 데이터가 다 존재하는지 확인하는 것을 "결측값을 확인한다."라고 한다.
describe 함수는 현재 데이터들 중 통계치로 나올 수 있는 데이터를 모아 한번에 통계를 내주는 함수이다.
### 추가 설명 : 위 이미지 중 숫자 뒤에 e + 숫자 가 붙어있는 모습을 볼 수 있는데
이는 e + n , e=10 n =제곱이라는 뜻이다.
예를 들어 e + 4 라면 10의 4제곱인 10000 이라는 뜻이다.
각 컬럼 별, 데이터들의 정보를 파악할 수 있는 info 함수이다.
NaN 의 존재 여부, 데이터의 타입, 심지어 메모리 사용량까지 파악할 수 있다.
카테고리컬 데이터란 중복될 수 있는, 중복되도 괜찮은 데이터를 말한다.
반대로 유니크 데이터란 중복되지 않는 중복되면 특정할 수 없는 데이터를 말한다.
nunique 함수로는 중복된 값을 제거한 유일값의 수를 세어주는 함수이고,
unique 함수는 유일값들을 가져오는 함수이다.
밸류 값들의 수를 세어주는 value_counts 함수이다.
활용에 따라 빈도수와 밸류 수를 셀 때 이용할 수 있다.
groupby 함수를 통해 관련있는 컬럼과 인덱스 끼리 그룹지어 (연관지어) 데이터를 활용할 수 있다.
위 식을 해석해보면 'Years' 컬럼으로 그룹지어 'Salary' 컬럼의 값을 sum(총합) 하라는 식이다.
그룹을 중첩시킬 수도 있다.