머신러닝/머신러닝 할 때 꼭 짚고 넘어갈 것

Pandas 데이터프레임의 pivot_table 함수 사용법

Cong_S 2022. 5. 12. 17:23

사람들이 관람한 영화에 대해 점수를 매긴 위와 같은 데이터가 있다.

이를 기준으로 어떤 영화를 시청한 사람에게 비슷한 영화를 추천하려고 한다.

 

하지만 지금의 경우는 어떤 유저가 영화 하나만을 시청한 게 아니라 수많은 영화에 대해 평점을 남겼을 수 있기 때문에 지금 상태에서 데이터를 처리하기엔 무리가 있다.

 

그 때 사용하는게 Pandas 의 pivot_table 함수이다.

df = movies_rating_df.pivot_table(values= 'rating', index= 'user_id', columns= 'title', aggfunc= 'mean') 

# aggfunc의 디폴트 값은 평균값 mean
# 피봇 테이블의 인덱스와 컬럼. 밸류에 원하는 값을 넣을 수 있도록 생각해보자.

판다스 데이터프레임에 사용하는 함수로 파라미터로 values, index, columns 그리고 aggfunc 의 값을 지정해 사용한다.

원래 데이터프레임에 있는 컬럼의 값들을 파라미터로 지정하고 aggfunc 의 경우 (mean, sum, count ...) 과 같은 인수를 넣을 수 있다. 디폴트 값은 mean 이다.

 

위 문장으로 통해 만들어진 pivot_table은 다음과 같다.

제일 중요한 것은 values 와 index, columns 에 어떤 컬럼이 들어가야할지 잘 생각해야하는 것이다.