앞서 접해본 넘파이는 기존 리스트에 비해 다차원 배열로 데이터를 직관적으로 확인하기에는 좋아졌지만,
데이터를 관리하고 가공하는 것에는 아직 어려움이 많았고 컴퓨터 친화적인 라이브러리였다.
그래서 좀 더 사용자 친화적이고 데이터를 관리하기에 용이한 판다스를 알아보자.
특징을 몇 가지 살펴보면
데이터 구조 안에 데이터들의 통계 데이터를 기본적으로 제공하고
NaN(데이터 없음) 을 알아서 처리할 수 있으며
숫자 문자열을 알아서 로드하는 등
넘파이를 기반으로 두고 사용자 친화적으로 변한 라이브러리이다.
판다스에서의 1차원 배열, Series(시리즈) 를 알아보자.
위 이미지를 보면 넘파이의 1차원 배열, 벡터와
판다스의 시리즈 1차원 배열, 시리즈는 그 근본부터 큰 차이가 있는데
우리가 그동안 알고 있던 인덱스는 컴퓨터가 자동으로 매기는 인덱스로서
0 부터 시작되며 수가 많아지면 find나 index 함수 등을 이용해 offset을 찾아 지정해야하는 번거로움이 있었다.
하지만 판다스에서의 인덱스란 단순히 순서를 뜻하는 번호가 아닌
문자열이 들어가도 상관이 없는 인덱스이므로 다수의 파일을 구성할 때 훨씬 찾아보기 쉬워진다는 것이다.
시리즈는 기본적으로 인덱스랑 밸류로 이루어진 파일, 딕셔너리 구조와 유사한 구조이다.
또한 위 이미지에서 보다시피 array로 감싸진 것을 볼 때 기본적으로 넘파이 파일의 형태를 띄고 있는 것을 알 수 있다.
데이터 억세스는 당연히 [ ]로 시작하고 그 안에는 단순히 인덱스 번호를 적는 것 뿐만 아니라
딕셔너리의 키값 입력과 마찬가지로 해당 인덱스의 문자열을 적어도 된다.
복수로 억세스할 때는 리스트로 감싸는 것처럼 기본적인 구조는 넘파이와 유사하다.
기본 연산 또한 넘파이와 유사하게 시리즈에 직접 연산자를 통해 연산해도 상관없다.
다만, 항상 실수하기 쉬운 변수 다시 할당하는 것을 잊지않도록 하자.
댓글