머신러닝/머신러닝 할 때 꼭 짚고 넘어갈 것
머신러닝 전 꼭 알고 가자! - Pandas에서 시간 처리 DatetimeIndex 와 함수 to_datetime, to_timedelta, date_range, timedelta _range 설명
Cong_S
2022. 5. 5. 15:33
파이썬에서의 datetime과는 다른 Pandas의 시간 처리 방법에 대해 알아보자.
기본적으로 Pandas 라이브러리에 포함되어 있으며 Pandas만 불러오면 사용할 수 있다.
먼저 문자열 데이터를 시간데이터로 만드는 방법에 대해 알아보자.
import pandas as pd
dates = ['2022-01-04', '2022-01-07', ' 2022-01-08', '2022-01-22']
dates1 = pd.to_datetime(dates)
to_datetime 함수로 문자열 데이터를 시간 데이터로 변환할 수 있다.
any_date + pd.to_timedelta(np.arange(10), 'W')
to_timedelta 함수에 대해 알아보자.
arange 함수로 연속해서 만들 날짜의 개수를 정하고
any_date 변수에 임의의 날짜를 할당하고 + 로 연산하면 연속으로 반복된 날짜를 구할 수 있다.
두번째 파라미터의 값은 아래와 같다.
문자열로 된 날짜 데이터를 데이터프레임의 인덱스로 사용하고 싶을 땐
DatetimeIndex 함수를 사용한다. 변환된 값을 새로 변수에 지정하여 사용하면 된다.
date_range 함수로 시작일과 종료일을 파라미터 값에 넣어 알아서 날짜를 채우도록 만들 수 있다.
freq 값을 변경하여 초부터 년 단위까지 다 다룰 수 있다.
월 별의 경우 첫째날로 할 것인지 끝날로 할 것 인지 정할수 있다.
비즈니스 데이는 공휴일을 제외한 평일만 지정할 수도 있다.\
freq에 들어갈 수 있는 값
파라미터 값중에 periods 라고 만들 날짜의 수를 정할 수 있는 파라미터 값이 있는데
사용할 때 주의할 점이 있다. 바로 start, end , freq, periods 를 동시에 4개는 사용하지 못 한다는 것이다.
start, end, periods 조합은 periods 의 수만 적당하면 사용가능하다.