데이터가 다 합하면 거의 3천만건 가까이 되는데
이 애미뒤진 데이터가 시간대로 차곡차곡 쌓여 있는게 아니라 중간중간에 데이터 수집이 안되면 그 시간을 통채로 날려버려서 time series에 누락치가 있는 상황임
1분씩 쌓여야 하는데 12시 1분, 12시 2분, 12시 7분 이렇게 들어와있다는거...
지금은 그냥 무식하게 차례대로 date 훑어가면서 1분 이상 차이나게 되면 그 차이나는 시간 만큼 dataframe 만들어서 때려박는 코드 만들어서 돌리고 있는데 다 돌아가는 데에 한세월 걸리고 있음...
이거 뭐 빠르고 좋은 방법 없나? numpy나 뭐 빠르고 성능 좋은 방법 없음?
누락되었던 시간의 값들은 그냥 null로 채워버릴거고 빠진 시간만 딱 채워지면 되는데....