Django 기반 웹서버 올려놓은 상태고 매일 새벽에 cron 이용해서 크롤링을 진행함.데이터 양은 꽤 돼서 몇시간 정도 함.
프리티어는 아니고 t2.medium 쓰고 있어서 어느 정도 리소스에는 여유 있고 디스크도 여유로움.



 한 1년정도 운영한 서버인데 두달전부터 2주에 한번꼴로 서버가 뒤지기 시작했음...

서버 안들어가진다는 연락받고 가보면 사이트도 안들어가지고 SSH도 안돼서 AWS 콘솔 가보면 무결성 검사 실패해있고

걍 재기동하면 잘 되는데 이게 자꾸 반복되니까 뭔가 문제가 있는 거 같아서 원인을 찾고 싶음.


 

 syslog 가서, 서버 터졌을떄쯤 로그 보니 snap 데몬이 계속 재기동을 시도하고 개지랄을 하고 있고, 크론탭 통해 돌리는 python 크롤링에서 에러가 나고 있다는 점 두개 말고는 특별히 이상한 건 없어 보임. 그리고 서버가 터지고 나서도 syslog는 간헐적으로 찍히는 걸 봐선 OS 자체가 아예 뻑나는건 아닌거같고 아마 네트워크 관련해서 문제가 생기는 것 같음. snap 데몬 같은경우는 검색해보니 프리 티어로 써서 리소스 딸리면 저럴수 있다는데, 프리 티어 아니니 리소스 문제는 아닌거같고 저게 시스템과 관련된 데몬은 아닌 거 같아서 OS랑은 크게 상관없는거 같고, 크롤링 때문에 이런 문제가 생기는거 같지도 않음. 무엇보다 1년동안 크론탭 똑같이 돌렸고 간헐적으로 에러가 나긴 해도 이걸로 파일 입출력 외에는 커널 레벨의 작업은 따로 안 해서...



 혹시 이런 비슷한 문제 겪어본 사람 있음? 아니면, 뭔가 리눅스 모니터링을 쉽게 할 수 있는 툴 같은거 있을까? 꼭 이 경우가 아니더라도 모니터링이 필요할때가 가끔 있는데 그때마다 수천줄짜리 로그 뒤지는거 힘들다...