EC2가 자꾸 2주에 한번꼴로 혼자 뒤지는데 이걸 어떻게 디버깅 해야할지 모르겠다....

Django 기반 웹서버 올려놓은 상태고 매일 새벽에 cron 이용해서 크롤링을 진행함.데이터 양은 꽤 돼서 몇시간 정도 함.
프리티어는 아니고 t2.medium 쓰고 있어서 어느 정도 리소스에는 여유 있고 디스크도 여유로움.

한 1년정도 운영한 서버인데 두달전부터 2주에 한번꼴로 서버가 뒤지기 시작했음...

서버 안들어가진다는 연락받고 가보면 사이트도 안들어가지고 SSH도 안돼서 AWS 콘솔 가보면 무결성 검사 실패해있고

걍 재기동하면 잘 되는데 이게 자꾸 반복되니까 뭔가 문제가 있는 거 같아서 원인을 찾고 싶음.

syslog 가서, 서버 터졌을떄쯤 로그 보니 snap 데몬이 계속 재기동을 시도하고 개지랄을 하고 있고, 크론탭 통해 돌리는 python 크롤링에서 에러가 나고 있다는 점 두개 말고는 특별히 이상한 건 없어 보임. 그리고 서버가 터지고 나서도 syslog는 간헐적으로 찍히는 걸 봐선 OS 자체가 아예 뻑나는건 아닌거같고 아마 네트워크 관련해서 문제가 생기는 것 같음. snap 데몬 같은경우는 검색해보니 프리 티어로 써서 리소스 딸리면 저럴수 있다는데, 프리 티어 아니니 리소스 문제는 아닌거같고 저게 시스템과 관련된 데몬은 아닌 거 같아서 OS랑은 크게 상관없는거 같고, 크롤링 때문에 이런 문제가 생기는거 같지도 않음. 무엇보다 1년동안 크론탭 똑같이 돌렸고 간헐적으로 에러가 나긴 해도 이걸로 파일 입출력 외에는 커널 레벨의 작업은 따로 안 해서...

혹시 이런 비슷한 문제 겪어본 사람 있음? 아니면, 뭔가 리눅스 모니터링을 쉽게 할 수 있는 툴 같은거 있을까? 꼭 이 경우가 아니더라도 모니터링이 필요할때가 가끔 있는데 그때마다 수천줄짜리 로그 뒤지는거 힘들다...

클라우드와치 기본 지표들은 단순히 디스크io나 네트워크 인아웃밖에 없어서 별 신경안썼는데 os 내부 지표(메모리 점유율 등)도 체크할수 있나 봐야겠네요 리눅스에서도 자체적으로 gc가 있는건 첨 알았네요...

아, 아뇨 파이썬 gc 이야기 한 겁니다. 의외로 자원은 충분한데 gc 과정에서 문제가 생기는 경우가 꽤 있더라구요. 세부 정보 수집은 aws의 클라우드워치 클라를 설치하면 될 겁니다.