안녕하세요..
그동안 눈팅만 하며 좋은 정보 많이 얻어갔습니다.
감사합니다.
이번에 제가 운영하는 DB에 문제가 있어 질문 남깁니다.
잘 운영되던 서버가 아무 작업도 없었는데, 어느날 갑자기 응답이 느려졌습니다.
그런데, 잘 분석해 보니, 약 4~6분 간격으로 성능이 저하되었다가 다시 원복되기를 반복하는 것을 발견했습니다.
그래서, 성능 카운터 로그를 분석해 보니, "Total Latch Wait Time"이 4~6분 간격으로 많게는 10만 단위까지 뛰는 것을 발견했습니다.
그리고, DB의 checkpoint가 실행될 때, 이런 현상이 발생하는 것을 발견하였습니다.
문제는, 이전에 계속 받아 놓았던 성능 카운터 로그를 분석해 보니,
이번 이슈 발생 전에는 checkpoint 실행 시, "% disk write time"이 급격히 높아지면서, 데이터를 disk에 write를 하고, checkpoint의 실행시간이 매우 짧게 유지되면서, "Total Latch Wait Time"도 별로 늘어나지 않았었습니다.
그런데, 현재는, checkpoint가 실행되어도 "% disk write time"이 조금 밋밋하게 높아지고, checkpoint 실행시간이 무려 20여초 지속되면서 "Total Latch Wait Time"이 급격히 늘어납니다.
스토리지의 디스크를 확인해 봤지만, 디스크 장애는 발견되지 않았고, 이벤트 뷰어에도 특이사항은 없습니다.
그래서, 질문사항은
1. 왜 갑자기 이런 일이 발생했을까 하는 것입니다.
2. 현재는 서비스를 위해서 checkpoint를 수동으로 자주 발생시켜서 적은 데이터를 write하도록 해서 성능 저하를 막고 있는데, 더욱 좋은 방안이 있는가 입니다. (물론, 근본적으로 해결하는 것이 우선입니다만.. )
수고들 하세요~
Comment 6
-
서지채
2014.06.02 10:55
답변 감사합니다.
그런데, 현재 Buffer Cache Hit Ratio는 99.96 % 입니다..
다른 수치를 봐도 메모리 부족은 아닌 것 같습니다..
-
minsouk
2014.06.02 13:49
.
-
서지채
2014.06.03 08:13
도움 감사합니다. ^^
그런데, 저희 회사 보안 규칙 상, 저희 서버를 열어드리기는 좀 곤란할 것 같습니다.
어째든, 감사합니다.
-
minsouk
2014.06.03 10:52
.
-
서지채
2014.06.05 10:40
끝까지 기억하시고 좋은 답변 주셔서 감사합니다.
주신 의견대로 확인해보고, 조치해 봐야겠네요..
정말 감사합니다.
복받으실 겁니다.. ^^;;
Buffer Cache Hit Ratio를 확인해서 99% 이하라면 메모리 부족일 수 있습니다.