안녕하세요.
대용량 데이터 조인에 대해서 조금 다른 방법을 소개해 보겠습니다.
우선 Hash, Nested Loop 조인에 대해서는 알고 계셔야 이해가 되실것 같습니다.
이전 시대와는 다르게 데이터는 상당히 많이 증가했고
디스크도 많이 발전했지만
Standard 라이센스 기준으로 메모리는 증가하지 못했습니다.(128GB)
덕분에 상황에 따라서는 Hash 보다 NL 조인이 빠를수 있는 상황이 한번씩 생기고 있습니다.
조건
1. 메모리보다 훨씬 큰 조인 테이블
2. 적절한 Non-Clustered Index
예를들어 수테라의 데이터는 128G의 메모리에서 Hash Join을 하기 위해서 유예 해시 조인을 하게 됩니다.
이 과정에서 디스크에 수테라 +@(상황에 따라서는 몇배 이상)의 작업이 발생하게 됩니다.
(메모리에 다 못올리는 데이터를 작업하는 알고리즘 비용은 엄청납니다.
크기에 배수가 아니고 제곱처럼 늘어나기도 합니다.)
Nested Loop를 활용할수 있는 적절한 Non-clustered 인덱스를 만들 수 있는 상황에는
디스크 비용이 줄어서 Hash Join보다 훨씬 빨리 Join을 끝낼 수도 있습니다.
상황에 따라 메모리보다 훨씬 큰 대용량 데이터 설계하실때는 Nested Loop Join도 한번 고려해 볼수도 있을것 같습니다.
감사합니다.