Azure SQL 도입된 새로운 집계 함수 APPROX_COUNT_DISTINCT

 

·         Version : Azure SQL

 

다양한 서비스를 운영하다보면 서비스에 따른 중요 포인트가 조금씩 다른 경우가 있다예를들어 정확한 숫자(결과값) 중요시하는 서비스(일일 매출재고량 ) 있으며빠른 응답을  (실시간 데이터 사용량, DB 전체 데이터 ROW  등의 대시보드 중요시하는 서비스가 있다물론 응답성을 중시한다고 해서 데이터가 틀리면 안되겠지만 허용되는 오차범위에서 최대한 빠른 응답이 필요할 때가 있다 이번 포스트에서는 매우  데이터 세트 전체에 대한 집계에 대해 빠른 응답을  수있는 Azure SQL APPROX_COUNT_DISTINCT 대해서 다루어 본다.

 

Azure SQL 새로운 집계함수인 APPROX_COUNT_DISTINCT  NULL 아닌 고유한 값이 있는 그룹의 대략적인 수를 반환한다 함수는  데이터 시나리오에 사용하도록 설계되었으며 아래 조건에 최적화 되어 있다.

·         수백만행 이상의 데이터 세트에 대한 액세스

·         많은 수의 고유한 값을 가진 열의 집계

이러한 조건을 가정하면 대부분의 작업에서 정확도 오차는 2%이내가 된다또한  APPROX_COUNT_DISTINCT 정확도 오차는 COUNT DISTINCT에서 20%이상 되어서는 안된다.

 

APPROX_COUNT_DISTINCT 고유 카운트를 계산할때, COUNT DISTINCT 보다 훨씬 적은 메모리를 사용한다이러한 이유 때문에 데이터 집합에 수십억개의 행이 있더라도 디스크를 사용하지  않고 메모리에서 계산을 수행할 가능성이 훨씬 크다일반적으로 COUNT DISTINCT 경우 메모리가 부족하면 tempdb 사용하므로  성능 저하를 초래(일반적으로 디스크가 가장 느리기 때문)한다 APPROX_COUNT_DISTINCT tempdb 사용하지 않고 내부적 알고리즘을 사용하므로 결과적으로 APPROX_COUNT_DISTINCT COUNT DISTINCT보다 훨씬 빠르게 실행된다.

 

아래  그림은 일반적인 COUNT(DISTINCT ()) 사용한 것과 APPROX_COUNT_DISTINCT 사용한 경우이다.

[DISTINCT COUNT]

 


[APPROX_COUNT_DISTINCT]

 


COUNT DISTINCT 경우 정렬 연산자가 추가되어 있으므며 APPROX_COUNT_DISTINCT 경우 Hash match 대한 Stream Aggregate 대체 된다는 것을   있다또한  계획은 모두 동일한 클러스터된 인덱스 검색을 사용하며 COUNT DISTINCT 경우 검색에 95% 비용을 사용하지만, APPROX_COUNT_DISTINCT 경우99% 검색에 사용되는 것을   있다 뜻은 전통적인 COUNT DISTINCT 작업은 외부의 스캔 처리 작업이  많다는 것을 의미한다.

 

APPROX_COUNT_DISTINCT 사용할 경우 실행 계획에 아래와 같은 연산자를 확인할  있다.

<ScalarOperator ScalarString=”APPROX_COUNT_DISTINCT_CONVERT([globalagg1004])”>

 

 

[참고자료]

https://blogs.msdn.microsoft.com/sqlserverstorageengine/2018/07/16/approximate-count-distinct-enters-public-preview-in-azure-sql-database/

 

 

2018-09-10 / Sungwook Kang / http://sqlmvp.kr

 

Azure SQL,  count distinct, APPROX_COUNT_DISTINCT



출처: https://sqlmvp.tistory.com/1285?category=663684 [Database Lab]




profile

강성욱 / jevida@naver.com
Microsoft SQL Server MVP
Blog : http://sqlmvp.kr
Facebook : http://facebook.com/sqlmvp

Kakao Talk : SQLMVP

Line : jevida


현재 LA에 거주하고 있으며 SQL에 관심있는 분이면 언제든 친추 환영합니다.