Quantile (분위수)

Quantile (분위수) 의 개념을 확인해 보자. 위키피디아의 설명이 잘 되어 있어서 참고했다.

Quantile 은 확률 분포를 동등한 확률 구간으로 나누는 구분 눈금들 (Cut-Points) 라고 할 수 있다. 또는 어떤 관찰된 샘플 데이터를 동등한 범위들도 잘라내는 구분자이다. 예를 들어보면, 사분위수 (Quartile) 를 많이 사용하는데, 4-Quantile 이라고 생각하면 샘플 데이터를 4개의 동등한 구간으로 잘라내기 위한 구분자는 3개가 된다. Q1, Q2, Q3 와 같이 표현한다.

q-Quantiles 은 유한요소집합을 q 개의 동등 (혹은 거의 동등)한 부분집합으로 구분해 주는 눈금자이다. 즉 10-분위수라고 하면 9개의 구분자가 존재하고, 100-분위수라고 하면 99개의 구분자가 존재하는 것이다.

q-Quantiles 는 q 값별로 별도의 명칭이 부여되는데, 예를들면 다음과 같다.

  • 2-quantile = median (둘로 나눈것의 중앙 값)
  • 4-quantiles = quartiles  → Q
    Q1 = 1st-quartiles
    Q2 = 2nd-quartiles
    Q3 = 3rd-quartiles
    특별히 Q3 – Q1 을 interquartile range (IQR) 또는 midspread 혹은 middle fifty 라 함.
  • 10-quantiles = deciles → D
  • 100-quantiles = percentiles → P
    ★ quartiles 와 더불어 가장 많이 쓰인다.

 

모집단 혹은 샘플에서의 분위수 계산

실제 분위수를 계산하는 방식을 알아보자.

일반적으로 k-th q-quantile 은 누적확률분포에서 k/q 의 값을 갖는 데이터를 의미한다.

즉, 데이터 x 는 다음과 같을 때 k-th q-quantile 이 된다.

Pr[X<x]\leq k/q~or,~equivalently,~Pr[X \geq x] \geq 1-k/q

and

Pr[X\leq x]\geq k/q~or,~equivalently,~Pr[X > x] \leq 1-k/q

 

유한한 N 개의 모집단에서 가장 작은수부터 가장 큰 수까지 정렬된 1, …, N 까지의 인덱스가 있다고 할 때, k-th q-quantile 은 I_p =N {k/q} 인 인덱스 I_p 의 값이다.  I_p 가 정수가 아니면 올림한 정수 인덱스를 취하면 되고 정수일 경우는 해당 인덱스 혹은 그 다음 인덱스에 해당하는 값 사이의 어떤 값을 취하여도 좋다. 대개는 두 값의 평균을 취한다.

예를 들어 살펴보자.

① 짝수개의 모집단인 경우

{3, 6, 7, 8, 8, 10, 13, 15, 16, 20} 과 같은 10개의 값을 가진 모집단에서 4분위수들은 어떻게 구할까?

  • 0-th quartile = 3 ( 첫 번째 원소이다)
  • 1-st quartile = 7 ( 10 × (1/4) = 2.5 이고 올림하여 3을 얻는다. 3번째 원소는 7이다.)
  • 2-nd quartile = 9 ( 10 × (2/4) = 5 이고 5번째 인덱스와 그 다음 인덱스인 6번째 인덱스의 두 값은 8과 10이다. 8, 9, 10 모두 가능하나 일반적으로 8과 10의 평균값인 9를 취한다. 이 값은 바로 median 이 된다.
  • 3-rd quartile = 15 ( 10 × (3/4) =  7.5 이고 올림하면 8이 된다. 8번째 원소인 15를 취한다.)
  • 4-th quartile = 20 ( 마지막 원소이다.)

② 홀수개의 모집단인 경우

{3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20} 과 같이 11개의 값을 가진 모집단에서 4분위수들을 구해보자.

  • 0-th quartile = 3 ( 첫 번째 원소이다)
  • 1-st quartile = 7 ( 11 × (1/4) = 2.75 이고 올림하여 3을 얻는다. 3번째 원소는 7이다.)
  • 2-nd quartile = 9 ( 11 × (2/4) = 5.5 이고 올림하여 6을 얻는다. 6번째 원소인 9가 되며, 이것이 의미하는 바는 모집단에서 2/4 개의 원소들은 2-nd quartile 보다 작다는 것이다.
  • 3-rd quartile = 15 ( 11 × (3/4) =  8.25 이고 올림하면 9이 된다. 9번째 원소인 15를 취한다.)
  • 4-th quartile = 20 ( 마지막 원소이다.)

 

생각해 볼 점

‘학생들의 성적 데이터에서 어떤 학생의 성적이 100분위수 중 80번째에 들어있다.’

맞는 표현일까? q-quantile 은 ‘at’ 의 구간을 구분하는 눈금의 개념이지 구간의 개념이 아니므로 ‘in’ 에 해당하는 속해 있다는 표현을 쓰면 안 된다. ‘at’ 의 개념으로 설명하거나 아니면 차라리 ’80번째 100 분위수와 81번째 100 분위수 사이의 구간에 위치해 있다.’ 라는 식으로 표현하는 것이 맞겠다. 분위수는 평균에 비해 비정상적인 값 (outlier) 이나 long-tail 분포에 덜 민감하므로, 이런경우에 기술통계에 더 유용하게 사용할 수 있다.

Leave a Comment