본문 바로가기
Study/논문 공부

[논문]딥러닝을 이용한 통계적 가설검정: 이표본 t-검정을 중심으로(한국데이터정보과학회, 2021)

by blackJ 2022. 4. 27.

 

딥러닝을 이용한 통계적 가설검정: 이표본 t-검정을 중심으로

(한국데이터정보과학회, 2021)

 

 

  • 심층신경망을 이용한 통계적 가설검정
    • 통계적 가설검정 : 주어진 자료를 바탕으로 귀무가설의 기각 여부를 결정하는 과정
                              기각되는 경우 이에 대한 대안으로 대립가설 선택
    • 기계학습에서의 분류문제로 간주될 수 있음
  • 두 모분포의 평균 비교 검정에 대하여 심층신경망을 학습시키고 검정 성능을 기존 이표본 t-검정과 비교
  • 학습된 심층신경망은 유의수준 5%의 t-검정과 비슷한 수준의 검정결과

 

  • 딥러닝(심층학습; Deep Learning) 
    • 머신러닝의 한 방법
    • 인간의 뇌에서 신경 세포를 사용하는 방식과 유사한 알고리즘
    • 여러 층을 가진 인공신경망(Artificial Neural Network, ANN)을 사용하여 머신러닝 학습을 수행하는 것
    • 많은 양의 자료로부터 문제 해결을 위한 패턴이나 특성을 찾아냄
  • 심층신경망(Deep Neural Network, DNN)
    입력층(input layer)과 출력층(output layer) 사이에 여러 개의 은닉층(hidden layer)들로 이루어진 인공신경망(Artificial Neural Network, ANN)

  • 통계적 가설검정(statistical hypothesis test)
    • 통계적 추론의 하나
    • 모집단 실제의 값이 얼마나 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정
    • 관찰 자료를 이용하여 귀무가설(null hypothesis)의 기각 여부를 결정하는 과정
  • t-검정(t-test)
    • 두 집단 간의 평균에 대한 차이를 통계적 유의성으로 검정하는 방법
    • 일표본 t-검정(one sample t-test), 이표본 t-검정(two samples t-test), 대응표본 t-검정(paired t-test)
    • 세 가지의 검정법은 모두 모집단의 분포가 정규분포를 따른다는 가정을 전제 -> 정규성 검정을 먼저 해야 함.
      정규성에 어긋난다면 비모수 절차를 이용함.
  • 일표본 t-검정(one sample t-test)
    모집단의 평균이 특정한 상수와 같은지 검정하기 위해 표본 평균을 이용하는 검정 방법

  • 이표본 t-검정(two sample t-test; 독립 t-검정)
    • 두 그룹의 모평균의 차이가 특정한 상수와 같은지를 검정하기 위해 각 그룹으로부터 표본을 추출해 이들 표본 평균의 차를 이용하는 검정법
    • 두 모집단은 독립인 관계에 있어야 함.
    • 두 모분산이 같은 경우를 가정하지만 모분산이 다른 경우도 근사적 t-검정이 가능
      (분산의 동일 유무는 분산의 동일성 검정으로 확인 가능)
  • 대응표본 t-검정(paired t-test)
    각 대응하는 자료 값의 차에 대한 표본평균이 특정한 상수와 같은지를 검정하는 방법
본 연구에서는 다음의 이표본 평균 비교 문제에 대한 DNN을 학습시키고
이후 DNN을 이용한 검정과 기존의 이표본 t-검정(two sample t-test)를 비교하고자 한다.




본 연구의 가장 큰 목적은 딥러닝이 통계적 가설검정에 활용될 수 있는지를 확인하는 것이다.

 

 

  • 통계추론과 딥러닝
    • 통계추론 : 적절한 형태의 통계량이 먼저 제시되고 제시된 통계량의 확률분포를 기반으로 추론이 이루어지기 때문에 문제 해결을 위한 통계의 제시와 분포이론등이 중요
    • 딥러닝 : 데이터로부터 문제해결을 위한 능력을 학습하기 때문에 DNN의 구조(structure)와 더불어 많은 양의 학습데이터(훈련데이터, training data)가 추론의 핵심 요소가 됨.
    • 예를 들어, 위의 이표본 검정의 경우 통계적 추론은 표본 평균의 차이를 이용하여 검정 통계량을 구축한 후 분포이론을 이용하여 검정통계량의 확률분포를 유도함으로써 가설검정을 위한 기반을 마련함
  • 결론
    • DNN을 이용하여 이표본 평균 비교 검정을 수행
    • 시뮬레이션을 통하여 학습데이터를 생성한 후 DNN을 선택하고, 학습시켰으며, 이표본 검정문제에서는 기본 신경망으로도 충분한 검정성을을 보였음.
    • 본 실험에서 학습된 DNN은 유의수준 5%의 이표본 t-검정과 비슷한 수준의 사이즈와 검정력을 보였음.
    • 이를 통해 딥러닝이 이표본 평균 비교 검정에서도 충분히 활용될 수 있음을 확인
    • 본 연구를 통하여 파악된 DNN 기반 검정의 장단점
      • 장점
        • 검정 통계량 없이도 가설검정이 가능
        • 다중가설 검정문제로의 손쉬운 확장
      • 해결하지 못한 검정문제 : DNN이 대안적으로 사용일 될 수 있음을 의미한다. 
      • DNN을 이용한 검정은 사이즈와 검정력 등을 이론적으로 계산할 수 없어 검정에 대한 신뢰도를 간접적으로 확인해야 한다.
      • 단점
        • 각각의 상황에 따라 DNN을 새로 세팅하고 학습시켜야하는 점과 학습데이터 준비 시 모수의 범위와 가설별 구성비율의 결정