티스토리 뷰

Untitled17

분할표

명목형 또는 순서형 데이터의 도수를 표 형태로 기록한 것이다. 분할표가 작성이되면 카이 제곱 검정으로 변수 간에 의존 관계가 있느지를 독립성 검정(P(i,j)=P(i)*P(j))으로, 도수가 특정 분포를 따르는지를 적합도 검정으로 살펴볼 수 있다.

명목형 데이터

가능한 값이 제한되어 있고 종종 고정되어 있는 변수를 의미한다. 예를 들면, 국가명, 혈액형 등이다.

순서형 데이터

값의 순서를 숫자로 저장한 변수다. 예를 들어, 설문 조사에서 제품 만족도를 조사하면서 응답을 매우 만족, 만족, 보통, 불만족, 매우 불만족으로 받을 수 있다. 이들 응답은 각각 5(매우 만족), 4(만족), 3(보통), 2(불만족), 1(매우 불만족)로 저장할 수 있는데, 이때 큰 값은 더 큰 만족을 의미한다. 하지만 이 값을 간에 비례적 관계를 존재하지 않는다. 예를들어, 5는 2보다 큰 값이므로 더 만족한다는 의미지만 2.5배 더 만족한다는 의미는 아니다.

카이 제곱 분포

X2분포는 k개의 서로 독립적인 표준정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포이다. 이 때 k를 자유도라고 하며, 카이제곱 분포의 매개변수가 된다. 카이제곱 분포는 신뢰구간이나 가설검정 등의 모델에서 자주 등장한다.

귀무가설(H0) , 대립가설(H1), 유의수준

통계에서의 가설 검정은 측정된 두 현상 간에 관련이 없다는 귀무가설과 두 현상간에 '관련이 있다'고 보는 것으로 연구자가 알아보고자 하는 가설인 대립가설을 사용한다. 귀무가설과 대립가설은 서로 모순 관계다. 따라서 귀무가설이 참이면 대립가설이 거짓이고, 귀무가설이 거짓이면 대립가설이 참이다.

가설 검정은 귀무가설을 일단 참이라고 가정하고 시작한다. 그 뒤 귀무가설을 참이라고 생각했을 때 주어진 데이터 또는 그 보다 극단적인 데이터가 관측될 확률을 구한다. 이를 p-value라고 한다. '더 극단적'이라는 개념은 대립가설의 형태마다 다르다. '크다'형태의 대립가설이라면 관측값 또는 그 값보다 큰 값을 볼 확률이 될 것이고, '작다'형태의 대립가설이면 관측값 또는 그보다 작은 값을 볼 확률이 된다. 반면 양측 검정의 경우에는 작은 경우와 큰 경우를 모두 포함한다.

어느 정도의 p-value면 크다 또는 작다고 말할 수 있을까? p-value를 크다, 작다로 나누는 기준을 유의수준이라고 하며 그 값을 기호 a로 표시한다. 유의수준으로는 보통 0.05가 사용된다. 즉, p-value가 5%보다 크다면 귀무가설을 채택한다. 이는 곧 귀무가설에 95%의 신뢰를 주는 것이다. 이처럼 귀무가설에 특혜를 주는 이유는 확실한 증거가 없이는 두 변수 간에 상관관계가 있다고 말하지 않기 위함이다.

적합도 검정

통계 분석에서는 종종 데이터가 특정 분포를 따름을 가정한다. 특히 데이터의 크기가 일정 수 이상이라면 데이터가 정규 분포를 따름을 별 의심 없이 가정하기도 한다. 하지만 실제로 그 분포를 따르는지 확인해볼 수도 있다. 검정 방법으로는 카이 제곱 검정, 샤피로 윌크 검정, 콜모고로프 스미르노프 검정, Q-Q도 등이 있다.

상관 분석

상관 분석은 두 확률 변수 사이의 관련성을 파악하는 방법이다. 상관 계수는 두 변수 간 관련성의 정도를 의미하며, 이를 계산하는 방법에는 피어슨 상관계수, 스피어만 상관 계수, 켄달의 순위 상관 계수 등이 있다. 그러나 흔히 상관 계수라고 하면 피어슨 상관계수를 뜻한다.

피어슨 상관 계수

피어슨 상관걔수는 두 변수 간의 선형적 상관관걔를 측정하며, [-1,1]사이의 값을 가진다. 0보다 큰 상관 계수 값은 한 변수가 커지면 다른 변수도 선형적으로 증가함을 뜻하고, 0보다 작은 상관 계수는 한 변수가 커지면 다른 변수가 선형적으로 감소함을 뜻한다. X, Y의 피어슨 상관 계수가 1이면 (X,Y)를 좌표 평면에 그렸을 때 직선으로 나타난다. 0은 두 변수 간 상관관계가 없음을 뜻한다.

선형 회귀의 기본 가정

성형 회귀는 i번째 관측값을 뜻하는 변수들이 (Xi1, Xi2, ..., Xip,Yi) 형태로 주어졌을 때 종속 변수 Yi와 p개의 독립 변수 Xi1,Xi2,...,Xip를 다음과 같은 선형 식으로 표현한다.
Yi=b0+b1Xi1+b2Xi2+...+bpXip+ei
식에서 b들은 회귀 모델의 계수며, ei는 오차다. 이러한 선형 모델이 유용한 경우는 자동차 제동 거리와 브레이크를 밟기 전의 주행 속도 간의 관계, 아버지의 키와 아들의 키의 관계 등을 들 수 있다.

선형회귀는 일반적으로 다음과 같은 내용을 가정한다.

  • 종속 변수와 독립 변수들 간에 선형성이 성립한다.
  • 독립변수 Xij는 정확히 측정된 값으로 확률적으로 변하는 값이 아닌 고정된 값이다.
  • 오차 ei는 평균이 0, 분산은 sigma^2인 정규 분포를 따르며 모든 i에 대해 평균과 분산이 일정하다. 또, 서로 다른 i,j에 대해 ei,ej는 독립이다.
  • 독립 변수 간에는 다중 성선성이 적어야 한다. 다중 공선성은 회귀 모델에서 변수 간의 상관관계가 커서 한 변수를 다른 변수들의 선형 조합으로 소ㄴ쉽게 예측할 수 잇는 경우를 뜻한다. 다중 공선성이 존재하면 계수 b들의 추정이 어려워진다. 예를 들어 Xi1 = aXi2+bXi3이 성립한다면 선형 회귀 식에서 Xi1 변수의 사용이 무의미해지기 때문이다.

단순 선형 회귀

단순 선형 회귀는 종속 변수 Yi를 하나의 독립 변수 Xi로 설명한다. 두 개 이상의 독립 변수로 설명하는 경우는 중선형 회귀라 한다. 중선형 회귀에 관해서는 다음 절에서 설명한다.
단순 선형 회귀 모델은 다음과 같이 표현된다.
Yi=b0+b1Xi+ei
이 식에서 b0, bi은 각각 절편과 독립 변수 Xi의 계수며, 이들을 회귀 계수라 부른다. ei는 오차를 나타낸다.

이상치

이상치는 주어진 회귀 모델에 의해 잘 설명되지 않는 데이터 점들을 뜻한다. 이상치 검출에서는 잔차, 특히 스튜던트화 잔차를 사용한다.

스튜던트화 잔차

스튜던트화 잔차는 잔차를 잔차의 표준 편차로 나눈 값이다. 일반적으로 표준 편차는 데이터 전체에 대해서 구한다. 그런데 i번째 데이터가 이상치인지 확인하면서 i번째 데이터를 포함해 표준 편차를 구하는 것은 적절치 않을 수 있다. 따라서 외면 스튜던트화 잔차는 i번째 스튜던트화 잔차를 구할 때 i를 제외하여 표준 편차를 구한다.

반면 전체 데이터에 대해 표준편차를 구하는 경우를 내면 스튜던트화 잔차라 한다.

변수 선택

선형 회귀 모델을 만들 때 주어진 여러 변수 중 어떤 변수를 설명 변수로 해야 할지는 모델링을 수행하는 사람의 배경 지식에 따라 결정할 수 있다. 하지만 이러한 배경 지식이 없거나, 배경 지식이 있어도 여전히 어떤 변수들을 선택해야 할지 정확히 결정할 수 없다면 변수의 통계적 특성을 고려해 기계적으로 설명 변수를 채택하는 방법을 사용할 수 있다.

변수 선택 방법

  • 전진 선택법: 절편만 있는 모델에서 기준 통계치를 가장 많이 개선시키는 변수를 차례로 추가하는 방법
  • 변수 소거법: 모든 변수가 포함된 모델에서 기준 통계치에 가장 도움이 되지 않는 변수를 하나씩 제거하는 방법
  • 단계쩍 방법: 모든 변수가 포함된 모델에서 출발하여 기준 통계치에 가장 도움이 되지 않는 변수를 삭제하거나, 모델에 빠져 있는 변수 중에서 기준 통계치를 가장 개선시키는 변수를 추가한다. 그리고 이러한 변수의 추가 또는 삭제를 반복한다. 반대로 절편만 포함된 모델에서 출발해 변수의 추가, 삭제를 반복할 수도 있다.

'beginner > 데이터 과학을 위한 통계 by R' 카테고리의 다른 글

표본추출, 편향  (0) 2019.03.07
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함