분할표¶명목형 또는 순서형 데이터의 도수를 표 형태로 기록한 것이다. 분할표가 작성이되면 카이 제곱 검정으로 변수 간에 의존 관계가 있느지를 독립성 검정(P(i,j)=P(i)*P(j))으로, 도수가 특정 분포를 따르는지를 적합도 검정으로 살펴볼 수 있다. 명목형 데이터¶가능한 값이 제한되어 있고 종종 고정되어 있는 변수를 의미한다. 예를 들면, 국가명, 혈액형 등이다. 순서형 데이터¶값의 순서를 숫자로 저장한 변수다. 예를 들어, 설문 조사에서 제품 만족도를 조사하면서 응답을 매우 만족, 만족, 보통, 불만족, 매우 불만족으로 받을 수 있다. 이들 응답은 각각 5(매우 만족), 4(만족), 3(보통), 2(불만족), 1(매우 불만족)로 저장할 수 있는데, 이때 큰 값은 더 큰 만족을 의미한다. 하지만 이..
Untitled3 데이터와 표본분포¶ 1.랜덤표본추출과 표본편향¶ 빅데이터 시대가 되면서 데이터의 질과 적합성을 일정 수준 이상으로 담보할 수도 없으면서 데이터 크기만 늘어나고 있다. 이런 상황에서 다양한 데이터를 효과적으로 다루고 데이터 편향성을 최소하하기 위한 방법으로 표본추출(표집,샘플링)의 필요성이 커지고 있다. 표본추출 절차란, 미지의 분포를 따를 것으로 추정되는 모집단을 구하기 위해 표본 데이터와 그 경험을 통해 얻은 분포를 이용하여 구하는 것을 말한다. 전통 통계학에서는 강력한 가정에 기초한 이론을 통해 모집단을 밝혀내는 데 초점을 맞춰왔다면, 현대 통계학에서는 이러한 가정은 필요하지 않은 표본에 대한 연구로 방향이 옮겨지기 시작했다. 일반적으로 데이터 과학자들은 모집단을 구하기 위한 이론적..