티스토리 뷰

Untitled3

데이터와 표본분포

1.랜덤표본추출과 표본편향

빅데이터 시대가 되면서 데이터의 질과 적합성을 일정 수준 이상으로 담보할 수도 없으면서 데이터 크기만 늘어나고 있다. 이런 상황에서 다양한 데이터를 효과적으로 다루고 데이터 편향성을 최소하하기 위한 방법으로 표본추출(표집,샘플링)의 필요성이 커지고 있다.

표본추출 절차란, 미지의 분포를 따를 것으로 추정되는 모집단을 구하기 위해 표본 데이터와 그 경험을 통해 얻은 분포를 이용하여 구하는 것을 말한다. 전통 통계학에서는 강력한 가정에 기초한 이론을 통해 모집단을 밝혀내는 데 초점을 맞춰왔다면, 현대 통계학에서는 이러한 가정은 필요하지 않은 표본에 대한 연구로 방향이 옮겨지기 시작했다.

일반적으로 데이터 과학자들은 모집단을 구하기 위한 이론적인 측면에 대해 걱정하기보다, 표본추출 과정과 주어진 데이터에 집중할 필요가 있다.
몇가지 주목할 만한 예외가 있다면, 때로 모델링이 가능한 물리적 과정을 통해 데이터가 생성된다. 예를들어 동전던지기를 통해 실제로 생활에서 격게 되는 모든 이항 상황을 설명할 수 있다. 이 경우 우리는 모집단에 대한 이해를 바탕으로 추가적인 통찰을 얻을 수 있다.

용어정리

  • 표본(sample): 더 큰 데이터 집합으로부터 얻은 부분집합
  • 모집단(population): 어떤 데이터 집합을 구성하는 전체 대상 혹은 전체 집합
  • N(n): 모집단(표본)의 크기
  • 임의표집(랜덤표본추출, random sampling): 무작위로 표본을 추출하는 것
  • 층화표집(층화표본추출, stratified smapling): 모집단을 층으로 나눈 뒤, 각 층에서 무작위로 표본을 추출하는 것
  • 단순임의표본(단순랜덤표본, simple random sample): 모집단 층화 없이 랜덤표본추출로 얻은 표본
  • 표본편향(sample bias): 모집단을 잘못 대표하는 표본

샘플 기반의 추정이나 모델링에서 데이터 품질은 데이터의 양보다 더욱 중요하다. 데이터 과학에서 데이터 품질이란 완결성, 형식의 일관성, 깨끗함 및 각 데이터 값의 정확성을 말한다. 통계는 여기에 대표성(representativeness)이라는 개념을 추가한다.

표본편향이 발생할 땐, 원래 대표되도록 의도된 모집단으로부터 추출되지 않고 유의미한 비임의 방식으로 표본이 추출된 것이다. 비임의(nonrandom)라는 용어는 아무리 랜덤표본이라고 해도, 어떤 표본도 모집단을 정확하게 대표할 수 없다는 것을 의미한다.

2.선택 편향

선택 편향은 데이터를 의식적이든 무의식적이든 선택적으로 고르는 관행을 의미한다. 결국 오해의 소지가 있거나 단편적인 결론을 얻게 된다.

용어정리

  • 편향(bias): 계통적 오차
  • 데이터 스누핑(data snooping): 뭔가 흥미로운 것을 찾아 광범위하게 데이터를 살피는 것
  • 방대한 검색 효과(vast search effect): 중복 데이터 모델링이나 너무 많은 예측변수를 고려하는 모델링에서 비롯되는 편향 혹은 비재현성

어떤 가설을 세우고 그것을 시험하기 위해서 잘 설계된 시험을 수행한다면, 그 결과에 대해 강하게 확신할 수 있다. 하지만 이런 경우는 참 드물다. 보통은 가지고 있는 데이터를 먼저 확인한 후 그 안에서 패턴을 찾고자 한다. 하지만 이것이 참된 패턴인지 아니면 그냥 데이터 스누핑을 통해 나온 결과인지 알 수가 없다. 다시 말해, 뭔가 흥미로운 것이 나올 때까지 데이터를 너무 샅샅이 뒤진 결과가 아닐까?

빅데이터를 반복적으로 조사하는 것(ex.데이터마이닝)이 데이터 과학의 중요한 가치 명제이기 때문에, 선택 편향에 대해 조심할 필요가 있다. 데이터 과학자들이 특별히 걱정하는 선택 편향의 한 형태는 존 엘더가 방대한 검색 효과라고 부르는 것이다. 큰 데이터 집합을 가지고 반복적으로 다른 모델을 만들고 다른 질문을 하다보면, 언젠가 흥미로운 것을 발견하기 마련이다. 그 결과는 정말로 의미 있는 것인가? 아니면 우연히 얻은 예외 경우인가?

성능을 검증하기 위해 하나 이상의 홀드아웃(holdout) 세트를 이용하면 이를 방지할 수 있다. 또한 엘더는 데이터 마이닝 모델에서 제시하는 예측들을 검증하기 위해 목푯값 섞기(target shuffling, 본질적으로는 순열검정)라는 것을 추천했다.

방대한 검색 효과 외에도, 통계에서 일반적으로 나타나는 선택 편향으로는 비랜덤표본추출, 데이터 체리 피킹(선별), 특정한 통계적 효과를 강조하는 시간 구간 선택, '흥미로운'결과가 나올 때 실험을 중단하는 것 등이 여기에 포함된다.

Note. 자기 선택 표본편향
소셜 미디어 사이트에서 보는 레스토랑, 호텔, 카페 등에 대한 리뷰는 제출하는 사람들이 무작위로 선택되지 않았기 때문에 편향되기 쉽다. 오히러 작성자 스스로 리뷰 작성에 대한 주도권을 쥐고 있다. 이것은 자기 선택 편향으로 연결된다. 리뷰를 남기고자 하는 사람들은 시설에 대한 안 좋은 경험이 있거나, 해당 시설과 관련이 있거나, 리뷰를 남기지 않는 보통 사람들과는 뭔가 다른 유형의 사람일 가능성이 높다.
이와 같이 자기 선택 표본은 상황을 정확히 파악하기 위한 지표로는 사용하기 어려울 수 있지만, 어떤 시설을 비슷한 시설과 단순 비교할 때는 오히려 더 신뢰할 만하다. 비슷한 자기 선택 편향이 각각의 경우에 똑같이 적용될 수 있기 때문이다.

평균으로의 회귀

평균으로의 회귀란 주어진 어떤 변수를 연속적으로 측정했을 때 나타나는 현상이다. 예외적인 경우가 관찰되면 그 다음에는 중간 정도의 경우가 관찰되는 경향이 있다. 따라서 예외 경우를 너무 특별히 생각하고 의미를 부여하는 것은 선택 편향으로 이어질 수 있다.

평균에 대한 회귀는 일종의 선택 편향으로 인해 나타나는 결과이다. 예를들어 스포츠에서 '신인상 수상자의 2년 차 슬럼프'를 보면, 성적으로 신인을 뽑을 때, 진짜 실력도 있지만 운도 동시에 따랐을 것이다. 다음 시즌에는 실력은 그대로 유지되지만, 대부분의 경우 운은 그렇지 않다. 따라서 성적은 나빠질 것이다. 또다른 예로 키가 엄청나게 큰 남성의 자식들도 아버지처럼 키가 큰 것은 아니다.

Coution 여기서 회귀란 '돌아간다'는 의미로서 통계쩍 모델링 방법의 하나인 선형회귀와는 구분되어야 한다. 선형회귀는 예측변수와 결과변수 사이의 선형적 관계를 추정하는 방법이다.

출처 : 데이터 과학을 위한 통계


'beginner > 데이터 과학을 위한 통계 by R' 카테고리의 다른 글

용어정리  (0) 2019.03.23
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함