R 산술통계함수

johh 2019. 7. 18. 23:42

김승욱님의 강의를 듣고 작성하였습니다.

[R을 R려줘] R 문법 기초 - 인프런

데이터 분석을 시작하기 위해서 선택하는 필수 언어 중 하나인 R을 배우는 과정 입니다. 프로그래밍 언어를 처음 배우는 사람도 충분히 따라할 수 있을 정도로 쉽게 제작되어 있으니 부담없이 따라할 수 있습니다. 입문 프로그래밍 언어 R 온라인 강의

www.inflearn.com

기술 통계량

1.숫자생성

> number = c(1:1000)
> set.seed(50) # 무작위 숫자를 50이라는 숫자에 고정, 나중에 랜덤을 돌리더라도 seed(50)을 하면 같은 랜덤 값이 나옴.
> number = sample(number,30) # 1~1000까지 숫자 중에무작위로 뽑힌 30개의 숫자를 number에 저장
> number = number[order(number)] # 정렬을 하여 number에 저장
> number
[1] 42 45 73 77 107 166 190 200 251 267 274 302 316 358 359 387 438 512 563 604 634 642 666 695 696 709 765 823 824 988

2.최소값/최대값/평균값

> min(number)
[1] 42

> max(number)
[1] 988

> mean(number)
[1] 432.4333

3. 중앙값 (Median)

주어진 숫자 중 가장 가운데 위치 한 값

> median(number)
[1] 373

4. 최빈값(Mode)

주어진 숫자 중 가장 빈번하게 나타나는 값

최빈값을 구하는 기본 함수가 없다. 그래서 사용자 정의 함수라는 것을 만들어서 사용.

> mode = function(x){
+   ux=unique(x)
+   ux[which.max(tabulate(match(x,ux)))]
+   }
> mode(c(1,1,1,2,3,4,4))
[1] 1

(함수 작성법이 묘하다.. )

5. 분산(Variance)과 표준편차(Standard deviation)

> var(c(1,3,5,2,7,10))
[1] 11.46667

> sd(c(1,3,5,2,7,10))
[1] 3.386247

기술통계량(결측처리)

1. 결측치가 포함되어 있는 값의 평균 계산

> mean(c(1:3, NA, 23))
[1] NA

2. na.rm 파라미터 추가

> mean(c(1:3, NA, 23), na.rm = TRUE)
[1] 7.25
> mean(c(1:3, NA, 23), na.rm = T)
[1] 7.25

3. 글자가 포함되어 있는 값의 평균 계산

> mean(c(1:3,'사과', 23))
[1] NA
Warning message:
In mean.default(c(1:3, "사과", 23)) :
인자가 수치형 또는 논리형이 아니므로 NA를 반환합니다

4. na.rm 파라미터 추가

> mean(c(1:3, '사과', 23), na.rm = TRUE)
[1] NA
Warning message:
In mean.default(c(1:3, "사과", 23), na.rm = TRUE) :
인자가 수치형 또는 논리형이 아니므로 NA를 반환합니다