beginner/R 문법 기초
R 산술통계함수
johh
2019. 7. 18. 23:42
김승욱님의 강의를 듣고 작성하였습니다.
[R을 R려줘] R 문법 기초 - 인프런
데이터 분석을 시작하기 위해서 선택하는 필수 언어 중 하나인 R을 배우는 과정 입니다. 프로그래밍 언어를 처음 배우는 사람도 충분히 따라할 수 있을 정도로 쉽게 제작되어 있으니 부담없이 따라할 수 있습니다. 입문 프로그래밍 언어 R 온라인 강의
www.inflearn.com
기술 통계량
1.숫자생성
| > number = c(1:1000) > set.seed(50) # 무작위 숫자를 50이라는 숫자에 고정, 나중에 랜덤을 돌리더라도 seed(50)을 하면 같은 랜덤 값이 나옴. > number = sample(number,30) # 1~1000까지 숫자 중에무작위로 뽑힌 30개의 숫자를 number에 저장 > number = number[order(number)] # 정렬을 하여 number에 저장 > number [1] 42 45 73 77 107 166 190 200 251 267 274 302 316 358 359 387 438 512 563 604 634 642 666 695 696 709 765 823 824 988 |
2.최소값/최대값/평균값
| > min(number) [1] 42 |
> max(number) [1] 988 |
> mean(number) [1] 432.4333 |
3. 중앙값 (Median)
주어진 숫자 중 가장 가운데 위치 한 값

| > median(number) [1] 373 |
4. 최빈값(Mode)
주어진 숫자 중 가장 빈번하게 나타나는 값

최빈값을 구하는 기본 함수가 없다. 그래서 사용자 정의 함수라는 것을 만들어서 사용.
| > mode = function(x){ + ux=unique(x) + ux[which.max(tabulate(match(x,ux)))] + } > mode(c(1,1,1,2,3,4,4)) [1] 1 |
(함수 작성법이 묘하다.. )
5. 분산(Variance)과 표준편차(Standard deviation)

| > var(c(1,3,5,2,7,10)) [1] 11.46667 |
> sd(c(1,3,5,2,7,10)) [1] 3.386247 |
기술통계량(결측처리)
1. 결측치가 포함되어 있는 값의 평균 계산
| > mean(c(1:3, NA, 23)) [1] NA |
2. na.rm 파라미터 추가
| > mean(c(1:3, NA, 23), na.rm = TRUE) [1] 7.25 > mean(c(1:3, NA, 23), na.rm = T) [1] 7.25 |
3. 글자가 포함되어 있는 값의 평균 계산
| > mean(c(1:3,'사과', 23)) [1] NA Warning message: In mean.default(c(1:3, "사과", 23)) : 인자가 수치형 또는 논리형이 아니므로 NA를 반환합니다 |
4. na.rm 파라미터 추가
| > mean(c(1:3, '사과', 23), na.rm = TRUE) [1] NA Warning message: In mean.default(c(1:3, "사과", 23), na.rm = TRUE) : 인자가 수치형 또는 논리형이 아니므로 NA를 반환합니다 |