티스토리 뷰
김승욱님의 강의를 듣고 작성하였습니다.
기술 통계량
1.숫자생성
> number = c(1:1000) > set.seed(50) # 무작위 숫자를 50이라는 숫자에 고정, 나중에 랜덤을 돌리더라도 seed(50)을 하면 같은 랜덤 값이 나옴. > number = sample(number,30) # 1~1000까지 숫자 중에무작위로 뽑힌 30개의 숫자를 number에 저장 > number = number[order(number)] # 정렬을 하여 number에 저장 > number [1] 42 45 73 77 107 166 190 200 251 267 274 302 316 358 359 387 438 512 563 604 634 642 666 695 696 709 765 823 824 988 |
2.최소값/최대값/평균값
> min(number) [1] 42 |
> max(number) [1] 988 |
> mean(number) [1] 432.4333 |
3. 중앙값 (Median)
주어진 숫자 중 가장 가운데 위치 한 값
> median(number) [1] 373 |
4. 최빈값(Mode)
주어진 숫자 중 가장 빈번하게 나타나는 값
최빈값을 구하는 기본 함수가 없다. 그래서 사용자 정의 함수라는 것을 만들어서 사용.
> mode = function(x){ + ux=unique(x) + ux[which.max(tabulate(match(x,ux)))] + } > mode(c(1,1,1,2,3,4,4)) [1] 1 |
(함수 작성법이 묘하다.. )
5. 분산(Variance)과 표준편차(Standard deviation)
> var(c(1,3,5,2,7,10)) [1] 11.46667 |
> sd(c(1,3,5,2,7,10)) [1] 3.386247 |
기술통계량(결측처리)
1. 결측치가 포함되어 있는 값의 평균 계산
> mean(c(1:3, NA, 23)) [1] NA |
2. na.rm 파라미터 추가
> mean(c(1:3, NA, 23), na.rm = TRUE) [1] 7.25 > mean(c(1:3, NA, 23), na.rm = T) [1] 7.25 |
3. 글자가 포함되어 있는 값의 평균 계산
> mean(c(1:3,'사과', 23)) [1] NA Warning message: In mean.default(c(1:3, "사과", 23)) : 인자가 수치형 또는 논리형이 아니므로 NA를 반환합니다 |
4. na.rm 파라미터 추가
> mean(c(1:3, '사과', 23), na.rm = TRUE) [1] NA Warning message: In mean.default(c(1:3, "사과", 23), na.rm = TRUE) : 인자가 수치형 또는 논리형이 아니므로 NA를 반환합니다 |
'beginner > R 문법 기초' 카테고리의 다른 글
R 산출물 저장 및 기타 (0) | 2019.07.24 |
---|---|
R 반복문 조건문 (0) | 2019.07.23 |
R Data (0) | 2019.07.18 |
R 데이터 병합 및 요약 (0) | 2019.07.16 |
R 데이터 치환 및 삽입 (0) | 2019.07.16 |