1. filter 조건문을 이용하여 내가 원하는 정보를 찾아오는 기능이다. sample에서 test 테이블을 불러오자. 테이블 탭을 보면 윗쪽에 Filter Expression이라는 글자와 검색창이 보일 것이다. 여기에 조건문을 집어 넣고 set을 누르면 해당하는 열(row)들만 보여준다. set을 누르면 버튼 이름이 release로 바뀐다. 이때 release를 누르면 조건문을 적용하기 전 상태로 돌아간다. 필터링을 하는 또 다른 방법이 있는데, shell또는 스크립트에 직접 코드를 작성하고 실행하는 것이다. 주의사항. 필터기능은 원본이 변형될 경우 영향을 받으니, 정보가 필요할 경우 저장해 놓기. 2. Select by Extra Match Data - Select -by Extra Match 위에서..
1. Join by value 회계감사에서 많이 사용한다. sample에서 test.tbl과 test1.tbl을 열자.Data - Join - by value를 누르면 다음과 같은 창이 뜬다. 조인 할 테이블 2개를 각각 First Table과 Second Table에 설정하자. 그 다음 두 테이블에서 매칭시킬 필드를 각각 선택해준다. Join Type에서 1번째를 선택하면 매칭시킨 필드끼리 같은 열(row)만 나온다.(test와 test1에 A,B,C,D,E,Date가 똑같이 있으므로 '_1' 이 붙어서 표현이 되었다.) 2번째를 선택하면 같지 않은 필드를 1번 필드를 기준으로 표시한다. 분식회계 찾는데 유용하다고 하셨다. 3번째를 선택하면 같지 않은 필드를 2번 필드를 기준으로 표시한다. # 조인기능..
Fraudit을 블로깅 해보려고 한다. 부정적발, 분식회계탐지 등을 위한 회계 감사를 위해 만들어진 툴으로 Python 베이스 소프트웨어이다. KICPA에서 Instructor로 계신 회계사님의 스터디(?)에 우연히 참가할 기회를 얻어 배워보게 되었는데, 회계 데이터 분석을 하는데 상당히 강력한 툴인것 같은데 잘 사용하면 내가 데이터 분석을 하는데 도움을 받을수 있을것 같아서 사용해 보려고 한다. 내가 이 툴에 대한 설명을 들으며 가장 마음에 들었던 것은, 아주 큰 자료도 여기서는 보다 빠르게 열 수 있다고 한다. 최대 21억개 가량의 열(row)을 열 수 있다고 한다. 그리고 그 자료들이 테이블 형식으로 열린다는 점! 엑셀은 큰 데이터가 열리지 않고, 파이썬 같은경우는 열더라도 일부만 보여주고 나머지는..
문제 1통에 동전이 100개 들어있다. 한 번 던질 때 마다 앞면이 나온 동전들의 갯수를 적는다.통을 1000번 던졌을 때, 앞면이 나온 횟수의 분포를 히스토그램으로 나타내시오.앞면이 나온 횟수는 [56,63,48,51,...] 과 같이 길이가 1000인 리스트로 표현할 수 있다.np.random.randint(2, size=[1000,100]) 함수를 사용하면 편리하게 구현할 수 있다. 문제 2Iris 데이터의 4가지 속성을 박스플롯 으로 그리시오.그리고, 위 그래프를 보고 확인할 수 있는 Iris 데이터의 특징들을 간단히 기술하시오. 정답 1번¶ In [2]: import numpy as np import matplotlib.pyplot as plt a=np.random.randint(2,size =..
2장_08_SVM 커널 서포트벡터 머신 (Kernel SVM)¶ 앞에서 선형 SVM 에 대해 배웠습니다. 선형 SVM 은 클래스 간의 간격을 가장 넓게 할 수 있는 곧은 평면을 찾는 것입니다. 하지만 곧은 평면 만으로 클래스를 구분 할 수 없는 경우가 많습니다. 커널 방법은 다양한 방법으로 속성을 증가시키거나 다항식이나 복잡한 곡선함수를 적용하여, 굽은 평면으로 클래스를 구분하는 방법입니다. 아래에서 동심원 형태의 데이터를 살펴보겠습니다. 커널 알고리즘의 핵심은 다양한 속성을 추가해 나가는 것이다. 아래는 2차 다항식을 추가하는 경우이다. In [2]: import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.m..
Untitled3 데이터와 표본분포¶ 1.랜덤표본추출과 표본편향¶ 빅데이터 시대가 되면서 데이터의 질과 적합성을 일정 수준 이상으로 담보할 수도 없으면서 데이터 크기만 늘어나고 있다. 이런 상황에서 다양한 데이터를 효과적으로 다루고 데이터 편향성을 최소하하기 위한 방법으로 표본추출(표집,샘플링)의 필요성이 커지고 있다. 표본추출 절차란, 미지의 분포를 따를 것으로 추정되는 모집단을 구하기 위해 표본 데이터와 그 경험을 통해 얻은 분포를 이용하여 구하는 것을 말한다. 전통 통계학에서는 강력한 가정에 기초한 이론을 통해 모집단을 밝혀내는 데 초점을 맞춰왔다면, 현대 통계학에서는 이러한 가정은 필요하지 않은 표본에 대한 연구로 방향이 옮겨지기 시작했다. 일반적으로 데이터 과학자들은 모집단을 구하기 위한 이론적..
문제 1np.random.noraml() 함수를 사용하여 평균이 x축은 평균이 5, 표준편차가 3 이고, y축은 평균이 3, 표준편차가 2 인 샘플을 1000개 만들어서 이를 산점도로 표시하시오.위의 산점도에서 축의 비율을 일정하게 놓으시오. (x축과 y축의 눈금길이가 일정하도록 한다. plt.axis() 함수 사용) 문제 2임의의 그래프를 하나 그린 다음, 제목, x축 이름, y축 이름, 범례에 한글로 된 글자를 넣으시오. 정답 Untitled16 In [2]: import numpy as np import matplotlib.pyplot as plt X = np.random.normal(5,3,1000) y = np.random.normal(3,2,1000) plt.scatter(X, y ,alpha..
In [26]: import numpy as np import pandas as pd import matplotlib.pyplot as plt In [23]: '''f = open('성별학생수현황.csv') line = f.readline() features = line.strip().split(',') data=[] for line in f: l = line.strip().split(',') data.append(l) data f.close() features''' Out[23]: "f = open('성별학생수현황.csv')\n\nline = f.readline()\nfeatures = line.stri..