타이타닉 데이터에 대해서 분석을 해보고자 한다. 이 데이터는 데이터 사이언스나 머신러닝을 공부한 사람들은 많이 들어봤을만한 데이터분석 경연 사이트인 캐글(Kaggle)에서 입문자용으로 가장 많이 사용하는 예제이다. 가장 많이 사용되는 데이터이므로 다양한 사람들이 다양한 방법으로 다양한 관점에서 데이터를 분석 하고 있기 때문에 이 데이터를 가지고 공부를 해보면 데이터 분석의 전반적인 과정을 습득하는데 도움이 되겠다 싶어 다뤄본다. 데이터는 kaggle사이트에 들어가면 얻을 수 있다. https://www.kaggle.com/ 캐글 타이타닉 데이터 분석 - 1부터 3까지 3단계에 걸쳐 다룰것이다. 먼저 캐글 타이타닉 데이터 분석 - 1에서는 데이터를 불러오고 탐색적 자료 분석(EDA)을 적용해 시각화까지 해..
pandas_subway Pandas¶지하철 데이터¶ In [1]: import numpy as np import pandas as pd import matplotlib.pyplot as plt In [2]: data = pd.read_csv('CARD_SUBWAY_MONTH_201901.csv') In [4]: data.head() #data.tail() Out[4]: 사용일자 노선명 역ID 역명 승차총승객수 하차총승객수 등록일자 18329 20190131 1호선 155 동대문 14563 15139 20190203 18330 20190131 1호선 154 종로5가 30249 29703 20190203 18331 20190131 1호선 153 종로3가 36804 35050 20190203 18332 20..
In [26]: import numpy as np import pandas as pd import matplotlib.pyplot as plt In [23]: '''f = open('성별학생수현황.csv') line = f.readline() features = line.strip().split(',') data=[] for line in f: l = line.strip().split(',') data.append(l) data f.close() features''' Out[23]: "f = open('성별학생수현황.csv')\n\nline = f.readline()\nfeatures = line.stri..
로지스틱 회귀¶ Iris 데이터 셋을 로지스틱 회귀를 사용하여 분류해보자. In [22]: from sklearn import datasets import numpy as np import matplotlib import matplotlib.pyplot as plt iris = datasets.load_iris() list(iris.keys()) Out[22]: ['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'] In [23]: X = iris['data'][:,3:] y = (iris['target']==2).a..
인공신경망 실습¶ Iris data를 사용해 실습을 진행해보겠다. 여기서는 iris 중 setosa, versicolor, virginica라는 품종의 데이터에 대해 살펴보겠다. 데이터는 먼저 Training Data Set과 Test Data Set으로 구분해 보겠다. (1) iris data set 로드¶ In [53]: from sklearn.datasets import load_iris sklearn라이브러리의 datasets라는 모듈에서 load_iris를 import한다. 이 코드는 sklearn.datasets의 모듈에 있는 아이리스 데이터를 불러오는 부분이다. In [54]: iris=load_iris() load_iris() 함수는 아이리스 dataset을 불러오는 기능을 수행한다. ir..
Untitled8 Iris 데이터를 이용해 간단한 랜덤 포레스트 구현¶ (1) Iris Data 소개¶ Iris 데이터는 붓꽃의 3가지 종류를 기록한 데이터이다. Iris 데이터에는 붓꽃 줄기의 길이, 너비 그리고 붓꽃 잎의 길이와 너비 등 4개의 특징이 있다. 그리고 목표 데이터, 즉 붓꽃의 종류인 target은 0, 1, 2로 되어 있는데 이는 각각 setosa, versicolor, virginica를 나타낸다. 전체 데이터의 크기는 150개(line)이다. (2) 필요한 패키지 및 라이브러리 로드¶ In [66]: from sklearn.datasets import load_iris Iris 데이터를 사용하기 위해 sklearn.DataSets 패키지에서 load_iris모듈을 import한다. ..
Untitled7 의사결정 트리 파이썬 코드 실습¶ (1)패키지 로드¶ In [1]: from sklearn.metrics import classification_report, confusion_matrix sklearn.metrics는 scikit-learn 패키지 중 모델 평가에 사용되는 모듈이다. sklearn.metrics 패키지의 모듈 중 classification_report는 주요 분류 측정 항목을 보여주는 보고서 모듈이다. confusion_matrix는 분류의 정확성을 평가하기 위한 오차행렬 계산 모듈이다. In [2]: from sklearn.model_selection import train_test_split sklearn.model_section은 scikit-learn 패키지 중..
다중선형회귀분석 실습 1 In [18]: (1) Python package 로드 및 matplotlib 출력 옵션 설정 In [19]: # 사용할 패키지들을 불러와서 포함시키는 코드이다. # python package들을 가져오는 것과 matplotlib 출력 옵션 설정에 대한 내용이다. from sklearn import linear_model import numpy as np import pandas as pd import matplotlib import matplotlib.pyplot as plt %matplotlib inline matplotlib.style.use('ggplot') In [20]: (2) 데이터 생성 In [21]: data = {'x1' : [13, 18, 17, 20, 22,..