0장_아이리스 Numpy를 활용한 Iris 데이터 분석¶ In [1]: import numpy as np import pandas as pd import matplotlib.pyplot as plt In [2]: s = open('iris.csv').readline() #header = [i.strip('"') for i in s.strip().split(',')][:-1] header = s.strip().split(',')[:-1] header Out[2]: ['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth'] In [3]: labels = ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'] iris = n..
머신러닝과 파이썬¶ 왜 머신러닝을 배우는 데 파이썬을 사용하는가?¶ 한마디로 표현하면, 파이썬이 편리하고 확장성이 크기 때문이다. 자바와 C에도 훌륭한 머신러닝 라이브러리가 많고 속도도 빠르지만, 배우거나 사용하기에는 여간 까다롭지 않다. 기존에 데이터 분석가들이 매트랩이나 R을 많이 사용하였지만, 프로그래밍 언어로서의 일반성이나 확장성 측면에서 한계를 보이고 있다. 또한 가장 많은 개발자가 파이썬으로 머신러닝을 배우고 연구와 개발에 적용하고 있기 때문이다. 최신 기술이 적용된 파이썬 머신러닝 라이브러리가 제공되고 있다. 개발자들 간의 커뮤니티가 활성화 되어 정보를 얻고 새로운 기술을 적용하기가 용이하다. 그리고 scikit-learn, tensorflow 등의 훌륭한 머신러닝 라이브러리가 있기 때문이다..
2019.02.20 Scikit-learn¶ 파이썬에서 머신러닝을 실행할 수 있게하는 패키지/ Iris(붓꽃) 데이터¶ https://en.wikipedia.org/wiki/Iris_flower_data_set 참조 1936년 한 영국 통계학자에 의해 선형분류 문제의 예제로 활용되면서 머신러닝의 대표적인 예제로 활용되고 있다. 속성 : 꽃받침 길이(sepal length), 꽃받침 폭(sepal width), 꽃잎 길이(petal length), 꽃잎 폭(petal width) 타겟값(목표값) : setosa, versicolor, verginica 샘플 갯수 : 150개 (세품종 각각 50개씩) In [2]: import numpy as np import matplotlib.pyplot as plt f..
딥러닝영역은 CNN과 RNN 두 가지 영역으로 나뉜다. CNN은 image를 다루고, RNN은 언어를 다룬다. image에는 사진 안에 있는 대상을 기준으로 분류하는 기술과 GAA라는 사진과 동영상 같은 것을 만들어 내는 기술, 그리고 알파고 같은 기술이 있다. 언어에는 구글 번역기, 회화, 언어는 순서를 중요시 하기때문에 주식 같은 것들이 있다. Numpy는 시계열 적이므로 CNN분야라고 할 수 있다. 머신러닝(구) : 머신러닝을 기반으로 딥러닝과 강화학습이 나왔기 때문에, 머신러닝을 먼저 공부해줘야 한다. 데이터가 있어야만 분석을 한다. 데이터에서 원하는 정보를 추출 딥러닝 : 머신러닝 분야에 신경망이라는 방법론이 있었는데, 이 분야가 커지다 보니 딥러닝으로 따로 만들어졌다. 데이터가 있어야만 분석을..
matplotlib¶ 시각화의 중요성과 matplotlib¶ 인간은 가장 시각 능력이 뛰어난 동물 중의 하나이다. 하지만 인간의 수치 계산 능력은 본능이 아니다. (언어의 발달로 인한 논리 능력의 확장임) 이런 점들이 인간이 아직까지 인공지능에 비해 시각적 판단이 뛰어난 이유이다. 시각 능력은 다른 말로 하면 패턴인식 능력이다. 빛의 분포로 생기는 시각 패턴을 인간은 너무나 쉽게 알아 볼 수 있다. 이러한 인간의 능력을 최대한 발휘하기 위해서 숫자로 되어 있는 데이터를 시각화 하여야 한다. 제공받은 데이터의 특성을 분석하기 위해서 뿐만 아니라, 결과를 설명하기 위해서 시각화는 아주 중요하다. matplotlib 는 파이썬의 시각화 도구이다. matplotlib 는 MATLAB 의 시각화 기능을 참고하여 ..
Numpy¶기타 기능들¶ a.T, np.transpose() np.dot(), np.matmul(), @ np.meshgrid() np.any(), np.all() np.unique() np.ravel(), 차원증가, np.squeeze(), np.expand_dims(), np.newaxis np.r[], np.c[] np.vectorize() In [2]: import numpy as np import matplotlib.pyplot as plt In [3]: a = np.array([[1,2],[3,4]]) In [4]: a.T Out[4]: array([[1, 3], [2, 4]]) In [5]: a = [1,2,1,2,3,1,2,3,4] np.unique(a) Out[5]: array([1, 2..
2019.02,18 구간나누기¶ np.arange() # a부터 b까지 c단위로 나눈다. np.linspace() # 구간을 나눈다. ex 히스토그램 np.bincount() # 구간을 나눠서 개수를 셈 ex) 140~150은 1명 150~160은 3명 160~170은 5명 170~180은 7명 180~190은 4명 np.digitize() # 구간을 나눠서 mapping 시킴 ex) 143, 142는 0, 152, 155, 156은 1, .... np.histogram() => plt.hist() In [12]: import numpy as np import matplotlib.pyplot as plt In [15]: np.arange(-1,1,0.1) # 1 대신 1과 1.1 사이의 어떤 값을 집어넣..
연습문제¶ 기후 데이터를 불러와서 날자 부분을 [연도, 달, 일]로 분리하라. In [2]: s = '지점,일시,평균기온(°C),최저기온(°C),최저기온 시각(hhmi),최고기온(°C),최고기온 시각(hhmi),강수 계속시간(hr),10분 최다 강수량(mm),10분 최다강수량 시각(hhmi),1시간 최다강수량(mm),1시간 최다 강수량 시각(hhmi),일강수량(mm),최대 순간 풍속(m/s),최대 순간 풍속 풍향(16방위),최대 순간풍속 시각(hhmi),최대 풍속(m/s),최대 풍속 풍향(16방위),최대 풍속 시각(hhmi),평균 풍속(m/s),풍정합(100m),평균 이슬점온도(°C),최소 상대습도(%),최소 상대습도 시각(hhmi),평균 상대습도(%),평균 증기압(hPa),평균 현지기압(hPa)..