간단한 예측과 비용함수(cost function)¶ In [1]: import numpy as np import pandas as pd import matplotlib.pyplot as plt 10명의 수학점수 분포¶ In [2]: data = np.random.randint(0,11,size=10) print('점수 :', data) print('분포 :', np.bincount(data)) 점수 : [3 5 9 0 0 6 7 5 0 2] 분포 : [3 0 1 1 0 2 1 1 0 1] In [7]: data.mean() Out[7]: 3.7 In [4]: plt.plot(data, 'bo-') plt.ylabel('score') plt.xlab..
거리(distance) 개념¶ In [1]: %pylab inline import numpy as np import pandas as pd import matplotlib.pyplot as plt Populating the interactive namespace from numpy and matplotlib In [2]: s = open('iris.csv').readline() #header = [i.strip('"') for i in s.strip().split(',')][:-1] header = s.strip().split(',')[:-1] header Out[2]: ['SepalLength', 'SepalWidth'..
0장_아이리스 Numpy를 활용한 Iris 데이터 분석¶ In [1]: import numpy as np import pandas as pd import matplotlib.pyplot as plt In [2]: s = open('iris.csv').readline() #header = [i.strip('"') for i in s.strip().split(',')][:-1] header = s.strip().split(',')[:-1] header Out[2]: ['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth'] In [3]: labels = ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'] iris = n..
머신러닝과 파이썬¶ 왜 머신러닝을 배우는 데 파이썬을 사용하는가?¶ 한마디로 표현하면, 파이썬이 편리하고 확장성이 크기 때문이다. 자바와 C에도 훌륭한 머신러닝 라이브러리가 많고 속도도 빠르지만, 배우거나 사용하기에는 여간 까다롭지 않다. 기존에 데이터 분석가들이 매트랩이나 R을 많이 사용하였지만, 프로그래밍 언어로서의 일반성이나 확장성 측면에서 한계를 보이고 있다. 또한 가장 많은 개발자가 파이썬으로 머신러닝을 배우고 연구와 개발에 적용하고 있기 때문이다. 최신 기술이 적용된 파이썬 머신러닝 라이브러리가 제공되고 있다. 개발자들 간의 커뮤니티가 활성화 되어 정보를 얻고 새로운 기술을 적용하기가 용이하다. 그리고 scikit-learn, tensorflow 등의 훌륭한 머신러닝 라이브러리가 있기 때문이다..
2019.02.20 Scikit-learn¶ 파이썬에서 머신러닝을 실행할 수 있게하는 패키지/ Iris(붓꽃) 데이터¶ https://en.wikipedia.org/wiki/Iris_flower_data_set 참조 1936년 한 영국 통계학자에 의해 선형분류 문제의 예제로 활용되면서 머신러닝의 대표적인 예제로 활용되고 있다. 속성 : 꽃받침 길이(sepal length), 꽃받침 폭(sepal width), 꽃잎 길이(petal length), 꽃잎 폭(petal width) 타겟값(목표값) : setosa, versicolor, verginica 샘플 갯수 : 150개 (세품종 각각 50개씩) In [2]: import numpy as np import matplotlib.pyplot as plt f..
딥러닝영역은 CNN과 RNN 두 가지 영역으로 나뉜다. CNN은 image를 다루고, RNN은 언어를 다룬다. image에는 사진 안에 있는 대상을 기준으로 분류하는 기술과 GAA라는 사진과 동영상 같은 것을 만들어 내는 기술, 그리고 알파고 같은 기술이 있다. 언어에는 구글 번역기, 회화, 언어는 순서를 중요시 하기때문에 주식 같은 것들이 있다. Numpy는 시계열 적이므로 CNN분야라고 할 수 있다. 머신러닝(구) : 머신러닝을 기반으로 딥러닝과 강화학습이 나왔기 때문에, 머신러닝을 먼저 공부해줘야 한다. 데이터가 있어야만 분석을 한다. 데이터에서 원하는 정보를 추출 딥러닝 : 머신러닝 분야에 신경망이라는 방법론이 있었는데, 이 분야가 커지다 보니 딥러닝으로 따로 만들어졌다. 데이터가 있어야만 분석을..