선형 서포트벡터 머신 (Linear SVM)

  • SVM 은 클래스를 구분하는 분류 문제에서, 각 클래스를 잘 구분하는 선을 그어주는 방식이다.
  • 아래의 그림들을 보면 SVM 이 직관적이라는 것을 알 수 있다. 두 클래스의 가운데 선을 그어주게 된다. 가장 가까이 있는 점들과의 거리가 가장 큰 직선을 찾는다.
  • 이때 가장 가까이 있는 점들을 Support Vector 라고 하고, 찾은 직선과 서포트벡터 사이의 거리를 최대 마진(margin) 이라 한다.
  • 결국 마진을 최대로 하는 서포트벡터와 직선을 찾는 것이 목표이다.
  • SVM 에 대한 상세한 설명은 뒤에서 다루겠다.
  • 참고 자료 : https://en.wikipedia.org/wiki/Support_vector_machine
  • 아래에서, Iris 데이터에 선형 SVM 을 적용해 보겠다.
  • 선형 SVM 은 직선(또는 평면)으로 클래스를 구분한다.
In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.datasets import load_iris

iris = load_iris()
In [4]:
from sklearn.model_selection import train_test_split

col1 = 0
col2 = 1

X = iris.data[:,[col1,col2]] # 시각화를 위해 속성 2개만 선정 (petal length & petal width)
# y = iris.target
y = iris.target.copy()
y[y==2] = 1 # 타겟값을 setosa(0), others(1) 로 설정

X_train, X_test, y_train, y_test = train_test_split(X, y)
X_train.shape, X_test.shape, y_train.shape, y_test.shape
((112, 2), (38, 2), (112,), (38,))
In [5]:
plt.scatter(X[:,0], X[:,1], c=y)
<matplotlib.colorbar.Colorbar at 0x1749c668400>
In [6]:
from sklearn.svm import LinearSVC

model = LinearSVC(C=1)
model.fit(X_train, y_train)

score = model.score(X_train, y_train)
In [7]:
display(model.coef_, model.intercept_)
array([[ 1.39517014, -2.05735663]])
In [8]:
import mglearn

mglearn.plots.plot_2d_classification(model, X_train, eps=0.5, cm='spring')
mglearn.discrete_scatter(X_train[:,0], X_train[:,1], y_train)
[<matplotlib.lines.Line2D at 0x1749e0aac50>,
 <matplotlib.lines.Line2D at 0x1749e0aad68>]
In [9]:
scale = 300
xmax = X_train[:,0].max()+1
xmin = X_train[:,0].min()-1
ymax = X_train[:,1].max()+1
ymin = X_train[:,1].min()-1

xx = np.linspace(xmin,xmax,scale)
yy = np.linspace(ymin,ymax,scale)
data1, data2 = np.meshgrid(xx,yy)
X_grid = np.c_[data1.ravel(), data2.ravel()]
pred_y = model.predict(X_grid)


CS = plt.imshow(pred_y.reshape(scale,scale), interpolation=None, origin='lower',
                extent=[xmin,xmax,ymin,ymax], alpha=0.3, cmap='gray_r')

# draw X_train
plt.scatter(X_train[:,0], X_train[:,1], c=y_train, s=60)

plt.colorbar(CS, shrink=0.3)
plt.title('Linear SVC - Iris',fontsize=20)
Text(0.5,1,'Linear SVC - Iris')
In [10]:
w = model.coef_
b = model.intercept_

display(w, b)
array([[ 1.39517014, -2.05735663]])
  • 선형 SVM 은 평면으로 클래스를 구분하므로 기울기와 편향값을 제공한다.
  • 하지만 확률수치를 알 수 있는 model.predict_proba() 는 제공하지 않지만, decision_function() 을 제공한다.
  • LinearSVC 는 C 라는 중요한 옵션을 가진다. C 값이 클수록 모델이 훈련데이터에 과대적합 되는 경향이 생긴다. 상세한 설명은 뒤에서 다루겠다.
  • penalty는 선 밖에 있는 점의 정의 방법이다.
In [12]:
mglearn.plots.plot_2d_separator(model, X_train, eps=0.5)
#mglearn.plots.plot_2d_classification(model, X_train, eps=0.5)
mglearn.discrete_scatter(X_test[:,0], X_test[:,1], y_test)
[<matplotlib.lines.Line2D at 0x1749e4176d8>,
 <matplotlib.lines.Line2D at 0x1749e417940>]
In [13]:
In [14]:
array([0, 1])
In [15]:
array([ 1.40619861, -1.07678878, -0.73861582,  0.92850864,  1.20046295,
       -0.59201909, -1.20922607,  1.60485455,  0.92850864,  1.47241726,
        1.61901399,  1.21462238,  1.81059022,  1.40619861, -1.57571791,
        0.71569326,  1.3541394 ,  1.20754267,  1.76561072,  1.91220746,
        1.06094593,  2.71391095,  2.05172447, -0.60617852,  0.23092356,
       -0.59201909,  2.04464475,  0.92142892,  0.76775247,  0.245083  ,
       -0.67239717, -1.34874309,  2.59563309,  1.42035805,  3.43273518,
       -1.83351278, -1.56155847,  1.11300515])
In [16]:
array([1, 0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1])

할 일

모든 속성과 모든 품종 사용

In [17]:
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target)
model = LinearSVC(C=1)
model.fit(X_train, y_train)

model.score(X_test, y_test)
In [18]:
array([[ 0.1842335 ,  0.45122583, -0.80794305, -0.4507152 ],
       [ 0.03877774, -1.02961359,  0.51036833, -1.17378361],
       [-0.89732685, -0.61450123,  1.22419345,  1.72715798]])
In [19]:
array([ 0.10956081,  2.05243171, -1.54725408])
In [20]:
pred_y = model.predict(X_test)
array([1, 2, 0, 1, 2, 2, 2, 0, 1, 0, 0, 1, 0, 2, 1, 1, 1, 2, 0, 2, 2, 2,
       0, 1, 1, 2, 1, 2, 1, 2, 0, 0, 1, 2, 0, 2, 0, 1])
In [21]:
array([1, 2, 0, 1, 1, 1, 2, 0, 1, 0, 0, 1, 0, 2, 1, 1, 2, 2, 0, 2, 2, 2,
       0, 1, 1, 2, 2, 2, 2, 2, 0, 0, 1, 2, 0, 2, 0, 1])
In [22]:
(array([ 4,  5, 16, 26, 28], dtype=int64),)
In [23]:
plt.scatter(X_test[13,0], X_test[13,1], s=200)
plt.scatter(X_test[33,0], X_test[33,1], s=200)
plt.scatter(X_test[:,0], X_test[:,1], c=y_test)
<matplotlib.collections.PathCollection at 0x1749e45ca90>
In [24]:
plt.scatter(X_test[13,2], X_test[13,3], s=200)
plt.scatter(X_test[33,2], X_test[33,3], s=200)
plt.scatter(X_test[:,2], X_test[:,3], c=y_test)
<matplotlib.collections.PathCollection at 0x1749e4b8588>
In [25]:
array([[-1.7882998 , -0.16479923, -0.61366125],
       [-2.80179786, -1.16297279,  1.71094506],
       [ 1.15411895, -0.30118537, -5.84010348],
       [-1.57923865, -0.45817221, -1.15694235],
       [-1.6077584 , -0.79698438, -0.74819606],
       [-1.85371731, -0.29102723, -0.13671526],
       [-3.41551314,  0.16178711,  1.49626671],
       [ 1.66061483, -1.31916564, -6.72380277],
       [-1.75919954, -0.58031604, -0.7111053 ],
       [ 1.00982978, -0.37140467, -5.45523565],
       [ 1.14519753, -0.68028875, -5.63958602],
       [-1.37743162,  0.39482756, -1.43430928],
       [ 1.47189968, -1.01694302, -6.48475184],
       [-2.67416258, -0.43064024,  0.86751539],
       [-1.88334697,  0.23967318, -1.07553036],
       [-1.8554217 , -0.13167465, -1.05447828],
       [-2.74891003,  0.82674614,  0.65485343],
       [-2.75698166,  0.05610417,  0.98190089],
       [ 1.34480782, -0.81877585, -6.18238623],
       [-2.38158095, -0.31755245,  0.66728478],
       [-2.58044357, -0.12992451,  1.11408363],
       [-3.16197495, -0.72436751,  1.21006818],
       [ 1.17969427, -0.58419525, -5.5820591 ],
       [-1.3453359 ,  0.79959875, -1.25105573],
       [-1.73067979, -0.24150386, -1.1198516 ],
       [-2.17417315, -0.25310691,  0.15372894],
       [-2.50812941,  0.81111445,  0.42858634],
       [-2.28166669, -0.09523094,  0.24786572],
       [-2.6174945 ,  0.32487316,  0.01226369],
       [-3.01688707, -0.40654142,  1.67668728],
       [ 1.15411895, -0.30118537, -5.84010348],
       [ 1.08122428, -0.48789534, -5.46590842],
       [-1.79854939,  0.16128553, -0.62844466],
       [-2.27093872, -0.73496525,  0.35142002],
       [ 1.04688073, -1.24500801, -5.18963832],
       [-2.6533893 , -0.09629476,  1.37701302],
       [ 1.79673025, -1.57890887, -7.00415449],
       [-1.51921765, -0.42474886, -0.95263672]])

두 속성과 모든 품종 사용

In [26]:
col1 = 1
col2 = 2

X = iris.data[:,[col1,col2]] # 시각화를 위해 속성 2개만 선정 (petal length & petal width)
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y)
model = LinearSVC(C=10)
model.fit(X_train, y_train)

model.score(X_test, y_test)
In [27]:
mglearn.plots.plot_2d_classification(model, X_train, eps=0.5, cm='ocean')
mglearn.discrete_scatter(X_train[:,0], X_train[:,1], y_train)
[<matplotlib.lines.Line2D at 0x1749e50ce80>,
 <matplotlib.lines.Line2D at 0x1749e50cf98>,
 <matplotlib.lines.Line2D at 0x1749e5164e0>]
In [28]:
mglearn.plots.plot_2d_classification(model, X_train, eps=0.5, cm='ocean')
mglearn.discrete_scatter(X_test[:,0], X_test[:,1], y_test)
[<matplotlib.lines.Line2D at 0x1749e547320>,
 <matplotlib.lines.Line2D at 0x1749e547438>,
 <matplotlib.lines.Line2D at 0x1749e547940>]

C 값 변경

In [29]:
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target)

score1 = []
score2 = []
Cs = [0.001, 0.01, 1, 10, 100, 1000]

for C in Cs:
    model = LinearSVC(C=C)
    model.fit(X_train, y_train)
    s1 = model.score(X_train, y_train)
    s2 = model.score(X_test, y_test)
plt.plot(score1, 'b^:')
plt.plot(score2, 'ro-')
plt.xticks(range(len(Cs)), Cs)
([<matplotlib.axis.XTick at 0x1749e565668>,
  <matplotlib.axis.XTick at 0x1749e560f60>,
  <matplotlib.axis.XTick at 0x1749e560cc0>,
  <matplotlib.axis.XTick at 0x1749e59a208>,
  <matplotlib.axis.XTick at 0x1749e59a0b8>,
  <matplotlib.axis.XTick at 0x1749e59a898>],
 <a list of 6 Text xticklabel objects>)

