In [1]: import pandas as pd df=pd.read_csv('finally_beer_1.csv') df Out[1]: user beer_name brewery beer_style score date 월 일 년 0 2 Worthington's White Shield Molson Coors UK (Molson Coors) Premium Bitter/ESB 4.4 2000-04-16 4 16 2000 1 2 Rogue Dry Hopped St. Rogue Red Ale Rogue Ales Amber Ale 4.3 2000-04-23 4 23 2000 2 2 Maclay Oat Malt Stout Clockwork (Maclay) Stout 2.4 2000-04-28 4 28 2..
In [1]: import pandas as pd import numpy as np In [2]: df=pd.read_csv('finally_beer.csv',encoding='utf-8-sig', names=['user', 'beer_name', 'brewery','beer_style','score','date']) df.head() Out[2]: user beer_name brewery beer_style score date 0 3355 King Two Fisted Old Ale King Brewing Company Old Ale 1.2 4/26/2006 1 3355 Flying Dog ..
지난번에 했던 캐글 타이타닉 데이터 분석 - 1 https://jfun.tistory.com/136 에 이어 블로깅하려고 한다. 타이타닉 데이터를 다시 불러오자 In [2]: import pandas as pd train = pd.read_csv('titanic/train.csv') test = pd.read_csv('titanic/test.csv') 오늘 하려는 주제는 지난번 데이터를 feature engineering 하는 것인데 이 과정은 상당히 중요하다. 이 부분을 제대로 하지 못하면 어떤 classifier를 사용하더라도 좋은 예측을 할 수 없다. 4. Feature engineering¶ Feature Engineering은 데이터에 대한 도메인 지식을 사용하여 기..
타이타닉 데이터에 대해서 분석을 해보고자 한다. 이 데이터는 데이터 사이언스나 머신러닝을 공부한 사람들은 많이 들어봤을만한 데이터분석 경연 사이트인 캐글(Kaggle)에서 입문자용으로 가장 많이 사용하는 예제이다. 가장 많이 사용되는 데이터이므로 다양한 사람들이 다양한 방법으로 다양한 관점에서 데이터를 분석 하고 있기 때문에 이 데이터를 가지고 공부를 해보면 데이터 분석의 전반적인 과정을 습득하는데 도움이 되겠다 싶어 다뤄본다. 데이터는 kaggle사이트에 들어가면 얻을 수 있다. https://www.kaggle.com/ 캐글 타이타닉 데이터 분석 - 1부터 3까지 3단계에 걸쳐 다룰것이다. 먼저 캐글 타이타닉 데이터 분석 - 1에서는 데이터를 불러오고 탐색적 자료 분석(EDA)을 적용해 시각화까지 해..
Introduction to Machine Learning with Python¶Chapter 3. 비지도 학습과 데이터 전처리¶ 주성분 분석 (PCA)¶ 개념¶ PCA : Principal Component Analysis 기존의 데이터는 속성 하나하나가 좌표축으로 이루어진 다차원 공간에 위치하고 있습니다. 속성들은 둘 간에 서로 연관되어 있는데 이를 수치화한 것을 상관계수(Correlation Coefficient) 라고 합니다. 이를 확장하여 모든 속성들을 고려했을 때, 가장 전체 데이터를 잘 표현할 수 있는 방향(벡터)를 찾을 수 있을 것입니다. 이렇게 모든 속성에서 가장 중요한 방향(주성분)을 찾아 나가는 것을 PCA 라고 합니다. 다르게 표현하면 전체 데이터에서 가장 분산이 큰 방향 을 찾는 ..
Introduction to Machine Learning with Python¶Chapter 3. 비지도 학습과 데이터 전처리¶ DBSCAN 군집화¶ DBSCAN 은 반지름과 샘플갯수가 주어지면 그 반지름 안에 해당 샘플갯수만큼 있는 이웃을 확장해 나가는 군집 알고리즘이다. 아래 그림은 샘플갯수가 4개, 반지름이 $\epsilon$ 인 경우이다. 빨간 점은 핵심샘플, 노란 점은 경계샘플, N은 잡음샘플 이다. (출처: https://en.wikipedia.org/wiki/DBSCAN) In [1]: import numpy as np import numpy as pd import matplotlib.pyplot as plt In [2]: from sklearn.datasets import make_blo..
스택 & 큐¶ 스택(stack)¶ 나중에 넣은 데이터를 먼저 반환하도록 설계된 메모리 구조로 Last In First Out (LIFO)로 구현됨 Data의 입력을 Push, 출력을 Pop라 한다. exmaple1 In [1]: a = [1,2,3,4,5] 리스트 a에 10을 넣자 In [2]: a.append(10) 리스트 a에 20을 넣자 In [3]: a.append(20) 리스트 a에서 마지막에 넣은 값을 출력하자 In [5]: a.pop() Out[5]: 20 리스트 a에서 마지막에 넣은 값을 출력하자 In [6]: a.pop() Out[6]: 10 example2 In [8]: word = input('Input a word: ') world_list = list(word) fo..
Introduction to Machine Learning with Python¶Chapter 3. 비지도 학습과 데이터 전처리¶ 군집 (Clustering)¶ 군집은 비지도 학습의 대표적인 방법이다. 많은 데이터가 주어졌을 때, 이들을 특징적인 몇몇 그룹으로 구분해 주는 기술이다. 사실 군집은 지도학습 보다 먼저 수행되는 것이라고 할 수 있다. 역사적으로 초기 공룡 연구자 들이라면 여러 공룡 화석을 수집한 다음 이를 적절히 군집 기술을 이용해 구분함으로서 공룡의 이름을 부여할 수 있었을 것이다. 이렇게 이름(타겟값)을 지정한 다음에 새로운 화석이 나타나면 회귀나 분류를 이용하여 이 화석을 구분할 수 있었을 것이다. 특징적인 그룹으로 구분해 주는 여러가지 군집 모델들 (출처: wikipedia) k-me..