제 2장 서울시 범죄 현황 분석¶구성 및 블로깅 진행과정¶2-1 데이터 획득하기 2-2 pandas를 이용하여 데이터 정리하기 2-3 지도 정보를 얻을 수 있는 Google Maps 2-4 Google Maps를 이용해서 주소와 위도, 경도 정보 얻기 ------------------------------------------------------- 2-5 pandas의 pivot_table 학습하기 2-6 pivot_table을 이용해서 데이터 정리하기 2-7 데이터 표현을 위해 다듬기 ------------------------------------------------------- 2-8 좀 더 편리한 시각화 도구 - Seaborn 2-9 범죄 데이터 시각화하기 --------------------..
제 2장 서울시 범죄 현황 분석¶구성 및 블로깅 진행과정¶2-1 데이터 획득하기 2-2 pandas를 이용하여 데이터 정리하기 2-3 지도 정보를 얻을 수 있는 Google Maps 2-4 Google Maps를 이용해서 주소와 위도, 경도 정보 얻기 ------------------------------------------------------- 2-5 pandas의 pivot_table 학습하기 2-6 pivot_table을 이용해서 데이터 정리하기 2-7 데이터 표현을 위해 다듬기 ------------------------------------------------------- 2-8 좀 더 편리한 시각화 도구 - Seaborn 2-9 범죄 데이터 시각화하기 --------------------..
출처 : 파이썬으로 데이터 주무르기 by 민형기 1단원 서울시 구별 CCTV현황 분석¶ CCTV 현황과 인구 현황 데이터 구하기 파이썬에서 텍스트 파일과 엑셀 파일을 읽기 -pandas pandas 기초 익히기 pandas를 이용해서 CCTV와 인구 현황 데이터 파악하기 pandas 고급기능 - 두 DataFrame 병합하기 CCTV 데이터와 인구 현황 데이터를 합치고 분석하기 파이썬의 대표 시각화 도구 - Matplotlib CCTV 현황 그래프로 분석하기 지난시간 정리 1. ~ 3.(https://jfun.tistory.com/210) 4. ~ 5.(https://jfun.tistory.com/211) 오늘은 1단원을 마쳐보도록 하겠다.¶ 1-6 CCTV 데이터와 인구 현황 데이터를 합치고 분석하기¶..
출처 : 파이썬으로 데이터 주무르기 by 민형기 1단원 서울시 구별 CCTV현황 분석¶ CCTV 현황과 인구 현황 데이터 구하기 파이썬에서 텍스트 파일과 엑셀 파일을 읽기 -pandas pandas 기초 익히기 pandas를 이용해서 CCTV와 인구 현황 데이터 파악하기 pandas 고급기능 - 두 DataFrame 병합하기 CCTV 데이터와 인구 현황 데이터를 합치고 분석하기 파이썬의 대표 시각화 도구 - Matplotlib CCTV 현황 그래프로 분석하기 지난번에 1-3 pandas 기초 익히기까지(https://jfun.tistory.com/210) 다루었다. 지난번에 이어 오늘은 1-4 pandas를 이용해서 CCTV와 인구 현황 데이터 파악하기 부터 시작하겠다. 1-4 pandas 이용해서 CC..
파이썬으로 데이터 주무르기라는 책을 보고 데이터 분석과정을 따라해보고자 한다. 이 책은 이 분야로 이끌어준 친한 동생이 추천해준 소중한 책이다. 처음에는 이해가 안되어 몇 개 따라해보다 말았는데, 이제는 이해 할 수 있을 정도가 되어 하나하나 따라해보며 과정을 곱씹어보려 한다. 이 책은 총 8개의 대단원으로 이루어져 있고, 각 대단원마다는 조금씩 관련이 있는것 같다. 지금 진행하는 단원은 다음과 같이 구성되어 있고, 시간날때마다 천천히 정리해보겠다. 1단원 서울시 구별 CCTV현황 분석¶ CCTV 현황과 인구 현황 데이터 구하기 파이썬에서 텍스트 파일과 엑셀 파일을 읽기 -pandas pandas 기초 익히기 pandas를 이용해서 CCTV와 인구 현황 데이터 파악하기 pandas 고급기능 - 두 Dat..
In [1]: import pandas as pd df=pd.read_csv('finally_beer_1.csv') df Out[1]: user beer_name brewery beer_style score date 월 일 년 0 2 Worthington's White Shield Molson Coors UK (Molson Coors) Premium Bitter/ESB 4.4 2000-04-16 4 16 2000 1 2 Rogue Dry Hopped St. Rogue Red Ale Rogue Ales Amber Ale 4.3 2000-04-23 4 23 2000 2 2 Maclay Oat Malt Stout Clockwork (Maclay) Stout 2.4 2000-04-28 4 28 2..
In [1]: import pandas as pd import numpy as np In [2]: df=pd.read_csv('finally_beer.csv',encoding='utf-8-sig', names=['user', 'beer_name', 'brewery','beer_style','score','date']) df.head() Out[2]: user beer_name brewery beer_style score date 0 3355 King Two Fisted Old Ale King Brewing Company Old Ale 1.2 4/26/2006 1 3355 Flying Dog ..
지난번에 했던 캐글 타이타닉 데이터 분석 - 1 https://jfun.tistory.com/136 에 이어 블로깅하려고 한다. 타이타닉 데이터를 다시 불러오자 In [2]: import pandas as pd train = pd.read_csv('titanic/train.csv') test = pd.read_csv('titanic/test.csv') 오늘 하려는 주제는 지난번 데이터를 feature engineering 하는 것인데 이 과정은 상당히 중요하다. 이 부분을 제대로 하지 못하면 어떤 classifier를 사용하더라도 좋은 예측을 할 수 없다. 4. Feature engineering¶ Feature Engineering은 데이터에 대한 도메인 지식을 사용하여 기..