데이터 사이언스 공부/파이썬으로데이터주무르기 (5) 썸네일형 리스트형 time series # 선요약 1. polyfit, poly1d로 데이터를 대표하는 함수를 만들 수 있다. 2. prophet, predict로 간단하게 시계열 데이터를 예측할 수 있다. 시계열 데이터 분석하기 import warnings warnings.filterwarnings("ignore") import pandas as pd import pandas_datareader.data as web import numpy as np import matplotlib.pyplot as plt from fbprophet import Prophet from datetime import datetime from matplotlib import font_manager, rc #한글읽기 plt.rcParams['axes.unicode_.. self gas station analysis # 선요약 1. selenium으로 구글 드라이브에서 웹크롤링을 할 수 있다. 2. driver의 find_element_by_xpath로 element에 접근할 수 있다. 3. concat으로 두 dataframe를 병합할 수 있다. reset_index로 인덱스를 재설정할 수 있다. selenium 이용해서 웹크롤링 예제 from selenium import webdriver import time driver = webdriver.Chrome('driver/chromedriver') driver.get('https://www.naver.com/') time.sleep(1) #click login page btn xpath = """//*[@id="account"]/div/a/i""" driver.fi.. chicago analysis # 선요약 1. beautiful soup를 사용하여 웹크롤링을 할 수 있다. url를 읽어서 html 정보를 받으면 find, find_all로 element에 접근 가능하다. 2. tqdm으로 진행 상태를 확인할 수 있다. beautiful soup 사용하여 웹크롤링하는 예제 from bs4 import BeautifulSoup page = open('./data/test_html.html', 'r').read() soup = BeautifulSoup(page, 'html.parser') (soup.prettify()) #들여쓰기로 보기좋게 출력 (list(soup.children)) #soup는 문서전체 html = (list(soup.children)[2]) #html 태그 안 (list(html.. crime analysis # 선요약 1. googlemaps로 구글맵API를 이용할 수 있다. 2. pivot_table를 사용해서 중복된 인덱스나 칼럼을 병합해서 재구조화 할 수 있다. 3. 데이터의 scale를 통일하기 위해서는 정규화(normalization)가 필요한데, preprocessing의 MinMaxScaler와 fit_transform를 사용하여 정규화를 할 수 있다. 4. seaborn은 heatmap 등의 더 많은 시각화 기능을 제공한다. 5. folium은 위도와 경도 등의 정보를 받아서 지도 시각화 기능을 제공한다. 구글 api 이용해서 정보 모으고 df 만들기 import numpy as np import pandas as pd import googlemaps #csv파일 읽기 crime_anal_po.. cctv analysis # 선요약 1. pandas의 read_excel, to_csv 를 사용해서 엑셀파일을 csv 파일로 변환하여 저장할 수 있다. 2. read_csv로 csv파일을 읽어서 dataframe으로 저장할 수 있다. 3. pandas는 merge, unique, columns 등의 method를 지원한다. 4. matplotlib를 이용해서 시각화 할 수 있다. matplotlib를 이용하여 그래프 그리는 코드 import matplotlib.pyplot as plt import numpy as np t = np.arange(0,12,0.01) y=np.sin(t) plt.figure(figsize=(10,6)) plt.plot(t,y) plt.grid() plt.xlabel('time') plt.ylabel.. 이전 1 다음