본문 바로가기

Python

(14)
RPA(자동화) 다음은 모든 엑셀파일을 하나의 엑셀파일로 합치는 아주 간단한 예제이다.import pandas as pdimport osfrom datetime import datetime# 취합할 엑셀 파일이 저장된 위치(폴더)directory = '폴더경로'# 1.1 해당 폴더에서 엑셀파일 찾기list_file = os.listdir(directory)print(list_file)# 1.2 파일 확장자가 xlsx인 파일만 찾기 (혹은 xls)all_data = []for f in list_file: if f.endswith('.xlsx'): file_path = os.path.join(directory, f) #print(file_path)# 2. 데이터 프레임으로 각 데이터 불러오기 ..
Selenium 네이버에서 검색하기from selenium import webdriver # 제어가 가능한 Webdriver 크롬 브라우저from selenium.webdriver.common.by import By # select를 위한 선택자(CCS,ID,CLASS,NAME, XPATH 등)from selenium.webdriver.common.keys import Keys # 키보드에 있는 키를 사용하기 위한 모듈driver = webdriver.Chrome()driver.get('https://www.naver.com/')query = driver.find_element(By.ID, 'query') # 검색창 선택time.sleep(2)query.send_keys('찰리푸스') # 검색창에 '찰리푸스' 입력tim..
BeautifulSoup(웹 크롤링) BeautifulSoup은 HTML과 XML 문서를 파싱하기위한 파이썬 패키지다.  res_content = """ Hello CSS 선택자 선택자를 어떻게 작성하느냐에 따라 다른 요소가 반환됩니다. 선택자는 다양한 곳에서 활용됩니다. """위와 같은 html데이터가 있을 때,from bs4 import BeautifulSoupsoup = BeautifulSoup(res_content, 'html.parser')soup.select('div, b') # 태그와 태그soup.select('div b') # 태그 안에 내포된 태그soup.select('div>b') # 태그의 자식태그 태그soup.select_one('div') # 맨 처음 나오는 태그 하나soup.selec..
Matplotlib import matplotlib.pyplot as plt 기본적으로 plt.plot()함수로 그래프를 그리고, plt.show()함수로 그래프를 화면에 나타낸다.plt.plot([2,4,6,8], [4,6,8,10]) # x축 : [2,4,6,8] y축 : [4,6,8,10]plt.plot([2,4,6,8]) # y축 (x축은 y값에 따라 자동으로..여기선 4개)plt.show() # 그래프 출력 axis()함수와 xlim(), ylim() 함수를 통해 축의 범위를 지정한다.plt.axis([0,20,0,20]) # [x축의 시작, x축의 끝, y축의 시작, y축의 끝]plt.xlim(2,10) # x축 2부터 10까지plt.ylim(3,8) # y축 3부터 8까지 xticks(), yticks()함수..
Pandas(병합) 병합pd.merge()메소드는 특정 행 또는 열을 기준으로 두개의 데이터프레임을 병합하는 함수이다.pd.merge(df1, df2, on='기준 열' how = 'inner' or 'outer' or 'left' or 'right') inner join : 두 개 데이터프레임의 key가 모두 존재하는 경우에만 병합하는 방식 ( 공통된 key로만 병합)outer join : 한쪽의 데이터프레임에만 key가 존재해도 두 데이터프레임을 병합하는 방식 ( 공통된 key가 없으면 null로 채워넣고 병합)left join : 왼쪽 데이터프레임의 key를 기준으로 병합하는 방식right join : 오른쪽 데이터프레임의 key를 기준으로 병합하는 방식 pd.concat()메소드는 기준 열 없이 병합한다.pd.con..
Pandas (데이터프레임 다루기) 데이터프레임 속성 정보 확인하기데이터프레임.shape 은 데이터프레임의 크기를 확인한다. -> (행_row, 열_column) 형식으로 출력.데이터프레임.info() 데이터테이블의 정보 확인데이터프레임.describe() 데이터의 요약값 확인 -> count(갯수), mean(평균), std(표준편차), min(최소값), max(최대값) 등.. 인덱싱과 슬라이싱데이터프레임.칼럼명 -> 시리즈로 반환데이터프레임.칼럼명.toList() -> 리스트로 반환 데이터프레임.['칼럼명'] -> 시리즈로 반환데이터프레임.['칼럼명'].toList() -> 리스트로 반환 ex. df.col1.toList() / df.['col2'].toList() 여러개의 칼럼을 동시에 가져오려면데이터프레임[['칼럼1', '칼럼2',..
Pandas(시리즈와 데이터프레임) 시리즈(Series)시리즈(Series)는 Pandas에서 제공하는 자료형으로, Numpy의 1차원 배열과 유사하다.데이터 값에 인덱스(index)를 부여하여 각 데이터에 접근할 수 있고, 인덱싱과 슬라이싱을 통해 데이터를 추출할 수 있다.list -> Seriesli = [1,2,3,4,5]sr = pd.Series(li)sr Dictionary -> Seriesdic = {'일': 1, '이': 2, '삼': 3, '사': 4}sdic = pd.Series(dic)sdic 데이터 프레임(DataFrame)시리즈를 이용하여 데이터프레임(DataFrame)을 생성할 수 있다. 데이터프레임은 행(Row)과 열(Column)로 구성된 2차원 테이블 형태의 데이터 구조이다.시리즈를 열로 갖는 데이터프레임을 생..
Numpy Numpy(넘파이)는 수치 해석을 위해 사용되는 파이썬 패키지이다.  List 와 Array의 차이파이썬의 List는 객체를 담는데 유용하다. list안에 요소는 어떤것이든 상관없으며, 같은 타입의 요소가 아니어도 하나의 List에 담을 수 있다.반면 Numpy의 array는 문자든 숫자든 하나의 타입의 요소만을 갖을 수 있다. 또한, Array는 대량의 수치 데이터 처리나 수학 연산에 있어서 List보다 성능이 우수하고, 벡터화 연산과 다양한 수학 함수, 선형 대수 연산 등의 다양한 기능을 제공한다.이러한 차이점으로 인해 Numpy의 array는 수치 연산이 필요한 경우나 대량의 데이터 처리에 유용하며, List는 다양한 타입의 데이터를 유연하게 다루고자 할 때 사용된다.  ndarray(n차원 배열)..