Python에서 xlsx을 돌리면 시간이 굉장히 오래 걸리고, 제약사항 또한 많기 때문에 csv를 사용한다.
하지만 대부분의 엑셀office에서는 xlsx 에서 csv 변환이 헷갈리고 잘 안되기 때문에 그냥 python에서 아래와 같은 방법을 사용해서 파일 변환을 할 수 있다.
Python 코드
################################
### xlsx -> csv 파일변환
em_df = pd.ExcelFile('employment_results.xlsx').parse(sheet_name=0, dtype=object, engine='xlrd', verbose=True)
# csv는 구분자로 ","를 쓰기 때문에, 혹시 데이터 중에 ","가 있다면 이게 구분자로 쓰일 수 있으므로
# 공백으로 치환 후 csv로 변환한다.
# 공백 치환은 안전하게 string이 있는 열에만 사용한다. em_df['입사기관명/진학학교명'] = em_df['입사기관명/진학학교명'].str.replace(',',' ')
#csv로 파일 변환 em_df.to_csv(path_or_buf='employment_results.csv', sep=',', header=True, index=False, mode='w', encoding='CP949')
#em_df에 해당 csv파일 삽입 em_df = pd.read_csv('employment_results.csv', engine='c', dtype=str, sep=',', encoding='CP949')
이제 파일 변환이 제대로 되었는지 describe()와 head()를 통해 확인해보자.
Python 코드
em_df.describe() em_df.head()
아주 잘 들어갔다.
Good!
'직장생활 > Programming (C, Python)' 카테고리의 다른 글
[데이터마이닝] Titanic: Machine Learning from Disaster _ python (0) | 2021.07.29 |
---|---|
[데이터마이닝] Linear Regression_Python (0) | 2021.07.29 |
[Python] 조건에 따른 dataframe 원소값 생성/변경/삭제 with loc(), str.contains() + np.where() (0) | 2021.07.29 |
[Python] import / pip install opencv, cv2 설치 오류 및 해결 (0) | 2021.07.29 |
[Colab] 구글 코랩(Google Colaboratory): Jupyter notebook보다 편한 python 개발 환경 (0) | 2021.07.29 |