반응형 파이썬12 [파이썬] 데이터프레임에서 해당 열의 값을 그룹별로 행의 갯수를 세는 방법 아래 데이터프레임의 '소속구' 열을 보시면, 도봉구, 노원구, 동대문구 등 서울시의 각 구 이름의 data로 이루어져 있습니다. 저는 '소속구' 열에서 각 data별로 갯수가 각각 몇개인지 알고 싶은데요. (도봉구 : 00개, 노원구 : 00개, 동대문구 : 00개 이런 식으로!) 즉, '소속구' 열은 범주형 데이터로 이루어져 있고, 저는 각 범주의 값이 몇개인지 알고싶은 것입니다! 코드는 다음과 같습니다. result_line_seoul.groupby('소속구').size() 여기까지 해당 열을 그룹별로 행의 갯수를 세는 방법이었습니다^^ 2020. 1. 6. [파이썬] csv 데이터프레임에서 문자열 분리 & 특정 위치 문자열 추출하는 방법 위 데이터프레임에서 지번주소는 모두 "서울특별시 ㅇㅇ구 ㅇㅇ동 ~~~" 형태의 문장 구조를 가지고 있습니다. 저는 여기에서 구 data만 필요하므로 ㅇㅇ구 문자열만 따로 추출하도록 하겠습니다. 문장이 띄어쓰기로 구분되어 있으므로, " "를 이용하여 나누도록 하겠습니다. 코드는 다음과 같습니다. result_line_seoul['소속구'] = result_line_seoul['지번주소'].str.split(" ").str[1] '지번주소' 열의 문자열을 " "를 기준으로 split를 통해 나누고, 'ㅇㅇ구'가 위치해 있는 문자열을 '소속구' 열에 담는다는 뜻의 코드입니다. 결과는 다음과 같습니다. 2020. 1. 5. [파이썬] csv 데이터프레임에서 특정 문자열을 포함하는 행만 추출하는 법(결측치 있을 때 포함) In [1]: import pandas as pd from IPython.core.display import display, HTML display(HTML("")) In [2]: result_line = pd.read_csv(r"C:\Users\lleon\practice\metro\result_line.csv", encoding='utf-8') result_line.head() #'지번주소' 열의 data 중에서 '서울특별시' 문자열을 포함하는 행만 sort하려 합니다. Out[2]: 철도운영기관명 선명 역명 지번주소 도로명주소 0 코레일 1호선 소요산 경기도 동두천시 상봉암동 126-3 경기도 동두천시 평화로 2925 1 코레일 1호선 동두천 경기도 동두천시 동두천동 245-210 경기도 동두천시 평.. 2020. 1. 5. [파이썬] 여러개의 csv파일을 한번에 import하고, 합친 파일을 export 하는 법(예제파일 첨부) In [1]: import pandas as pd import glob import os from IPython.core.display import display, HTML display(HTML("")) In [2]: input_file = r'C:\Users\lleon\practice\metro' # csv파일들이 있는 위치 output_file = r'C:\Users\lleon\practice\metro\result_line.csv' # 병합하고 저장하려는 파일명 In [3]: allFile_list = glob.glob(os.path.join(input_file, 'line_*')) # glob함수로 line_으로 시작하는 파일들을 모은다 print(allFile_list) ['C:\\Users\.. 2020. 1. 5. [파이썬] Graphviz PATH 오류 graphviz 모듈을 이용하여 dot 파일을 png 파일로 변환하려 하는데, make sure the Graphviz executables are on your systems' PATH 라는 오류가 발생하여 이를 해결하는데 한참 걸렸습니다. 방법은 다음과 같습니다. 1. https://graphviz.gitlab.io/_pages/Download/Download_windows.html 접속하여 msi 파일 다운로드 2. 시스템 환경변수 path에 - 파일위치\graphviz2.xx\bin - 파일위치\graphviz2.xx\bin\dot.exe 추가하기 3. 파이썬에서 import osos.environ["PATH"] += os.pathsep + '파일위치\Graphviz2.38/bin/' 실행까지 하.. 2018. 12. 16. [파이썬] UnicodeDecodeError: 'cp949' codec can't decode byte 0xeb in position 436: illegal multibyte sequence 오류 파이썬에서 open 문법 사용 시 UnicodeDecodeError: 'cp949' codec can't decode byte 0xeb in position 436: illegal multibyte sequence 오류가 났을 때 해결 방법입니다. 이는 파일 형식이 UTF-8형식이기 때문인데요, 직접 지정을 해줘야 파일을 읽을 수 있습니다. open("파일위치\파일명", 'r', encoding='utf-8') 이렇게 입력하면 간단히 해결됩니다. 여기서 encoding= 을 안 붙히면 TypeError: an integer is required (got type str) 가 발생하는데요, 이는 3번째 값을 인자로 받으려 하기 때문인데요, 위와 같이 명시적으로 encoding= 를 명시해 주면 해결됩니다. 2018. 12. 15. 이전 1 2 다음 반응형