'Python' 태그의 글 목록 (2 Page)

[데이터 사이언스] (전처리) pd.melt 여러 컬럼을 하나의 컬럼으로 합치고 컬럼 이름 붙여 grouping 하기 (미니탭 컬럼 합치기, 쌓기)

엑셀에서 여러 컬럼 ctrl+c한 후, 파이썬 에디터에 ctrl+v 한다. 그리고 아래 코드 실행한다. data="""N1N2N3N4N5P1P2P3P4P5 8.3867111.309118.98067.733337.5186318.859410.63538.222819.2659811.3973 16.35748.9960710.68128.664986.0338969.285925.395339.171239.888749.14592 7.956486.3337519.70759.204823.4349213.16925.681428.0435710.43429.85577 12.25325.2657311.850910.28565.7073911.20787.4862 5.467718.353911.48513.093510.9813 10.33814.94696..

Data Science/Python 2023. 12. 19. 18:16

음이항 분포 from scipy.stats import nbinom

from scipy.stats import nbinom # x번째에서 k번째로 성공할 확률 # 농구 선수가 3점골 성공률이 30%임. # 5번 던졌을 때 3점골이 3번째로 들어갈 확률 → 2번 실패, 3번 성공 → n=5,k=3,p=0.3 n=5;k=3;p=0.3 print(nbinom.pmf(n-k,k,p)) # 2번 실패했고 3번의 성공이 나올 확률 # 안타 확률 0.25 # 7번째 타석에서 3번째로 안타를 칠 확률 → p=0.25, n=7, k=3 p=0.25 n=7 k=3 print(nbinom.pmf(n-k,k,p)) # 2번 실패했고 3번의 성공이 나올 확률 # 찍어 맞출 확률이 30% # 4번째 문제에서 2번째로 정답을 맞출 확률 p=0.3 n=4 k=2 print(nbinom.pmf(n-k..

Data Science 2023. 12. 12. 19:10

[파이썬] MP3 Tag 유지하면서 Bitrate 128Kbps로 줄이는 코드

사용 패키지: pydub: 0.25.1 ffmpeg가 설치되어 있어야 함 eyed3: 0.9.7 mutagen: 1.47.0 ※ eyed3 대신 mutagen만 써도 되는데, 시작을 eyed3로 해서 같이 사용함 프로그램: 상위 폴더 지정해 주면 하위 폴더에 있는 mp3 중에 150 Kbps 이상인 경우만 128 Kbps로 전환 전환 후 _128k를 파일명에 추가 원본 파일에 있는 meta tag(Front Cover 포함)를 전부 복사 전환이 성공하면 원본 파일 삭제 버그: eyed3에서 warning 발생하는 문제 있는데, tag 복사는 잘 되는 거 같아서 무시함 캡처 사진 참고 eyed3에서 Error 발생하는 경우, mutagen으로 재시도 eyed3는 IDV2.4를 처리 못하는 거 같음 bitr..

ETC 2023. 12. 12. 01:14

영향 인자 크기순 출력 코드 속도 비교

영향 인자가 몇 개 수준이라고 하면 result=pd.Series(dtype=??) 정의한 후, result.loc[X]=Y # 속도를 느리게 하는 코드 ... resut.idx(), result.nlargest(n)이 가장 편하다. 그런데 추출해야 하는 인자가 몇 만개가 넘는다고 하면 위의 방법은 속도가 매우 느리다. list로 X,Y를 따로 저장한 후에 result=pd.Series(index=X,data=Y) 이렇게 코딩하는 게 그나마 빠르게 처리하는 방법이다. 처리해야 하는 데이터 수가 많다면, numpy 함수만을 사용하는 게 가장 빠른데, 아래 python 코드에서 여러 경우를 비교해 볼 수 있다. import pandas as pd import numpy as np import time DAT..

Data Science 2023. 12. 9. 22:50

[데이터 사이언스] (전처리) 특정 값이 있는 컬럼의 이름을 저장하는 코드

np.where에서 eq쓰는 방법이 idxmax 방법 보다 조금 빠른데, idxmax가 직관적이다. 그런데 idxmax는 숫자만 가능하기 때문에 문자를 찾아야 한다면 eq방법을 써야하겠다. import numpy as np import pandas as pd from time import time np.random.seed(1234) df=pd.DataFrame(columns=['a','b','c']) for i in range(0,1000): df.loc[i]=[0,0,0] random_col = np.random.choice([0, 1, 2]) df.iloc[i,random_col]=1 df=df.astype({'a':'int32','b':'int32','c':'int32'}) cols=df.colu..

Data Science/Python 2023. 12. 5. 23:04

빅데이터 분석기사 실기 파이썬, 2 유형 3 유형 핵심 코드

참고1 (1) 빅데이터분석기사 실기편 5강 - [3유형 이론 가설검정, 상관분석, 회귀분석, 문제풀이] - YouTube 참고2 2024 수제비 빅데이터분석기사 실기 [R + 파이썬] 주피터 노트북 파일은 첨부함 로지스틱 회귀 Residual Deviance 편차 구하는 거 빼고는 다 맞춤. https://metania.tistory.com/100 다항 로지스틱 회귀(LogisticRegression, MNLogit, GLM) 3가지 모델별로 정확도를 구해봤다. 옵션 설정을 해줘야 값이 일치 한다. sklearn LogisticRegression(panelty='none'), statsmodels GLM, statsmodel MNLogit(method='ncg'등)으로 옵션을 줘야 결과가 일치함 Logi..

Data Science 2023. 12. 4. 15:38

[데이터 사이언스] 판다스 데이터프레임 색인 문법 비교

In [1]: import pandas as pd In [2]: df=pd.DataFrame(index=['a', 'b',0,1],columns=['a', 'b',0,1],data=[[1,2,3,4],[1,2,3,4],[1,2,3,4],[1,2,3,4]]) df Out[2]: a b 0 1 a 1 2 3 4 b 1 2 3 4 0 1 2 3 4 1 1 2 3 4 In [3]: %%javascript IPython.OutputArea.auto_scroll_threshold = 9999; In [4]: inputs="""'a' 'a':'b' 'a':0 0 0:1 [0,1]""".split('\n') index_commands=['[','.loc[','.loc[:,','.iloc[','.iloc[:,'] In ..

Data Science/Python 2023. 10. 12. 00:08

[데이터 사이언스] Numpy 속도가 빠른 이유와 속도 비교 예제

Numpy가 빠른 이유¶ for 루프를 사용한 리스트와 NumPy 배열에서 벡터화된 연산 간의 성능 차이는 몇 가지 주요 이유로 인해 발생합니다:¶ 1. Overhead: for 루프를 사용하면 반복문을 통해 각 요소에 접근하고 연산을 수행해야 합니다. 이는 반복문의 오버헤드와 Python 인터프리터의 각 반복에서 추가적인 작업이 필요하므로 느린 성능을 초래합니다.¶ 2. 메모리 관리: NumPy는 내부적으로 데이터를 연속된 메모리 블록에 저장하므로 데이터에 대한 메모리 액세스가 효율적입니다. 그에 반해 Python 리스트는 객체로 구성되어 있어 각 요소가 독립적인 객체로 메모리에 저장되므로 더 많은 메모리 관리 오버헤드가 발생합니다.¶ 3. 컴파일된 코드: NumPy는 C 언어로 작성된 내부 루프와 벡..

Data Science/Python 2023. 10. 11. 22:02

[파이썬] 글자 data를 그림 data(PNG)로 저장하는 코드

TEXT 데이터를 PNG 그림 데이터로 전환하는 코드 PIL Image getpixel() 함수 사용했는데 속도가 늦어서 numpy dtype.uint8 변수 사용하는 코드로 수정 했음 datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count 2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0,3,13,16 2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0,8,32,40 2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0,5,27,32 2011-01-01 03:00:00,1,0,0,1,9.84,14.39..

Data Science 2023. 9. 27. 22:40

[데이터 사이언스] DataFrame 비교 함수 차이(isin, str.contains, str.match)

isin : 일치 해야함 str.contains, str.match : 정규식 없이 사용하면 부분만 일치하면 됨 str.contains, str.match : 정규식 사용하면 contains는 부분만 일치하면 되고, match는 전체가 일치해야함 값이 [20,200] 이고, 두자리 숫자를 찾는 경우라면 match에 정규식을 사용해야 함. contains로 처리하며 20, [20,0]이 찾아져서 둘 다 True가 됨. import pandas as pd df={'a':['1','10','20 HZz','30hz','300 ','300 hz',]} df=pd.DataFrame(df) print('contains과 match 차이') print('contains는 정규식이 포함되는 경우, match 정규식과 ..

Data Science/Python 2023. 9. 25. 18:27

플러터닷(Flutter.Dart)

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

Python

추가 정보

인기글

최신글

페이징

티스토리툴바