'Data Science/Python' 카테고리의 글 목록 (2 Page)

[파이썬] np.maximum, np.max 차이, np.max(axis)

np.maximum배열 두개 중에 차례대로 큰 값을 returnimport numpy as npa = np.array([1, 2, 3])b = np.array([3, 1, 2])result = np.maximum(a, b)print(result) # Output: [3, 2, 3]np.max배열 안에서 축에 맞춰 큰 값을 returnimport numpy as npa = np.array([[1, 2, 3], [4, 5, 6]])max_value = np.max(a)print(max_value) # Output: 6max_value_axis0 = np.max(a, axis=0)print(max_value_axis0) # Output: [4, 5, 6]max_value_axis1 = np.max(a, ..

Data Science/Python 2024. 6. 27. 22:10

[파이썬] 실루엣 지수 점수(silhouette_score) DataFrame으로 단계별 계산

군집 후에 결과의 타당성을 확인하기 위해서는 적절한 평가 지수를 활용해야 하는데,자기만의 지수를 개발한다고 하면 실루엣 지수 정도는 직접 코딩으로 구현이 가능해야 하겠다. a(i) 계산할 때 자신을 뺀 점들로 평균을 구하기 때문에 클러스터 구성 점 갯수에서 1개 적게 평균을 구해야 한다.클러스터에 1개의 점만 있는 경우는 a(i)=s(i)=0 이다. 수학적 정의 참고¶https://zephyrus1111.tistory.com/193¶설명 제일 쉬움¶https://studying-haeung.tistory.com/10&..

Data Science/Python 2024. 6. 26. 15:01

[파이썬] df.apply(, axis=1)과 df.groupby.apply( axis=1) 차이

df.apply(lambda x : func(x), axis=1) : 에러 없음df.groupby('').apply(lambda x : func(x), axis=1) : 에러 발생!In [83]: import numpy as npimport pandas as pddf = pd.DataFrame({"이름": ["일삼성", "일삼성", "이엘지","삼하닉"], "수학점수": [83, 85, 90, 70], "영어점수": [75, 92, 75, 50], "국어점수": [95, 70, 75, 65]})# df=df.set_index('이름')df Out[83]: ..

Data Science/Python 2024. 6. 26. 12:24

[파이썬] df.apply vs df.transform 차이와 결측치 수정

.apply와 .transform은 모두 판다스에서 그룹 연산을 수행할 때 유용하게 사용되지만, 용도와 동작 방식에서 몇 가지 중요한 차이점이 있습니다..apply.apply는 그룹별로 함수(기본적으로 사용자 정의 함수를 포함)를 적용하고, 각 그룹에 대해 별도의 결과를 생성합니다. 결과는 일반적으로 입력과 같은 형태로 유지되지 않으며, 새로운 형태의 시리즈나 데이터프레임이 될 수 있습니다.형태: 그룹별로 변환된 결과가 합쳐져서 반환됩니다.유연성: 사용자 정의 함수나 복잡한 연산을 적용할 때 유용합니다.속도: .transform에 비해 느릴 수 있습니다..transform.transform은 그룹별로 함수(주로 집계 함수)를 적용하고, 입력과 같은 형태의 시리즈를 반환합니다. 즉, 원래의 인덱스와 동일한..

Data Science/Python 2024. 6. 19. 00:38

[파이썬] 한 칸(한 셀)에 여러 항목이 있을 때 분리해서 빈도수 계산하기(w/ pd.crosstab & groupby)

EXAMPLE1개인별 영화 관람 취향을 파악한다고 했을 때셀에 문자열로 봤던 영화들의 장르 데이터가 있다고 가정.영화를 보지 않은 경우도 있음. EXAMPLE2고객이 물건을 샀을 때 두개를 조합으로 사는 경우 분석 참고pd.cross는 stack() -> groupby() -> unstack(),pivot_table은 groupby() -> unstack 한다. EXAMPLE 1¶In [1]: import numpy as npimport pandas as pdgenres = np.array(['Adventure', 'Animation', 'Children', 'Comedy', 'Fantasy', 'Romance', 'Drama', 'Action',..

Data Science/Python 2024. 6. 18. 18:00

[파이썬] numpy 문자열 슬라이싱

text를 list로 numpy array를 해야만 슬라이싱이 가능함 [...] : text 배열을 array 시키고, array 내에서는 numpy.str_ type이 됨list : text를 한글자씩 분리해서 array를 시키기 때문에 array가 글자수만큼 생성됨 와 list(...)은 같은 list인거 같아도... 슬라이싱 방법이 조금 다름import numpy as npcommands=[ "np.array('tEXt', dtype='S')", # 슬라이싱이 안 됨! "np.array(['tEXt'], dtype='S')", "np.array(list('tEXt'), dtype='S')"]for command in commands: print('-'*40) print('..

Data Science/Python 2024. 5. 31. 11:05

[파이썬] 거버 DRL 파일을 거버 GBR로 변경

.drl (drILl rack 파일)은 viewmate에서 보이지가 않음.그래서 .drl을 .gbr로 변경하는 python 코드 작성 ※ 파이썬에서 패턴이 있는 자료의 parsing을 할 때 for문을 가장 적게 사용하는게 가장 빠르다고 생각을 하는데, 막상 해보면 re 패키지를 쓰는 게 가장 빠름. 파이썬의 list가 무거워서 그런 건지...알 수가 없네.ㅎ drl_to_gbr_parsing_while9.32 ms ± 51 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)drl_to_gbr_parsing_re → 가장 빠름!3.99 ms ± 24.2 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)..

Data Science/Python 2024. 5. 31. 09:05

[파이썬] 데이터프레임 특정 시간 이후 값 가져오기 & astype('Int64')

for, if를 사용해도 되지만, 시간이 오래 걸려서map 메서드를 사용하는 게 좋음.인덱스 column에 map 메서드를 사용하면 인덱스에 있는 값을 가져올 수 있음. astype('int64')는 결측치가 없을 때만 사용 가능하고결측치가 있으면 astype('Int64') 대문자 I로 시작하는 Int64로 type을 정해야 함!

Data Science/Python 2024. 5. 6. 18:08

[파이썬] 데이터프레임 datetime64[ns] 형식의 index와 series에서 날짜 추출 차이

형식이 datetime64[ns]라고 해도index는 .dt 없이 time 메소드를 쓸 수 있고series는 .dt후에 time 메소드를 써야 한다. import pandas as pd date_range = pd.date_range('2024-01-01 00:00:00', periods=5) data = [10, 20, 30, 40, 50] df = pd.DataFrame(data, index=date_range, columns=['values']) # 인덱스에서 날짜 추출 print(df.index.date) # print(df.index.dt.date) # 에러 # 시리즈에서 날짜 추출 # print(df.index.to_series().date) # 에러 print(df.index.to_serie..

Data Science/Python 2024. 5. 6. 11:59

[파이썬] 판다스(pandas) to_list()와 tolist() 차이

to_list()는 pandas의 메서드이고, tolist()는 numpy의 메서드임.pandas에서는 to_xxx() 이런 식의 메서드를 쓰기 때문에 tolist()의 별칭으로 판다스 0.24.0에서 추가되었음. to_list()는 시리즈에서만 쓸 수 있고,tolist()는 시리즈와 numpy에서 쓸 수 있음.데이터프레임에서는 둘 다 쓰지 못 함! 리스트로 변경하기 위해서는 numpy array를 만든 후에 tolist()를 해야 함

Data Science/Python 2024. 5. 5. 12:02

플러터닷(Flutter.Dart)

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

Data Science/Python

추가 정보

인기글

최신글

페이징

티스토리툴바