[데이터 사이언스] Numpy 속도가 빠른 이유와 속도 비교 예제

Data Science/Python

by FDG 2023. 10. 11. 22:02

Numpy가 빠른 이유¶

`for` 루프를 사용한 리스트와 NumPy 배열에서 벡터화된 연산 간의 성능 차이는 몇 가지 주요 이유로 인해 발생합니다:¶

1. Overhead: `for` 루프를 사용하면 반복문을 통해 각 요소에 접근하고 연산을 수행해야 합니다. 이는 반복문의 오버헤드와 Python 인터프리터의 각 반복에서 추가적인 작업이 필요하므로 느린 성능을 초래합니다.¶

2. 메모리 관리: NumPy는 내부적으로 데이터를 연속된 메모리 블록에 저장하므로 데이터에 대한 메모리 액세스가 효율적입니다. 그에 반해 Python 리스트는 객체로 구성되어 있어 각 요소가 독립적인 객체로 메모리에 저장되므로 더 많은 메모리 관리 오버헤드가 발생합니다.¶

3. 컴파일된 코드: NumPy는 C 언어로 작성된 내부 루프와 벡터화된 함수를 사용하여 연산을 수행하므로 Python 반복문보다 훨씬 효율적입니다.¶

4. SIMD 명령어 활용: NumPy는 SIMD(단일 명령, 다중 데이터) 명령어를 활용하여 동시에 여러 요소를 처리할 수 있습니다. 이는 벡터화된 연산을 통해 데이터 처리를 가속화하는 데 도움이 됩니다.¶

5. 최적화: NumPy는 다양한 최적화 기술과 라이브러리를 사용하여 배열 연산을 최적화하고 병렬 처리를 지원합니다.¶

이러한 이유로 인해 NumPy 배열에서 벡터화된 연산은 대량의 데이터를 처리할 때 일반적으로 `for` 루프를 사용한 리스트보다 빠릅니다.¶

In [52]:

import numpy as np
import time
import pandas as pd
import timeit

Case 1

for문을 이용한 일반 연산¶

In [53]:

# %%timeit -n 5 -r 2

start_time = time.time()

lst = range(1, 1000001)

squared_lst = [x**2  for x in lst]

gap_time_list = time.time() - start_time

squared_lst[-1],gap_time_list

Out[53]:

(1000000000000, 0.49983978271484375)

numpy를 이용한 벡터화 연산¶

In [54]:

# %%timeit -n 5 -r 2

start_time = time.time()

arr = np.arange(1, 1000001,dtype='int64')

squared_arr = arr**2

gap_time_arr = time.time() - start_time

squared_arr[-1],gap_time_arr

Out[54]:

(1000000000000, 0.014994621276855469)

Numpy와 list(for) 속도 비교¶

In [55]:

f'numpy가 list 보다 {gap_time_list/gap_time_arr:0.1f}배 빠름'

Out[55]:

'numpy가 list 보다 33.3배 빠름'

Numpy가 list 보다 33.3배 빠름¶

Case 2

In [56]:

import pandas as pd
import random

genres=['Adventure', 'Animation', 'Children', 'Comedy', 'Fantasy', 'Romance', 'Drama', 'Action', 'Crime', 'Thriller', 'Horror',
       'Mystery', 'Sci-Fi', 'War', 'Musical', 'Documentary', 'IMAX', 'Western', 'Film-Noir']

data = []
num_rows = 5000

random.seed(1234)

for _ in range(num_rows):
    num_genres = random.randint(1, 6) # 임의의 장르 개수 선택 (1개부터 4개)
    random_genres = random.sample(genres, num_genres) # 임의로 선택된 장르 조합
    combined_genres = '|'.join(random_genres) # 장르들을 하나의 문자열로 결합
    data+=[combined_genres]

df = pd.DataFrame(data, columns=['Combined_Genres']) # 데이터프레임 생성

Pandas¶

In [57]:

# %%time

start_time = time.time()

zero_matrix=np.zeros((len(df),len(genres)))

dummies=pd.DataFrame(zero_matrix,columns=genres)

for i, gen in enumerate(df.Combined_Genres):
    indices=dummies.columns.get_indexer(gen.split('|'))
    dummies.iloc[i,indices]=1

movies_windic=df.join(dummies.add_prefix('genre_'))
# movies_windic

gap_time_df = time.time() - start_time
gap_time_df

Out[57]:

1.6244792938232422

Numpy¶

In [58]:

# %%time

start_time = time.time()

gen=df.iloc[:,0].str.split('|')

matrix = np.zeros((len(df), len(genres)), dtype=int)

genre_to_idx = {genre: idx for idx, genre in enumerate(genres)}

for i in range(len(df)):
    for item in gen[i]:
        idx = genre_to_idx.get(item)
        matrix[i, idx] = 1
            
prefix_genres=['genre_'+x for x in genres]
matrix_df=pd.DataFrame(matrix,columns=prefix_genres)

new_movies=df.join(matrix_df)
# new_movies.iloc[:,3:-1]=matrix_df

gap_time_np = time.time() - start_time
gap_time_np

Out[58]:

0.05196881294250488

Numpy와 Pands 속도 비교¶

In [59]:

print(f'결과값 비교: {"같음" if (movies_windic==new_movies).all().all() else "다름"}')
print(f'numpy가 pandas 보다 {gap_time_df/gap_time_np:0.1f}배 빠름')

결과값 비교: 같음
numpy가 pandas 보다 31.3배 빠름

Numpy가 Pandas 보다 31.3배 빠름¶

'Data Science > Python' 카테고리의 다른 글

[데이터 사이언스] (전처리) pd.melt 여러 컬럼을 하나의 컬럼으로 합치고 컬럼 이름 붙여 grouping 하기 (미니탭 컬럼 합치기, 쌓기) (0)	2023.12.19
[데이터 사이언스] (전처리) Pandas 판다스 특정 type 열 선택 (0)	2023.12.12
[데이터 사이언스] (전처리) 특정 값이 있는 컬럼의 이름을 저장하는 코드 (0)	2023.12.05
[데이터 사이언스] 판다스 데이터프레임 색인 문법 비교 (0)	2023.10.12
[데이터 사이언스] DataFrame 비교 함수 차이(isin, str.contains, str.match) (0)	2023.09.25

플러터닷(Flutter.Dart)

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

Numpy가 빠른 이유¶

`for` 루프를 사용한 리스트와 NumPy 배열에서 벡터화된 연산 간의 성능 차이는 몇 가지 주요 이유로 인해 발생합니다:¶

1. Overhead: `for` 루프를 사용하면 반복문을 통해 각 요소에 접근하고 연산을 수행해야 합니다. 이는 반복문의 오버헤드와 Python 인터프리터의 각 반복에서 추가적인 작업이 필요하므로 느린 성능을 초래합니다.¶

3. 컴파일된 코드: NumPy는 C 언어로 작성된 내부 루프와 벡터화된 함수를 사용하여 연산을 수행하므로 Python 반복문보다 훨씬 효율적입니다.¶

4. SIMD 명령어 활용: NumPy는 SIMD(단일 명령, 다중 데이터) 명령어를 활용하여 동시에 여러 요소를 처리할 수 있습니다. 이는 벡터화된 연산을 통해 데이터 처리를 가속화하는 데 도움이 됩니다.¶

5. 최적화: NumPy는 다양한 최적화 기술과 라이브러리를 사용하여 배열 연산을 최적화하고 병렬 처리를 지원합니다.¶

이러한 이유로 인해 NumPy 배열에서 벡터화된 연산은 대량의 데이터를 처리할 때 일반적으로 `for` 루프를 사용한 리스트보다 빠릅니다.¶

Case 1

for문을 이용한 일반 연산¶

numpy를 이용한 벡터화 연산¶

Numpy와 list(for) 속도 비교¶

Numpy가 list 보다 33.3배 빠름¶

Case 2

Pandas¶

Numpy¶

Numpy와 Pands 속도 비교¶

Numpy가 Pandas 보다 31.3배 빠름¶

'Data Science > Python' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

티스토리툴바

플러터닷(Flutter.Dart)

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

Numpy가 빠른 이유¶

for 루프를 사용한 리스트와 NumPy 배열에서 벡터화된 연산 간의 성능 차이는 몇 가지 주요 이유로 인해 발생합니다:¶

1. Overhead: for 루프를 사용하면 반복문을 통해 각 요소에 접근하고 연산을 수행해야 합니다. 이는 반복문의 오버헤드와 Python 인터프리터의 각 반복에서 추가적인 작업이 필요하므로 느린 성능을 초래합니다.¶

3. 컴파일된 코드: NumPy는 C 언어로 작성된 내부 루프와 벡터화된 함수를 사용하여 연산을 수행하므로 Python 반복문보다 훨씬 효율적입니다.¶

4. SIMD 명령어 활용: NumPy는 SIMD(단일 명령, 다중 데이터) 명령어를 활용하여 동시에 여러 요소를 처리할 수 있습니다. 이는 벡터화된 연산을 통해 데이터 처리를 가속화하는 데 도움이 됩니다.¶

5. 최적화: NumPy는 다양한 최적화 기술과 라이브러리를 사용하여 배열 연산을 최적화하고 병렬 처리를 지원합니다.¶

이러한 이유로 인해 NumPy 배열에서 벡터화된 연산은 대량의 데이터를 처리할 때 일반적으로 for 루프를 사용한 리스트보다 빠릅니다.¶

Case 1

for문을 이용한 일반 연산¶

numpy를 이용한 벡터화 연산¶

Numpy와 list(for) 속도 비교¶

Numpy가 list 보다 33.3배 빠름¶

Case 2

Pandas¶

Numpy¶

Numpy와 Pands 속도 비교¶

Numpy가 Pandas 보다 31.3배 빠름¶

'Data Science > Python' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

티스토리툴바

`for` 루프를 사용한 리스트와 NumPy 배열에서 벡터화된 연산 간의 성능 차이는 몇 가지 주요 이유로 인해 발생합니다:¶

1. Overhead: `for` 루프를 사용하면 반복문을 통해 각 요소에 접근하고 연산을 수행해야 합니다. 이는 반복문의 오버헤드와 Python 인터프리터의 각 반복에서 추가적인 작업이 필요하므로 느린 성능을 초래합니다.¶

이러한 이유로 인해 NumPy 배열에서 벡터화된 연산은 대량의 데이터를 처리할 때 일반적으로 `for` 루프를 사용한 리스트보다 빠릅니다.¶