상세 컨텐츠

본문 제목

인공지능 AI 출현, 등장 이야기 - 챗GPT(LLM)는 어디서 왔는가?

Data Science

by FDG 2025. 5. 22. 22:05

본문

https://www.yes24.com/product/goods/122661870

 

프롬프트 엔지니어링 - 예스24

챗GPT 베스트셀러 작가이자 인공지능 전문가가 쓴 프롬프트 엔지니어링의 모든 것프롬프트 엔지니어링은 챗GPT, 바드, 빙, 하이퍼클로바X 등 대화형 인공지능의 원리를 이해하여 훨씬 더 좋은 답

www.yes24.com

 

챗GPT는 어디서 왔는가가 궁금했는데, 그 궁금증을 해결해 준 책이다.

 

2013년

구글 Word2vec 단어 이해

 

2014년

구글 Seq2seq 문장 이해(단어 배열 순서)

인코더(이해) 디코더(표현( 개념이 정립됨

 

2017년

구글 트랜스포머(어텐션) : 여러개의 인코더와 여러개의 디코더를 사용. 인코더와 디코더는 여러 모듈로 구성돼 있는데 이 모듈에 어텐션이 붙어 있음

어텐션을 활용해 그림이나 작곡을 학습시킨후 만들게 되는 게 가능해짐. 이미지 생성에서는 픽셀 간의 공간적 관계를, 음악에서는 시간적 의존성을 포착.

*GPT의 T가 트랜스포머

 

2018년

GPT는 디코더 위주로 구성

BERT는 인코더 위주로 구성

*인코더(이해)가 많은 BERT 성능이 GPT보다 월등

*연구자들은 BERT 연구를 더 많이 함. GTP의 12배 수준으로 연구.

 

2020년

BERT보다 583배 큰 GPT-3 발표

* AI 부피가 2배 커지면 성능은 5% 증가하기 때문에 이때까지만 해도 부피를 키우는 것은 친환경적이지도 않고, 비효율적이라는 분위기가 지배적.

 

2023년

LLaMA발표. GPT-3의 절반 크기에서 학습 데이터를 4배 더 주입하니 성능이 좋아진다는 연구 결과 발표.


(퍼플렉시티에 질문 : 인공지능에서 트랜스포머는 여러개의 인코더와 디코더로 구성돼 있다. 어텐션은 가각의 모듈에 부착이 돼 있다고 하는데, 모듈이란 무엇인가? 모듈의 구성은?)

. 인코더 모듈의 구성

인코더 한 개의 층(layer)은 다음 두 가지 모듈로 구성됩니다:

  1. 멀티 헤드 셀프 어텐션(Multi-Head Self-Attention)
    • 입력 시퀀스의 각 단어가 다른 단어와 어떤 관계를 가지는지 계산합니다.
    • 병렬로 작동하는 여러 개의 "어텐션 헤드"를 사용해 다양한 관점에서 문맥을 분석합니다12.
    • 수식:Attention(Q,K,V)=softmax(QKTdk)V여기서 Q(Query), K(Key), V(Value)는 입력 벡터의 변환 결과입니다4.
  2. 위치별 피드 포워드 네트워크(Position-wise FFN)
    • 각 단어 위치에 독립적으로 적용되는 2층 신경망입니다.
    • 활성화 함수(ReLU)를 사용해 비선형 변환을 수행합니다14.
    • 하이퍼파라미터: dmodel=512, dff=20481.

추가 구조:

  • **잔차 연결(Residual Connection)**과 **층 정규화(LayerNorm)**가 각 모듈 뒤에 적용되어 학습 안정성을 높입니다4.

2. 디코더 모듈의 구성

디코더 한 개의 층은 세 가지 모듈로 구성됩니다:

  1. 마스크된 멀티 헤드 셀프 어텐션(Masked Multi-Head Self-Attention)
    • 디코더가 미래 단어를 참조하지 못하도록 마스킹을 적용합니다24.
  2. 인코더-디코더 어텐션(Encoder-Decoder Attention)
    • 인코더의 출력을 Key/Value로 사용해 디코더의 Query와 연관성을 계산합니다4.
  3. 위치별 피드 포워드 네트워크(Position-wise FFN)
    • 인코더와 동일한 구조입니다.

3. 모듈의 계층적 구조

트랜스포머는 이러한 인코더와 디코더 모듈을 여러 층으로 쌓습니다:

  • 인코더 층 수: 6개 (논문 기준)1.
  • 디코더 층 수: 6개 (논문 기준)1.
  • 각 층의 출력은 다음 층으로 전달되며, 최종적으로 문맥을 반영한 표현을 생성합니다4.

4. 모듈 간 데이터 흐름 예시

  1. 입력 문장이 **포지셔널 인코딩(Positional Encoding)**을 거쳐 인코더에 입력됩니다24.
  2. 인코더의 각 층에서 셀프 어텐션 → FFN 순서로 처리됩니다.
  3. 디코더는 마스크된 어텐션으로 시작해 인코더 출력과의 상호 작용을 거칩니다4.
  4. 최종 출력은 소프트맥스 계층을 통해 다음 단어 예측으로 변환됩니다2.

이러한 모듈화된 설계는 병렬 처리와 확장성을 가능하게 하며, 트랜스포머가 장문 맥락을 효과적으로 학습하는 핵심 원리입니다124.


퍼플렉시티에서 첨삭 받음

LLM(초거대 언어모델) 발전 연대표

연도 사건 및 내용
1950 앨런 튜링, "튜링 테스트" 제안 (AI 개념적 시초)
1966 MIT, ELIZA 개발 (최초의 대화형 NLP 프로그램)
1980년대 IBM, 최초의 신경망 기반 소형 언어 모델 개발
1990년대 N-gram 등 통계 기반 언어 모델 대중화
2001 LDA(Latent Dirichlet Allocation) 등 토픽 모델링 발전
2010 RNN 기반 신경망 언어 모델(Mikolov 등)
2013 Google, Word2Vec 발표 (단어 임베딩 혁신)
2014 Google, Seq2Seq 발표 (인코더-디코더 구조)
2015 Attention 메커니즘 도입 (Bahdanau 등)
2017 Google, Transformer(트랜스포머) 논문 발표 ("Attention is All You Need")
2018 OpenAI, GPT-1 발표 (디코더 기반, 1.1억 파라미터)
2018 Google, BERT 발표 (인코더 기반, 양방향 문맥 이해)
2019 OpenAI, GPT-2 발표 (15억 파라미터, 일부만 공개)
2020 OpenAI, GPT-3 발표 (1750억 파라미터, API 제공)
2021 Google, Switch Transformer(1.6조 파라미터) 발표
2022 OpenAI, ChatGPT 출시 (GPT-3.5 기반, 대중적 성공)
2023 Meta, LLaMA 발표 (경량화 및 고성능 LLM)
2023 OpenAI, GPT-4 발표 (멀티모달 지원)
2023 Google, Bard(Gemini 전신) 출시
2023 Anthropic, Claude 출시
2024 다양한 오픈소스 LLM(Dolly, Alpaca 등) 확산

주요 발전사 요약

  • 1950~2010년대: 규칙 기반 → 통계 기반 → 신경망 기반으로 NLP 진화
  • 2013~2017년: Word2Vec, Seq2Seq, Attention, Transformer 등 혁신적 모델 등장
  • 2018~2020년: BERT(이해 특화), GPT(생성 특화) 등 대형 모델 경쟁
  • 2020년대: 초거대 LLM(GPT-3, GPT-4, LLaMA 등)과 오픈소스 생태계 확산, 멀티모달 및 대화형 AI 대중화

챗GPT에서 첨삭 받음

📜 대규모 언어 모델(LLM)의 발전사: 핵심 연도별 정리


🔹 2013 – Word2Vec (Google)

  • 기술: 단어를 의미 있는 벡터로 변환하는 기법
  • 공헌: 단어 간 의미 유사성을 수치적으로 표현 (예: king - man + woman ≈ queen)
  • 한계: 문맥이 반영되지 않는 정적(static) 임베딩

🔹 2014 – Seq2Seq + 인코더-디코더 구조 (Google)

  • 기술: 문장을 벡터로 압축해 다른 문장으로 디코딩 (번역 등)
  • 공헌: 인코더(이해) – 디코더(생성) 구조의 기반을 마련
  • 활용: 기계번역, 챗봇, 요약 등
  • ✅ 정정: "인코더 디코더가 붙어 개념이 정립됨" → 처음 개념화됨은 맞지만, 이후 트랜스포머에서 더 발전함

🔹 2015 – Attention Mechanism 도입 (Bahdanau 등)

  • 기술: 번역 시, 입력 문장의 특정 부분에 주의를 기울이도록 함
  • 공헌: 트랜스포머의 핵심 아이디어의 전신

🔹 2017 – Transformer 발표 (Google)

  • 논문: Attention is All You Need
  • 기술: RNN 없이도 문맥을 처리 가능한 구조
  • 구성: 여러 개의 인코더와 디코더 → Self-Attention 기반
  • ✅ 정정: "어텐션이 붙어 있음" → 정확히는 Self-Attention + Feed Forward + Residual 등으로 구성됨
  • 의의: NLP 혁명의 시작

🔹 2018 – GPT & BERT 발표

  • GPT-1 (OpenAI)
    • 트랜스포머 디코더 기반
    • Autoregressive (왼→오) 방식
    • 자연어 생성에 강함
  • BERT (Google)
    • 트랜스포머 인코더 기반
    • 양방향 문맥 이해 가능 (Masked Language Modeling)
    • 자연어 이해에 탁월
      ✅ 정정: "BERT 성능이 GPT보다 월등" → BERT는 이해(Task)에, GPT는 생성(Generation)에 특화됨
      ✅ 정정: "연구자들이 GPT보다 BERT를 12배 많이 연구함" → 정확한 수치는 다르지만, BERT가 한동안 학계 주류였던 것은 사실

🔹 2019 – GPT-2 (OpenAI)

  • 성장: 15억 파라미터, 원래는 공개 거부 → 후에 공개
  • 능력: Zero-shot, Few-shot 능력의 가능성 보여줌
  • 우려: **"너무 잘 만들어서 위험하다"**는 이유로 공개 연기됨

🔹 2020 – GPT-3 (OpenAI)

  • 규모: 1750억 파라미터 (BERT보다 수백 배 큼)
  • 혁신:
    • Few-shot, Zero-shot 학습 본격화
    • 다양한 작업에 하나의 모델로 대응 가능
  • ✅ 정정: "2배 커지면 5% 향상" → 이는 일반적인 추정치이며, 논문마다 다름. 다만 수익 대비 효율이 낮아지는 건 맞음
  • 비판: 계산 비용과 탄소 배출량 등의 환경적 우려 제기

🔹 2021 – Codex, DALL·E, CLIP (OpenAI)

  • Codex: 코드 생성 특화 모델 (GitHub Copilot 기반)
  • CLIP: 텍스트-이미지 이해 모델
  • DALL·E: 텍스트를 이미지로 변환
  • 의의: LLM을 텍스트 외 영역으로 확장

🔹 2022 – ChatGPT (GPT-3.5 기반)

  • 출시: 2022년 11월
  • 혁신:
    • 대화형 튜닝 + RLHF (강화 학습 기반 사용자 피드백)
    • 인간과 유사한 대화 생성
  • 대중 반응: 수억 명이 사용하며 대중적 AI의 시대 개막

🔹 2023 – GPT-4 & LLaMA (OpenAI / Meta)

  • GPT-4 (3월)
    • 멀티모달 지원: 이미지 입력 가능 (텍스트+이미지 이해)
    • 더 정확한 문맥 이해, 응답 품질 향상
  • LLaMA (Meta)
    • 작은 모델 크기 (GPT-3의 절반)
    • 더 많은 양질의 데이터로 학습 → 성능 대폭 향상
      ✅ 정정: "4배 더 주입" → 더 나은 토큰 품질과 전처리 전략 사용이 핵심
    • 오픈 소스 커뮤니티 기반 모델 붐을 촉진

🔹 2024 – GPT-4.5 및 Claude 3, Gemini 등 경쟁 모델 출시

  • GPT-4.5: 더욱 빠르고 정제된 버전
  • Anthropic Claude 3: 뛰어난 응답 품질과 문서 이해력
  • Gemini (Google): 멀티모달 & 검색 결합
  • Mistral, Mixtral 등 오픈 소스 모델 약진

🔚 요약

연도사건/모델핵심 공헌
2013 Word2Vec 단어를 벡터로 표현 (정적)
2014 Seq2Seq 인코더-디코더 구조
2017 Transformer 어텐션 기반 처리 혁명
2018 GPT-1 / BERT 생성 vs 이해 모델 분화
2020 GPT-3 초거대 모델, Few-shot 가능성
2022 ChatGPT LLM의 대중화와 실용화
2023 GPT-4 / LLaMA 멀티모달, 소형 고성능 모델 경쟁
2024 GPT-4.5 등 고도화·경쟁 심화, 오픈소스 가속화
 

관련글 더보기

댓글 영역