이러한 모듈화된 설계는 병렬 처리와 확장성을 가능하게 하며, 트랜스포머가 장문 맥락을 효과적으로 학습하는 핵심 원리입니다124.
퍼플렉시티에서 첨삭 받음
LLM(초거대 언어모델) 발전 연대표
연도
사건 및 내용
1950
앨런 튜링, "튜링 테스트" 제안 (AI 개념적 시초)
1966
MIT, ELIZA 개발 (최초의 대화형 NLP 프로그램)
1980년대
IBM, 최초의 신경망 기반 소형 언어 모델 개발
1990년대
N-gram 등 통계 기반 언어 모델 대중화
2001
LDA(Latent Dirichlet Allocation) 등 토픽 모델링 발전
2010
RNN 기반 신경망 언어 모델(Mikolov 등)
2013
Google, Word2Vec 발표 (단어 임베딩 혁신)
2014
Google, Seq2Seq 발표 (인코더-디코더 구조)
2015
Attention 메커니즘 도입 (Bahdanau 등)
2017
Google, Transformer(트랜스포머) 논문 발표 ("Attention is All You Need")
2018
OpenAI, GPT-1 발표 (디코더 기반, 1.1억 파라미터)
2018
Google, BERT 발표 (인코더 기반, 양방향 문맥 이해)
2019
OpenAI, GPT-2 발표 (15억 파라미터, 일부만 공개)
2020
OpenAI, GPT-3 발표 (1750억 파라미터, API 제공)
2021
Google, Switch Transformer(1.6조 파라미터) 발표
2022
OpenAI, ChatGPT 출시 (GPT-3.5 기반, 대중적 성공)
2023
Meta, LLaMA 발표 (경량화 및 고성능 LLM)
2023
OpenAI, GPT-4 발표 (멀티모달 지원)
2023
Google, Bard(Gemini 전신) 출시
2023
Anthropic, Claude 출시
2024
다양한 오픈소스 LLM(Dolly, Alpaca 등) 확산
주요 발전사 요약
1950~2010년대: 규칙 기반 → 통계 기반 → 신경망 기반으로 NLP 진화
2013~2017년: Word2Vec, Seq2Seq, Attention, Transformer 등 혁신적 모델 등장
2018~2020년: BERT(이해 특화), GPT(생성 특화) 등 대형 모델 경쟁
2020년대: 초거대 LLM(GPT-3, GPT-4, LLaMA 등)과 오픈소스 생태계 확산, 멀티모달 및 대화형 AI 대중화
챗GPT에서 첨삭 받음
📜 대규모 언어 모델(LLM)의 발전사: 핵심 연도별 정리
🔹 2013 – Word2Vec (Google)
기술: 단어를 의미 있는 벡터로 변환하는 기법
공헌: 단어 간 의미 유사성을 수치적으로 표현 (예: king - man + woman ≈ queen)
한계: 문맥이 반영되지 않는 정적(static) 임베딩
🔹 2014 – Seq2Seq + 인코더-디코더 구조 (Google)
기술: 문장을 벡터로 압축해 다른 문장으로 디코딩 (번역 등)
공헌:인코더(이해) – 디코더(생성) 구조의 기반을 마련
활용: 기계번역, 챗봇, 요약 등
✅ 정정: "인코더 디코더가 붙어 개념이 정립됨" → 처음 개념화됨은 맞지만, 이후 트랜스포머에서 더 발전함
🔹 2015 – Attention Mechanism 도입 (Bahdanau 등)
기술: 번역 시, 입력 문장의 특정 부분에 주의를 기울이도록 함
공헌: 트랜스포머의 핵심 아이디어의 전신
🔹 2017 – Transformer 발표 (Google)
논문: Attention is All You Need
기술: RNN 없이도 문맥을 처리 가능한 구조
구성: 여러 개의 인코더와 디코더 → Self-Attention 기반
✅ 정정: "어텐션이 붙어 있음" → 정확히는 Self-Attention + Feed Forward + Residual 등으로 구성됨
의의: NLP 혁명의 시작
🔹 2018 – GPT & BERT 발표
GPT-1 (OpenAI)
트랜스포머 디코더 기반
Autoregressive (왼→오) 방식
자연어 생성에 강함
BERT (Google)
트랜스포머 인코더 기반
양방향 문맥 이해 가능 (Masked Language Modeling)
자연어 이해에 탁월 ✅ 정정: "BERT 성능이 GPT보다 월등" → BERT는 이해(Task)에, GPT는 생성(Generation)에 특화됨 ✅ 정정: "연구자들이 GPT보다 BERT를 12배 많이 연구함" → 정확한 수치는 다르지만, BERT가 한동안 학계 주류였던 것은 사실
🔹 2019 – GPT-2 (OpenAI)
성장: 15억 파라미터, 원래는 공개 거부 → 후에 공개
능력: Zero-shot, Few-shot 능력의 가능성 보여줌
우려: **"너무 잘 만들어서 위험하다"**는 이유로 공개 연기됨
🔹 2020 – GPT-3 (OpenAI)
규모: 1750억 파라미터 (BERT보다 수백 배 큼)
혁신:
Few-shot, Zero-shot 학습 본격화
다양한 작업에 하나의 모델로 대응 가능
✅ 정정: "2배 커지면 5% 향상" → 이는 일반적인 추정치이며, 논문마다 다름. 다만 수익 대비 효율이 낮아지는 건 맞음
비판: 계산 비용과 탄소 배출량 등의 환경적 우려 제기
🔹 2021 – Codex, DALL·E, CLIP (OpenAI)
Codex: 코드 생성 특화 모델 (GitHub Copilot 기반)
CLIP: 텍스트-이미지 이해 모델
DALL·E: 텍스트를 이미지로 변환
의의: LLM을 텍스트 외 영역으로 확장
🔹 2022 – ChatGPT (GPT-3.5 기반)
출시: 2022년 11월
혁신:
대화형 튜닝 + RLHF (강화 학습 기반 사용자 피드백)
인간과 유사한 대화 생성
대중 반응: 수억 명이 사용하며 대중적 AI의 시대 개막
🔹 2023 – GPT-4 & LLaMA (OpenAI / Meta)
GPT-4 (3월)
멀티모달 지원: 이미지 입력 가능 (텍스트+이미지 이해)
더 정확한 문맥 이해, 응답 품질 향상
LLaMA (Meta)
작은 모델 크기 (GPT-3의 절반)
더 많은 양질의 데이터로 학습 → 성능 대폭 향상 ✅ 정정: "4배 더 주입" → 더 나은 토큰 품질과 전처리 전략 사용이 핵심
댓글 영역