🎯 3Blue1Brown - 머신러닝 시각적 이해

왜 이 영상들인가?

ML에 대한 막연한 이해를 시각적으로 한방에 풀어주는 콘텐츠. 수식 없이 직관적으로 “아 이렇게 돌아가는구나” 깨닫게 해줌.


📑 목차


1. Transformer와 Attention

📺 영상

💡 핵심 아이디어

Attention = “어디를 봐야 하는가”

문장: "The cat sat on the mat because it was tired"
                                    ^^
                                    it이 뭘 가리키는가?
  • 사람은 문맥으로 “it = cat”임을 앎
  • Transformer는 Attention 점수로 이걸 계산

🔢 Softmax 함수

입력: [2.0, 1.0, 0.1]
      ↓ softmax
출력: [0.7, 0.2, 0.1]  (합 = 1.0)
  • 여러 값을 확률 분포로 변환
  • 가장 큰 값이 가장 높은 확률
  • Attention에서 “어디에 집중할지” 결정

🎯 Query, Key, Value

개념비유역할
Query (Q)질문”나는 뭘 찾고 있는가?”
Key (K)라벨”나는 어떤 정보를 갖고 있는가?”
Value (V)내용”실제 정보”
Attention(Q, K, V) = softmax(Q × K^T / √d) × V

→ Query와 Key가 얼마나 매칭되는지 계산 → 그만큼 Value 가져옴


2. GPT 모델의 작동 원리

🧱 텐서와 다차원 배열

단어 → 숫자 벡터 (Embedding)

"cat" → [0.2, -0.5, 0.8, 0.1, ...]  (768차원)
"dog" → [0.3, -0.4, 0.7, 0.2, ...]
  • 비슷한 의미 = 비슷한 벡터 (가까운 위치)
  • 이게 고차원 공간에서의 위치

📐 다차원 공간의 직관

2D: 점은 (x, y)
3D: 점은 (x, y, z)
768D: 점은 (x1, x2, ..., x768)
  • 시각화는 불가능하지만 수학적으로는 동일
  • 거리, 방향, 유사도 계산 가능

🔄 Transformer 레이어

입력 토큰들
    ↓
[Attention] ← 토큰 간 관계 파악
    ↓
[Feed Forward] ← 각 토큰 개별 처리
    ↓
[Layer Norm] ← 안정화
    ↓
(반복 x N번)
    ↓
다음 토큰 예측

GPT-3: 96개 레이어 GPT-4: 120개+ 레이어 (추정)


3. Topology와 ML의 연결

📺 영상

💡 Topology란?

“찢거나 붙이지 않고 변형해도 유지되는 성질”

도넛 🍩 = 커피컵 ☕ (위상적으로 동일)
       둘 다 구멍이 1개

공 ⚽ ≠ 도넛 🍩 (위상적으로 다름)
     구멍 개수가 다름

🧠 ML에서의 Topology

고차원 데이터의 “형태”를 이해

데이터셋이 고차원 공간에서 어떤 모양인가?
- 클러스터로 뭉쳐있나?
- 연결되어 있나?
- 구멍이 있나?

🎯 왜 중요한가?

  1. 차원 축소 (t-SNE, UMAP)

    • 고차원 → 2D로 시각화할 때 위상 구조 보존
  2. Manifold Learning

    • 데이터가 실제로는 저차원 곡면 위에 있다는 가정
    • 그 곡면의 형태 = 위상
  3. Neural Network의 학습

    • 입력 공간을 “접고 펴서” 분류 가능한 형태로 변환
    • 이 변환이 위상적 변형

4. 핵심 개념 정리

📊 한눈에 보기

개념한줄 설명
Embedding단어 → 고차원 벡터
Attention”어디를 봐야 하는가” 계산
Softmax값들을 확률로 변환
TransformerAttention 반복 적용하는 구조
Topology형태의 본질적 성질

🔗 연결고리

텍스트
  ↓ Embedding
고차원 벡터들 (Topology적 구조를 가짐)
  ↓ Attention (Softmax)
문맥 반영된 벡터
  ↓ 여러 레이어
다음 단어 예측

📚 추천 시청 순서

  1. Neural Network 기초

  2. Transformer 이해

  3. 수학적 직관


복습 포인트

  • Attention = Query와 Key의 유사도로 Value 가중합
  • Softmax = 확률 분포로 변환
  • 고차원 공간에서 단어들은 의미에 따라 위치함
  • Topology = 본질적 형태 (구멍 개수 등)

5. 2026 트렌드 - 더 파고들고 싶다면

기초 이해했으면 이쪽으로

위 개념들이 실제로 어떻게 발전하고 있는지

🔥 LLM 핵심 트렌드

키워드한줄 설명왜 중요한가
RAG검색 + 생성 결합환각 줄이고 최신 정보 반영
RLHF사람 피드백으로 학습ChatGPT가 똑똑해진 비결
MoE전문가 모델 여러개 조합적은 연산으로 큰 모델 효과
AgentLLM + 도구 사용검색, 코딩, API 호출 등

⚡ 효율화 (작게, 빠르게)

키워드한줄 설명관심 가질 상황
Quantization32bit → 4bit 압축맥북에서 LLM 돌리고 싶을 때
LoRA / QLoRA일부만 학습내 데이터로 파인튜닝하고 싶을 때
Speculative Decoding작은 모델이 초안, 큰 모델이 검증추론 속도 2-3배 향상
KV Cache 최적화메모리 효율화긴 문맥 처리할 때

🖼️ Multimodal (텍스트 넘어서)

키워드한줄 설명예시
VLM이미지 + 텍스트 이해GPT-4V, Gemini
Text-to-Video텍스트 → 영상 생성Sora, Runway
Audio LLM음성 직접 이해/생성GPT-4o 실시간 대화

🧠 Reasoning (더 똑똑하게)

키워드한줄 설명핵심
Chain of Thought단계별 사고”먼저… 그다음…”
Test-time Compute추론 시 더 많이 생각o1, o3 모델 방식
Self-Reflection스스로 검토/수정답변 품질 향상

📱 On-device AI (로컬에서)

키워드한줄 설명관련 도구
MLXApple Silicon 최적화M1/M2/M3 맥에서 LLM
llama.cppCPU에서 LLM 실행어디서든 로컬 추론
Edge AI디바이스에서 직접프라이버시, 오프라인

🎯 관심사별 추천 경로

“LLM 활용에 관심”

RAG → Agent → Tool Use → LangChain/LlamaIndex

“모델 직접 만져보고 싶음”

Quantization → LoRA → Hugging Face → 파인튜닝

“맥북에서 로컬로 돌리고 싶음”

llama.cpp → MLX → Ollama → 로컬 챗봇

“최신 연구 따라가고 싶음”

arXiv daily → Hugging Face Papers → Twitter/X ML 계정들

주의

트렌드 쫓다가 기초 놓치면 안됨. 위의 3Blue1Brown 영상들로 Attention, Embedding, Topology 확실히 이해하고 넘어갈 것.