🎯 3Blue1Brown - 머신러닝 시각적 이해

왜 이 영상들인가?

ML에 대한 막연한 이해를 시각적으로 한방에 풀어주는 콘텐츠. 수식 없이 직관적으로 “아 이렇게 돌아가는구나” 깨닫게 해줌.

📑 목차

Transformer와 Attention
GPT 모델의 작동 원리
Topology와 ML의 연결
핵심 개념 정리

1. Transformer와 Attention

📺 영상

💡 핵심 아이디어

Attention = “어디를 봐야 하는가”

문장: "The cat sat on the mat because it was tired"
                                    ^^
                                    it이 뭘 가리키는가?

사람은 문맥으로 “it = cat”임을 앎
Transformer는 Attention 점수로 이걸 계산

🔢 Softmax 함수

입력: [2.0, 1.0, 0.1]
      ↓ softmax
출력: [0.7, 0.2, 0.1]  (합 = 1.0)

여러 값을 확률 분포로 변환
가장 큰 값이 가장 높은 확률
Attention에서 “어디에 집중할지” 결정

🎯 Query, Key, Value

개념	비유	역할
Query (Q)	질문	”나는 뭘 찾고 있는가?”
Key (K)	라벨	”나는 어떤 정보를 갖고 있는가?”
Value (V)	내용	”실제 정보”

Attention(Q, K, V) = softmax(Q × K^T / √d) × V

→ Query와 Key가 얼마나 매칭되는지 계산 → 그만큼 Value 가져옴

2. GPT 모델의 작동 원리

🧱 텐서와 다차원 배열

단어 → 숫자 벡터 (Embedding)

"cat" → [0.2, -0.5, 0.8, 0.1, ...]  (768차원)
"dog" → [0.3, -0.4, 0.7, 0.2, ...]

비슷한 의미 = 비슷한 벡터 (가까운 위치)
이게 고차원 공간에서의 위치

📐 다차원 공간의 직관

2D: 점은 (x, y)
3D: 점은 (x, y, z)
768D: 점은 (x1, x2, ..., x768)

시각화는 불가능하지만 수학적으로는 동일
거리, 방향, 유사도 계산 가능

🔄 Transformer 레이어

입력 토큰들
    ↓
[Attention] ← 토큰 간 관계 파악
    ↓
[Feed Forward] ← 각 토큰 개별 처리
    ↓
[Layer Norm] ← 안정화
    ↓
(반복 x N번)
    ↓
다음 토큰 예측

GPT-3: 96개 레이어 GPT-4: 120개+ 레이어 (추정)

3. Topology와 ML의 연결

📺 영상

Who cares about topology?

💡 Topology란?

“찢거나 붙이지 않고 변형해도 유지되는 성질”

도넛 🍩 = 커피컵 ☕ (위상적으로 동일)
       둘 다 구멍이 1개

공 ⚽ ≠ 도넛 🍩 (위상적으로 다름)
     구멍 개수가 다름

🧠 ML에서의 Topology

고차원 데이터의 “형태”를 이해

데이터셋이 고차원 공간에서 어떤 모양인가?
- 클러스터로 뭉쳐있나?
- 연결되어 있나?
- 구멍이 있나?

🎯 왜 중요한가?

차원 축소 (t-SNE, UMAP)
- 고차원 → 2D로 시각화할 때 위상 구조 보존
Manifold Learning
- 데이터가 실제로는 저차원 곡면 위에 있다는 가정
- 그 곡면의 형태 = 위상
Neural Network의 학습
- 입력 공간을 “접고 펴서” 분류 가능한 형태로 변환
- 이 변환이 위상적 변형

4. 핵심 개념 정리

📊 한눈에 보기

개념	한줄 설명
Embedding	단어 → 고차원 벡터
Attention	”어디를 봐야 하는가” 계산
Softmax	값들을 확률로 변환
Transformer	Attention 반복 적용하는 구조
Topology	형태의 본질적 성질

🔗 연결고리

텍스트
  ↓ Embedding
고차원 벡터들 (Topology적 구조를 가짐)
  ↓ Attention (Softmax)
문맥 반영된 벡터
  ↓ 여러 레이어
다음 단어 예측

📚 추천 시청 순서

Neural Network 기초
- But what is a neural network?
Transformer 이해
- But what is a GPT?
- Attention in transformers
수학적 직관
- Who cares about topology?

복습 포인트

Attention = Query와 Key의 유사도로 Value 가중합

Softmax = 확률 분포로 변환

고차원 공간에서 단어들은 의미에 따라 위치함

Topology = 본질적 형태 (구멍 개수 등)

5. 2026 트렌드 - 더 파고들고 싶다면

기초 이해했으면 이쪽으로

위 개념들이 실제로 어떻게 발전하고 있는지

🔥 LLM 핵심 트렌드

키워드	한줄 설명	왜 중요한가
RAG	검색 + 생성 결합	환각 줄이고 최신 정보 반영
RLHF	사람 피드백으로 학습	ChatGPT가 똑똑해진 비결
MoE	전문가 모델 여러개 조합	적은 연산으로 큰 모델 효과
Agent	LLM + 도구 사용	검색, 코딩, API 호출 등

⚡ 효율화 (작게, 빠르게)

키워드	한줄 설명	관심 가질 상황
Quantization	32bit → 4bit 압축	맥북에서 LLM 돌리고 싶을 때
LoRA / QLoRA	일부만 학습	내 데이터로 파인튜닝하고 싶을 때
Speculative Decoding	작은 모델이 초안, 큰 모델이 검증	추론 속도 2-3배 향상
KV Cache 최적화	메모리 효율화	긴 문맥 처리할 때

🖼️ Multimodal (텍스트 넘어서)

키워드	한줄 설명	예시
VLM	이미지 + 텍스트 이해	GPT-4V, Gemini
Text-to-Video	텍스트 → 영상 생성	Sora, Runway
Audio LLM	음성 직접 이해/생성	GPT-4o 실시간 대화

🧠 Reasoning (더 똑똑하게)

키워드	한줄 설명	핵심
Chain of Thought	단계별 사고	”먼저… 그다음…”
Test-time Compute	추론 시 더 많이 생각	o1, o3 모델 방식
Self-Reflection	스스로 검토/수정	답변 품질 향상

📱 On-device AI (로컬에서)

키워드	한줄 설명	관련 도구
MLX	Apple Silicon 최적화	M1/M2/M3 맥에서 LLM
llama.cpp	CPU에서 LLM 실행	어디서든 로컬 추론
Edge AI	디바이스에서 직접	프라이버시, 오프라인

🎯 관심사별 추천 경로

“LLM 활용에 관심”

RAG → Agent → Tool Use → LangChain/LlamaIndex

“모델 직접 만져보고 싶음”

Quantization → LoRA → Hugging Face → 파인튜닝

“맥북에서 로컬로 돌리고 싶음”

llama.cpp → MLX → Ollama → 로컬 챗봇

“최신 연구 따라가고 싶음”

arXiv daily → Hugging Face Papers → Twitter/X ML 계정들

주의

트렌드 쫓다가 기초 놓치면 안됨. 위의 3Blue1Brown 영상들로 Attention, Embedding, Topology 확실히 이해하고 넘어갈 것.

Quartz 4

탐색기

3Blue1Brown - 머신러닝 시각적 이해

🎯 3Blue1Brown - 머신러닝 시각적 이해

📑 목차

1. Transformer와 Attention

📺 영상

💡 핵심 아이디어

🔢 Softmax 함수

🎯 Query, Key, Value

2. GPT 모델의 작동 원리

🧱 텐서와 다차원 배열

📐 다차원 공간의 직관

🔄 Transformer 레이어

3. Topology와 ML의 연결

📺 영상

💡 Topology란?

🧠 ML에서의 Topology

🎯 왜 중요한가?

4. 핵심 개념 정리

📊 한눈에 보기

🔗 연결고리

📚 추천 시청 순서

5. 2026 트렌드 - 더 파고들고 싶다면

🔥 LLM 핵심 트렌드

⚡ 효율화 (작게, 빠르게)

🖼️ Multimodal (텍스트 넘어서)

🧠 Reasoning (더 똑똑하게)

📱 On-device AI (로컬에서)

🎯 관심사별 추천 경로

그래프 뷰

목차