โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-001 Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

arXiv: 2601.17058 ๊ธฐ๊ด€: Shanghai Jiao Tong University Upvotes: 181 | Comments: 4 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 1

Figure 1


[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

Paper Info: arXiv:2601.17058
Topic: LLM์„ ํ™œ์šฉํ•œ ๋ฐ์ดํ„ฐ ์ค€๋น„(Data Preparation) ์„ค๋ฌธ ์กฐ์‚ฌ
Target Audience: Junior Data Engineers, ML Engineers


1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๋ฐ์ดํ„ฐ ์ค€๋น„ ๋ฐฉ์‹์€ ์ •ํ•ด์ง„ ๊ทœ์น™(Rule-based)์— ์ง€๋‚˜์น˜๊ฒŒ ์˜์กดํ•˜์—ฌ, ๋ฐ์ดํ„ฐ ํ˜•์‹์ด ์กฐ๊ธˆ๋งŒ ๋‹ฌ๋ผ์ ธ๋„ ์ž‘๋™ํ•˜์ง€ ์•Š๊ฑฐ๋‚˜ ๊ฐœ๋ฐœ์ž๊ฐ€ ์ˆ˜์ž‘์—…์œผ๋กœ ์ฝ”๋“œ๋ฅผ ๊ณ ์ณ์•ผ ํ•˜๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋ฐ์ดํ„ฐ ์ •์ œ, ํ†ตํ•ฉ, ๋ณด๊ฐ•์˜ ์ „ ๊ณผ์ •์—์„œ LLM(๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ)์„ ํ™œ์šฉํ•˜์—ฌ โ€˜๊ทœ์น™ ๊ธฐ๋ฐ˜โ€™์—์„œ โ€˜์˜๋ฏธ ์ดํ•ด ๊ธฐ๋ฐ˜โ€™์œผ๋กœ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ „ํ™˜ํ•  ์ˆ˜ ์žˆ์Œ์„ ์ฒด๊ณ„์ ์œผ๋กœ ์ •๋ฆฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ˆ˜๋ฐฑ ๊ฐœ์˜ ์ตœ์‹  ์—ฐ๊ตฌ๋ฅผ ๋ถ„์„ํ•˜์—ฌ, LLM์ด ๋‹จ์ˆœํ•œ ํ…์ŠคํŠธ ์ƒ์„ฑ์„ ๋„˜์–ด ์‹ค์ œ ๊ธฐ์—…์˜ ๋”๋Ÿฌ์šด ๋ฐ์ดํ„ฐ(Messy Data)๋ฅผ ์ฒญ์†Œํ•˜๊ณ  ๊ฐ€์น˜ ์žˆ๋Š” ์ž์‚ฐ์œผ๋กœ ๋งŒ๋“œ๋Š” ํ•ต์‹ฌ ๋„๊ตฌ๋กœ ์ž๋ฆฌ ์žก๊ณ  ์žˆ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

๐Ÿท๏ธ ์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€œ์š”๋ฆฌ์‚ฌ์™€ ๋กœ๋ด‡ ํŒ”์˜ ์ฐจ์ดโ€

๋ฐ์ดํ„ฐ ์ค€๋น„๋ฅผ **โ€˜์š”๋ฆฌ๋ฅผ ์œ„ํ•œ ์žฌ๋ฃŒ ์†์งˆโ€™**์— ๋น„์œ ํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

  • ๊ธฐ์กด ๋ฐฉ์‹ (Rule-based): โ€œํ† ๋งˆํ† ๋Š” ๋ฌด์กฐ๊ฑด 2cm ํ๋ธŒ๋กœ ์ฐ์–ด๋ผโ€, โ€œ๋‹น๊ทผ์€ 3๋ถ„๊ฐ„ ์‚ถ์•„๋ผโ€๋ผ๊ณ  ์ ํžŒ ๋งค๋‰ด์–ผ๋Œ€๋กœ๋งŒ ์›€์ง์ด๋Š” ๋กœ๋ด‡ ํŒ”๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์žฌ๋ฃŒ(๋ฐ์ดํ„ฐ)๊ฐ€ ์กฐ๊ธˆ ์ƒํ–ˆ๊ฑฐ๋‚˜ ๋ชจ์–‘์ด ์˜ˆ์˜์ง€ ์•Š์•„๋„ ๋งค๋‰ด์–ผ์— ์—†์œผ๋ฉด ์ฒ˜๋ฆฌํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์™ธ ์ƒํ™ฉ์— ๋Œ€์ฒ˜ํ•˜๋ ค๋ฉด ์‚ฌ๋žŒ์ด ์ผ์ผ์ด ์ฝ”๋“œ(๋งค๋‰ด์–ผ)๋ฅผ ์ˆ˜์ •ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
  • ๋…ผ๋ฌธ์ด ์ œ์‹œํ•˜๋Š” LLM ๋ฐฉ์‹: **โ€œ๋ฏธ์А๋žญ ์…ฐํ”„(LLM)โ€œ**์„ ๊ณ ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์…ฐํ”„์—๊ฒŒ โ€œ๋น„๋น”๋ฐฅ์„ ๋งŒ๋“ค ์žฌ๋ฃŒ๋ฅผ ์ค€๋น„ํ•ด ์ค˜โ€๋ผ๊ณ  ์‹œํ‚ค๋ฉด, ์…ฐํ”„๋Š” ์ƒํ•œ ์žŽ์‚ฌ๊ท€๋ฅผ ๊ณจ๋ผ๋‚ด๊ณ (Cleaning), ๋“ค๊นจ ๊ฐ€๋ฃจ์™€ ์ฐธ๊ธฐ๋ฆ„์„ ์ ์ ˆํžˆ ์„ž์–ด(Enrichment), ์žฌ๋ฃŒ๋“ค์ด ์–ด์šธ๋ฆฌ๊ฒŒ ์ค€๋น„ํ•ฉ๋‹ˆ๋‹ค. ๋งค๋‰ด์–ผ์ด ์—†์–ด๋„ ์žฌ๋ฃŒ์˜ **๋งฅ๋ฝ(Context)**์„ ์ดํ•ดํ•˜๊ณ  ์œ ์—ฐํ•˜๊ฒŒ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

โš™๏ธ ๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ๋ฐฉ์‹

์ด ๋…ผ๋ฌธ์€ LLM์ด ๋ฐ์ดํ„ฐ๋ฅผ ์ค€๋น„ํ•˜๋Š” 3๋‹จ๊ณ„ ํ”„๋กœ์„ธ์Šค๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

  1. Data Cleaning (์ฒญ์†Œ - ์”ป๊ณ  ๋‹ค๋“ฌ๊ธฐ)
    • ๊ณผ์ •: ๋‚ ์งœ ํ˜•์‹์ด 2024/01/01์ธ ๊ณณ๋„ ์žˆ๊ณ  Jan 1st์ธ ๊ณณ๋„ ์žˆ์„ ๋•Œ, LLM์—๊ฒŒ โ€œ๋ชจ๋“  ๋‚ ์งœ๋ฅผ YYYYMMDD ํ˜•์‹์œผ๋กœ ํ†ต์ผํ•ด์ค˜โ€๋ผ๊ณ  ์ง€์‹œํ•ฉ๋‹ˆ๋‹ค.
    • LLM ์—ญํ• : ๋‹จ์ˆœํžˆ ๋ฌธ์ž์—ด์„ ์ž๋ฅด๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋ฌธ๋งฅ์„ ๋ณด๊ณ  01/02/03์ด 2001๋…„์ธ์ง€ 2003๋…„์ธ์ง€ ํŒ๋‹จํ•˜์—ฌ ํ‘œ์ค€ํ™”ํ•ฉ๋‹ˆ๋‹ค.
  2. Data Integration (ํ†ตํ•ฉ - ๋ฌถ๊ธฐ)
    • ๊ณผ์ •: A ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์˜ โ€˜์‚ผ์„ฑ์ „์žโ€™์™€ B ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์˜ โ€˜Samsung Electronicsโ€™๊ฐ€ ๊ฐ™์€ ํšŒ์‚ฌ์ธ์ง€ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค.
    • LLM ์—ญํ• : ๋‹จ์ˆœ ์ŠคํŽ ๋ง ๋งค์นญ์ด ์•„๋‹ˆ๋ผ, ๋‘ ๊ธฐ์—…์˜ ์„ค๋ช…์ด๋‚˜ ์œ„์น˜ ์ •๋ณด๋ฅผ ๋ณด๊ณ  **โ€œ๊ฐ™์€ ์‹ค์ฒด(Entity)์ด๋‹คโ€**๋ผ๊ณ  ์˜๋ฏธ์ ์œผ๋กœ ํŒ๋‹จํ•ฉ๋‹ˆ๋‹ค (Entity Matching).
  3. Data Enrichment (๋ณด๊ฐ• - ์–‘๋…ํ•˜๊ธฐ)
    • ๊ณผ์ •: ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ๊ฐ€ ์—†๋Š” ๋ฐ์ดํ„ฐ์— ํƒœ๊ทธ๋ฅผ ๋‹ฌ๊ฑฐ๋‚˜, ์„ค๋ช…์„ ๋ง๋ถ™์ž…๋‹ˆ๋‹ค.
    • LLM ์—ญํ• : ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜์—ฌ ์ž๋™์œผ๋กœ ์š”์•ฝ๋ณธ์„ ๋งŒ๋“ค๊ฑฐ๋‚˜ ๋น ์ง„ ์˜๋ฏธ๋ฅผ ์ฑ„์›Œ ๋„ฃ์Šต๋‹ˆ๋‹ค.

๐Ÿง  ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฐ ๊ธฐ๋ฒ•

์ด ๋…ผ๋ฌธ์€ ๋‹จ์ผ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋ณด๋‹ค๋Š” ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง ์ „๋žต์„ ํ•ต์‹ฌ ๊ธฐ๋ฒ•์œผ๋กœ ๋‹ค๋ฃน๋‹ˆ๋‹ค.

  • Prompt-Based End-to-End Standardization:
    • ์‚ฌ์šฉ์ž๊ฐ€ โ€œ๋‚ ์งœ๋ฅผ YYYYMMDD๋กœ ๋ฐ”๊ฟ”โ€๋ผ๊ณ  ๋ช…๋ น์–ด(Instruction)์™€ ์˜ˆ์‹œ(In-context example)๋ฅผ ํ•จ๊ป˜ ์ฃผ๋ฉด, LLM์ด ์ด๋ฅผ ์ฐธ์กฐํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. (์˜ˆ: LLM-GDO ๋ชจ๋ธ ๋ฐฉ์‹)
  • Reasoning-Enhanced Batch Processing:
    • ๋ฐ์ดํ„ฐ๋ฅผ ํ•˜๋‚˜์”ฉ ์ฒ˜๋ฆฌํ•˜์ง€ ์•Š๊ณ  ํ•œ๊บผ๋ฒˆ์—(Batch) ๋ณด์—ฌ์ฃผ๋˜, โ€œ์ƒ๊ฐํ•˜๋Š” ๊ณผ์ •(Chain-of-Thought)โ€œ์„ ํ”„๋กฌํ”„ํŠธ์— ํฌํ•จ์‹œ์ผœ ์˜ค๋ฅ˜(Hallucination)๋ฅผ ์ค„์ด๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. (์˜ˆ: LLM-Preprocessor)

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์ฃผ์˜: ์ด ๋…ผ๋ฌธ์€ **Survey(์กฐ์‚ฌ ๋…ผ๋ฌธ)**์ด๋ฏ€๋กœ, ํŠน์ • ๋ชจ๋ธ ํ•˜๋‚˜์˜ ์„ฑ์ ํ‘œ๊ฐ€ ์žˆ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์ˆ˜๋ฐฑ ๊ฐœ์˜ ๋…ผ๋ฌธ์—์„œ ๋ฐœ๊ฒฌ๋œ **ํ†ต์ฐฐ(Insights)**์„ ์ •๋ฆฌํ•œ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค.

๐Ÿ” ์ฃผ์š” ๋ฒค์น˜๋งˆํฌ ๋ฐ ์„ฑ๊ณผ

  • ๋ฒค์น˜๋งˆํฌ: ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ(์ „์ž์ƒ๊ฑฐ๋ž˜, ๊ธˆ์œต, ์˜๋ฃŒ ๋“ฑ)์˜ Dirty Dataset๊ณผ ๊ธฐ์กด ๋ฐ์ดํ„ฐ ์ •์ œ ํˆด๋“ค์ด ์‚ฌ์šฉํ•˜๋Š” Entity Matching ํ‘œ์ค€ ๋ฐ์ดํ„ฐ์…‹๋“ค์„ ๋Œ€์ƒ์œผ๋กœ ์ˆ˜ํ–‰๋œ ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์„ ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์„ฑ๊ณผ ๋ถ„์„:
    • ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ (Generalization): ๊ธฐ์กด์˜ ์‚ฌ์ „ ํ•™์Šต๋œ ์–ธ์–ด ๋ชจ๋ธ(Pretrained LMs)์€ ํŠน์ • ๋„๋ฉ”์ธ ๋ฐ์ดํ„ฐ์—๋งŒ ์ž˜ ๋งž์ถฐ์ ธ ์žˆ์–ด(OOD, Out-of-Distribution) ๋ฐ์ดํ„ฐ๊ฐ€ ์กฐ๊ธˆ๋งŒ ๋‹ฌ๋ผ์ง€๋ฉด ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ๋–จ์–ด์กŒ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, ์ตœ์‹  LLM๋“ค์€ ๋„๋ฉ”์ธ ์ง€์‹์ด ์—†๋”๋ผ๋„ **๊ฐ•๋ ฅํ•œ ์˜๋ฏธ ์ดํ•ด ๋Šฅ๋ ฅ(Semantic Understanding)**์„ ๋ฐ”ํƒ•์œผ๋กœ ๋ฐ์ดํ„ฐ์˜ ๊ด€๊ณ„๋ฅผ ์ฐพ์•„๋‚ด๋Š” ๋ฐ ์žˆ์–ด **๊ฐ•๊ฑดํ•œ ์„ฑ๋Šฅ(Robust Performance)**์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
    • ํšจ์œจ์„ฑ: โ€œReasoning-Enhanced Batch Promptingโ€ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋ฉด, ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ์ •ํ™•๋„๋ฅผ ๋†’์ด๋Š” ๋™์‹œ์— ํ•œ ๋ฒˆ์— ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฌถ์–ด ์ฒ˜๋ฆฌํ•˜์—ฌ API ํ˜ธ์ถœ ๋น„์šฉ๊ณผ ์‹œ๊ฐ„์„ ์ ˆ์•ฝํ•  ์ˆ˜ ์žˆ์Œ์ด ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    • ์ˆ˜์ž‘์—… ๊ฐ์†Œ: ์ „๋ฌธ๊ฐ€๊ฐ€ ์ง์ ‘ ๊ทœ์น™์„ ์ฝ”๋”ฉํ•˜๋˜ ๋ฐฉ์‹๋ณด๋‹ค ์ž์—ฐ์–ด ๋ช…๋ น๋งŒ์œผ๋กœ๋„ 80% ์ด์ƒ์˜ ์ •์ œ ์ž‘์—…์„ ์ž๋™ํ™”ํ•  ์ˆ˜ ์žˆ์–ด, ์ธ๊ฑด๋น„์™€ ์‹œ๊ฐ„์„ ํš๊ธฐ์ ์œผ๋กœ ์ค„์˜€๋‹ค๊ณ  ๋ณด๊ณ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

๐Ÿ›‘ ์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„์ 

  1. ํ• ๋ฃจ์‹œ๋„ค์ด์…˜ (Hallucination): LLM์€ ๊ฐ€๋” ์กด์žฌํ•˜์ง€ ์•Š๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๊ทธ๋Ÿด๋“ฏํ•˜๊ฒŒ ์ง€์–ด๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ์ •์ œ ๊ณผ์ •์—์„œ ์›๋ณธ ๋ฐ์ดํ„ฐ๋ฅผ ์—‰๋šฑํ•˜๊ฒŒ ์ˆ˜์ •ํ•˜๋ฉด ์น˜๋ช…์ ์ž…๋‹ˆ๋‹ค.
  2. ๋น„์šฉ ๋ฐ ์†๋„: ๋ฐ์ดํ„ฐ๊ฐ€ ์ˆ˜์ฒœ๋งŒ ๊ฑด ์ด์ƒ์ผ ๊ฒฝ์šฐ, LLM์„ ํ˜ธ์ถœํ•˜๋Š” ๋ฐ ๋“œ๋Š” ๋น„์šฉ๊ณผ ์‹œ๊ฐ„์ด ๊ธฐ์กด ๊ทœ์น™ ๊ธฐ๋ฐ˜ ๋ฐฉ์‹๋ณด๋‹ค ํ›จ์”ฌ ๋น„์Œ€ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  3. ํ”„๋ผ์ด๋ฒ„์‹œ: ๊ธฐ์—…์˜ ๋ฏผ๊ฐํ•œ ๋ฐ์ดํ„ฐ๋ฅผ LLM์— ์ž…๋ ฅํ•˜์—ฌ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋ณด์•ˆ ์ด์Šˆ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿš€ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  • Agentic Workflows (์—์ด์ „ํŠธ ์›Œํฌํ”Œ๋กœ์šฐ): LLM์ด ๋‹จ์ˆœํžˆ ๋‹ต๋ณ€๋งŒ ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๊ฒ€์ƒ‰ ๋„๊ตฌ(SQL ์ฟผ๋ฆฌ ๋“ฑ)๋ฅผ ์‚ฌ์šฉํ•˜๊ฑฐ๋‚˜ ์ฝ”๋“œ๋ฅผ ์‹คํ–‰ํ•˜์—ฌ ์Šค์Šค๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฒ€์ฆํ•˜๊ณ  ์ˆ˜์ •ํ•˜๋Š” ์ž์œจ์ ์ธ ์—์ด์ „ํŠธ(Agent) ํ˜•ํƒœ๋กœ ๋ฐœ์ „ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
  • ์†Œํ˜• ๋ชจ๋ธ ๋ฐ ํšจ์œจํ™”: ๊ฑฐ๋Œ€ํ•œ ๋ชจ๋ธ ๋Œ€์‹ , ๋ฐ์ดํ„ฐ ์ •์ œ ํŠนํ™”์— ์ตœ์ ํ™”๋œ ์ž‘๊ณ  ํšจ์œจ์ ์ธ ๋ชจ๋ธ(SLM)์„ ์—ฐ๊ตฌํ•˜์—ฌ ๋น„์šฉ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

๐Ÿข ์–ด๋””์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ๊ฐ€?

  • BI(๋น„์ฆˆ๋‹ˆ์Šค ์ธํ…”๋ฆฌ์ „์Šค) ๋Œ€์‹œ๋ณด๋“œ ๊ตฌ์ถ•: ์„œ๋กœ ๋‹ค๋ฅธ ํ˜•์‹์˜ ์—‘์…€ ํŒŒ์ผ๋“ค์ด ์„ž์—ฌ ์žˆ์„ ๋•Œ, ์ด๋ฅผ ํ•˜๋‚˜๋กœ ํ†ตํ•ฉํ•˜์—ฌ ๋ถ„์„ ๊ฐ€๋Šฅํ•œ ํ˜•ํƒœ๋กœ ๋งŒ๋“œ๋Š” ETL(์ถ”์ถœ, ๋ณ€ํ™˜, ์ ์žฌ) ํŒŒ์ดํ”„๋ผ์ธ์˜ ์ฒซ ๋‹จ๊ณ„์— ์ฆ‰์‹œ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
  • ๋งˆ์ด๊ทธ๋ ˆ์ด์…˜ ์‹œ์Šคํ…œ: ๋ ˆ๊ฑฐ์‹œ ์‹œ์Šคํ…œ(์˜›๋‚  ๋ฐฉ์‹)์—์„œ ํ˜„๋Œ€์ ์ธ ์‹œ์Šคํ…œ์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์˜ฎ๊ธธ ๋•Œ, ๋ฐ์ดํ„ฐ ํฌ๋งท์„ ์ž๋™์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์ž‘์—…์— ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • ๊ณ ๊ฐ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ(CDP): ์ด๋ฆ„์ด ๋‹ค๋ฅด๊ฒŒ ๊ธฐ๋ก๋œ ๊ณ ๊ฐ(ํ™๊ธธ๋™ vs ๊ธธ๋™ ํ™)์„ ํ•˜๋‚˜๋กœ ๋ฌถ๋Š” ๊ณ ๊ฐ 360๋„ ๋ทฐ ๊ตฌ์ถ• ์ž‘์—…์— ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.

๐Ÿ’ป ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

  • ํ•˜๋“œ์›จ์–ด: ๋กœ์ปฌ์—์„œ LLM์„ ๋Œ๋ฆฌ๋ ค๋ฉด ๊ณ ์‚ฌ์–‘ GPU(์˜ˆ: A100, RTX 4090)๊ฐ€ ํ•„์š”ํ•˜์ง€๋งŒ, **API ๋ฐฉ์‹(OpenAI, Claude ๋“ฑ)**์„ ์‚ฌ์šฉํ•˜๋ฉด ๋ณ„๋„์˜ GPU ์—†์ด ์ผ๋ฐ˜ ๊ฐœ๋ฐœ์šฉ ๋…ธํŠธ๋ถ์œผ๋กœ๋„ ๋ฐ”๋กœ ๊ฐœ๋ฐœ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ: ํ”„๋กฌํ”„ํŠธ ํŠœ๋‹์„ ์œ„ํ•œ ์†Œ๋Ÿ‰์˜ ์˜ˆ์ œ ๋ฐ์ดํ„ฐ(์˜ˆ: ์ •์ œ ์ „๊ณผ ํ›„์˜ ์Œ)๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ: LangChain, LlamaIndex์™€ ๊ฐ™์€ LLM ์—ฐ๋™ ํ”„๋ ˆ์ž„์›Œํฌ์™€ Pandas/SQL ๊ฐ™์€ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋„๊ตฌ๊ฐ€ ๊ธฐ๋ณธ์ ์œผ๋กœ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. LLM (Large Language Model): ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ๋กœ ํ•™์Šตํ•˜์—ฌ ์ž์—ฐ์–ด๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•˜๋Š” AI ๋ชจ๋ธ(์˜ˆ: GPT-4, Llama).
  2. Prompt Engineering: LLM์ด ์›ํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋‚ด๋„๋ก ์ž…๋ ฅํ•˜๋Š” ๋ช…๋ น์–ด๋‚˜ ์งˆ๋ฌธ์„ ์ตœ์ ํ™”ํ•˜๋Š” ๊ธฐ์ˆ .
  3. Data Cleaning (๋ฐ์ดํ„ฐ ์ •์ œ): ๋ฐ์ดํ„ฐ์— ํฌํ•จ๋œ ์˜ค๋ฅ˜, ์žก์Œ, ์ค‘๋ณต์„ ์ œ๊ฑฐํ•˜์—ฌ ํ’ˆ์งˆ์„ ๋†’์ด๋Š” ๊ณผ์ •.
  4. Entity Resolution (์—”ํ‹ฐํ‹ฐ ํ•ด๊ฒฐ/๋งค์นญ): ์„œ๋กœ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ ์†Œ์Šค์—์„œ โ€œ์„œ์šธํŠน๋ณ„์‹œโ€์™€ โ€œSeoulโ€์ด ๊ฐ™์€ ๋Œ€์ƒ์„ ๊ฐ€๋ฆฌํ‚ค๋Š”์ง€ ์‹๋ณ„ํ•˜์—ฌ ํ†ตํ•ฉํ•˜๋Š” ๊ธฐ์ˆ .
  5. In-Context Learning (๋ฌธ๋งฅ ๋‚ด ํ•™์Šต): ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์žฌํ•™์Šต์‹œํ‚ค์ง€ ์•Š๊ณ , ํ”„๋กฌํ”„ํŠธ์— ์˜ˆ์‹œ๋ฅผ ๋ณด์—ฌ์คŒ์œผ๋กœ์จ ๋ชจ๋ธ์ด ๋ฌธ์ œ๋ฅผ ํ’€๊ฒŒ ํ•˜๋Š” ๋ฐฉ์‹.
  6. Few-Shot Learning: ๋‹จ ๋ช‡ ๊ฐœ์˜ ์˜ˆ์‹œ๋งŒ ์ฃผ์–ด๋„ ๋ชจ๋ธ์ด ํŒจํ„ด์„ ํ•™์Šตํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋Šฅ๋ ฅ.
  7. Semantic Understanding (์˜๋ฏธ์  ์ดํ•ด): ๋‹จ์–ด์˜ ํ‘œ๋ฉด์  ํ˜•ํƒœ๊ฐ€ ์•„๋‹ˆ๋ผ, ๊ทธ ๋‹จ์–ด๊ฐ€ ๋‚ดํฌํ•˜๋Š” ๋œป๊ณผ ๋ฌธ๋งฅ์„ ์ดํ•ดํ•˜๋Š” ๋Šฅ๋ ฅ.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Can LLMs Clean Up Your Mess? A Survโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐ŸฅˆLongCat-Flash-Thinking-2601 Technicโ€ฆDD-002
๐Ÿฅ‰Idea2Story: An Automated Pipeline fโ€ฆDD-003
4.daVinci-Dev: Agent-native Mid-trainโ€ฆDD-004
5.AgentDoG: A Diagnostic Guardrail Frโ€ฆDD-005

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-02 | ๐Ÿค– GLM-4.7 Deep Dive