โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-027 SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise

arXiv: 2602.12783 Upvotes: 140 | Comments: 4 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 2


SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์€ ์Œ์„ฑ ์ธ์‹(ASR) ์„ฑ๋Šฅ๊ณผ ํ…์ŠคํŠธ ๊ฒ€์ƒ‰(IR) ์„ฑ๋Šฅ์„ ๋”ฐ๋กœ๋”ฐ๋กœ ํ‰๊ฐ€ํ•˜์—ฌ, ์‹ค์ œ ์‹œ๋„๋Ÿฌ์šด ํ™˜๊ฒฝ์—์„œ ์Œ์„ฑ ์งˆ์˜๊ฐ€ ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ์— ๋ฏธ์น˜๋Š” ์•…์˜ํ–ฅ์„ ์ œ๋Œ€๋กœ ์ธก์ •ํ•˜์ง€ ๋ชปํ–ˆ๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์‹ค์ œ ํ™˜๊ฒฝ์˜ ์†Œ์Œ์„ ์กฐ์ ˆํ•˜์—ฌ ์ธ์œ„์ ์œผ๋กœ ์ƒ์„ฑํ•œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹(SQuTR)์„ ํ†ตํ•ด, ์Œ์„ฑ ์งˆ์˜ ๊ฒ€์ƒ‰ ์‹œ์Šคํ…œ์˜ ์ „์ฒด์ ์ธ ๊ฒฌ๊ณ ํ•จ์„ ํ†ต์ผ๋œ ๊ธฐ์ค€์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ๊ธธ์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์†Œ๋ž€ํ•œ ์‹๋‹น์—์„œ์˜ ์ฃผ๋ฌธ ๋น„์œ 

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์„ ์ดํ•ดํ•˜๋ ค๋ฉด ์†Œ๋ž€ํ•œ ์‹๋‹น์„ ์ƒ๊ฐํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ํ‰๊ฐ€ ๋ฐฉ์‹์€ ๋งˆ์น˜ ์กฐ์šฉํ•œ ๋ฐฉ์—์„œ ์›จ์ดํ„ฐ์˜ ์ฒญ๋ ฅ ํ…Œ์ŠคํŠธ์™€ ์ฃผ๋ฐฉ์žฅ์˜ ์š”๋ฆฌ ์‹ค๋ ฅ์„ ๋”ฐ๋กœ ๊ฒ€์‚ฌํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ํ˜„์‹ค์€ ์†Œ์Œ์ด ์‹ฌํ•œ ์‹๋‹น๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์›จ์ดํ„ฐ(์Œ์„ฑ ์ธ์‹ ๋ชจ๋ธ)๊ฐ€ ์†๋‹˜์˜ ์ฃผ๋ฌธ(์งˆ์˜)์„ ์ž˜๋ชป ์•Œ์•„๋“ฃ๊ณ , ๊ทธ ์ž˜๋ชป๋œ ์ •๋ณด๋ฅผ ์ฃผ๋ฐฉ์žฅ(๊ฒ€์ƒ‰ ๋ชจ๋ธ)์—๊ฒŒ ์ „๋‹ฌํ•˜๋ฉด, ์ฃผ๋ฐฉ์žฅ์ด ์•„๋ฌด๋ฆฌ ์š”๋ฆฌ๋ฅผ ์ž˜ํ•ด๋„ ์—‰๋šฑํ•œ ์š”๋ฆฌ(์˜ค๋‹ต)๊ฐ€ ๋‚˜์˜ต๋‹ˆ๋‹ค. SQuTR์€ ์ด์ฒ˜๋Ÿผ โ€˜์›จ์ดํ„ฐ๊ฐ€ ์†Œ์Œ ๋•Œ๋ฌธ์— ์ฃผ๋ฌธ์„ ์ž˜๋ชป ์•Œ์•„๋“ค์„ ๋•Œ, ์ฃผ๋ฐฉ์žฅ์ด ์˜ฌ๋ฐ”๋ฅธ ์š”๋ฆฌ๋ฅผ ๋‚ด๋†“์„ ์ˆ˜ ์žˆ๋Š”์ง€โ€™๋ฅผ ํ†ต์งธ๋กœ ํ…Œ์ŠคํŠธํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ๊ณผ์ •

SQuTR ๋ฒค์น˜๋งˆํฌ๋Š” ํฌ๊ฒŒ ์„ธ ๊ฐ€์ง€ ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์ฒซ์งธ, ๋‹ค์–‘ํ•œ ์ฃผ์ œ(์œ„ํ‚ค๋ฐฑ๊ณผ, ๊ธˆ์œต, ์˜ํ•™ ๋“ฑ)์˜ ํ…์ŠคํŠธ ์งˆ์˜๋ฅผ ์ˆ˜์ง‘ํ•ฉ๋‹ˆ๋‹ค. ๋‘˜์งธ, ์ด ํ…์ŠคํŠธ๋ฅผ 200๋ช…์˜ ์‹ค์ œ ํ™”์ž ๋ชฉ์†Œ๋ฆฌ ํ”„๋กœํ•„์„ ์‚ฌ์šฉํ•ด ์Œ์„ฑ์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์…‹์งธ, ์—ฌ๊ธฐ์— ์ง€ํ•˜์ฒ , ์นดํŽ˜, ๊ฑฐ๋ฆฌ ๋“ฑ 17๊ฐ€์ง€ ์‹ค์ œ ํ™˜๊ฒฝ ์†Œ์Œ์„ ์„ž์Šต๋‹ˆ๋‹ค. ์ด๋•Œ ์†Œ์Œ์˜ ํฌ๊ธฐ์ธ ์‹ ํ˜ธ ๋Œ€ ์žก์Œ๋น„(SNR)๋ฅผ ์กฐ์ ˆํ•˜์—ฌ ๊นจ๋—ํ•œ ์ƒํƒœ๋ถ€ํ„ฐ ๋งค์šฐ ์‹œ๋„๋Ÿฌ์šด ์ƒํƒœ๊นŒ์ง€ ๋‹จ๊ณ„์ ์œผ๋กœ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฐ ํ‰๊ฐ€ ์ง€ํ‘œ

์ด ๋…ผ๋ฌธ์€ ์ƒˆ๋กœ์šด ๋ณต์žกํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ œ์•ˆํ•˜๊ธฐ๋ณด๋‹ค๋Š”, ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ตฌ์ถ•ํ•˜๋Š” ๋ฐ ์ง‘์ค‘ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฃผ์š”ํ•˜๊ฒŒ ์‚ฌ์šฉ๋˜๋Š” ๊ฐœ๋…์€ SNR(Signal-to-Noise Ratio)์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด SNR์ด 20dB(Decibel)์ด๋ผ๋ฉด ๋ชฉ์†Œ๋ฆฌ๊ฐ€ ์†Œ์Œ๋ณด๋‹ค 100๋ฐฐ ๋” ํฌ๋‹ค๋Š” ๋œป์œผ๋กœ relatively ์กฐ์šฉํ•œ ์ƒํƒœ๋ฅผ, 0dB์ด๋ผ๋ฉด ๋ชฉ์†Œ๋ฆฌ์™€ ์†Œ์Œ ํฌ๊ธฐ๊ฐ€ ๋น„์Šทํ•˜์—ฌ ์•Œ์•„๋“ฃ๊ธฐ ๋งค์šฐ ํž˜๋“  ์ƒํƒœ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์ด ์กฐ๊ฑดไธ‹็š„์—์„œ ์‹œ์Šคํ…œ์˜ nDCG(normalized Discounted Cumulative Gain)์™€ MRR(Mean Reciprocal Rank) ์ ์ˆ˜๊ฐ€ ์–ผ๋งˆ๋‚˜ ๋–จ์–ด์ง€๋Š”์ง€๋ฅผ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

ํ…Œ์ŠคํŠธ ๋ฒค์น˜๋งˆํฌ

์—ฐ๊ตฌ์ง„์€ ์˜์–ด์™€ ์ค‘๊ตญ์–ด ํ…์ŠคํŠธ ๊ฒ€์ƒ‰ ๋ฐ์ดํ„ฐ์…‹ 6๊ฐœ(Natural Questions, HotpotQA, FiQA, DuRetrieval ๋“ฑ)๋ฅผ ์‚ฌ์šฉํ•ด SQuTR์„ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹๋“ค์€ ๋„๋ฉ”์ธ(๋ฐฑ๊ณผ์‚ฌ์ „, ๊ธˆ์œต, ์˜ํ•™ ๋“ฑ)๊ณผ ์งˆ์˜ ๊ธธ์ด๊ฐ€ ๋‹ค์–‘ํ•˜์—ฌ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ…Œ์ŠคํŠธํ•˜๊ธฐ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

์†Œ์Œ์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ ํ•˜๋ฝ ์ˆ˜์น˜

์‹คํ—˜ ๊ฒฐ๊ณผ, ์†Œ์Œ์ด ์ฆ๊ฐ€ํ• ์ˆ˜๋ก ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ๋–จ์–ด์ง€๋Š” ๊ฒƒ์ด ๋ช…ํ™•ํžˆ ๋“œ๋Ÿฌ๋‚ฌ์Šต๋‹ˆ๋‹ค. ์Œ์„ฑ ์ธ์‹ ๋‹จ๊ณ„์—์„œ Word Error Rate(WER)๋ฅผ ๋ณด๋ฉด, ์˜์–ด์˜ ๊ฒฝ์šฐ Clean(์†Œ์Œ ์—†์Œ)์ผ ๋•Œ 3.33%์˜€์œผ๋‚˜ High Noise(0dB)์—์„œ๋Š” 7.75%๋กœ 2๋ฐฐ ์ด์ƒ ์ฆ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ค‘๊ตญ์–ด์˜ ๊ฒฝ์šฐ์—๋„ CER(Character Error Rate)์ด 2.71%์—์„œ 7.14%๋กœ ์น˜์†Ÿ์•˜์Šต๋‹ˆ๋‹ค.

๊ฒ€์ƒ‰ ์„ฑ๋Šฅ ํ•˜๋ฝ (nDCG@10)

์Œ์„ฑ ์ธ์‹ ์˜ค๋ฅ˜๊ฐ€ ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ๋กœ ์ด์–ด์ง€๋Š” ํ˜„์ƒ๋„ ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์–ด๋–ค ๋ชจ๋ธ์€ Clean ์ƒํƒœ์—์„œ nDCG@10 ์ ์ˆ˜๊ฐ€ ์•ฝ 0.55์˜€์œผ๋‚˜, High Noise ์ƒํƒœ์—์„œ๋Š” ์•ฝ 0.48 ์ˆ˜์ค€์œผ๋กœ ๋–จ์–ด์กŒ์Šต๋‹ˆ๋‹ค. ํฅ๋ฏธ๋กœ์šด ์ ์€ ์•„๋‚ ๋กœ๊ทธ ์‹ ํ˜ธ๋ฅผ ํ…์ŠคํŠธ๋กœ ๋ณ€ํ™˜ํ•œ ๋’ค ๊ฒ€์ƒ‰ํ•˜๋Š” ๊ณ„๋‹จ์‹(Cascaded) ์‹œ์Šคํ…œ๋ณด๋‹ค, ์˜ค๋””์˜ค๋ฅผ ๋ฐ”๋กœ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•ด ๊ฒ€์ƒ‰ํ•˜๋Š” ๋‹จ์ผ ๋‹จ๊ณ„(End-to-End) ๋ชจ๋ธ์ด ์†Œ์Œ ํ™˜๊ฒฝ์—์„œ ์กฐ๊ธˆ ๋” ๊ฐ•์ธํ•œ ๊ฒฝํ–ฅ์„ ๋ณด์˜€๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„

ํ˜„์žฌ SQuTR๋Š” ์‹ค์ œ ์‚ฌ์šฉ์ž๊ฐ€ ๋…น์Œํ•œ ์Œ์„ฑ์ด ์•„๋‹ˆ๋ผ, ํ…์ŠคํŠธ๋ฅผ TTS(Text-to-Speech) ์—”์ง„์œผ๋กœ ์ฝ๊ฒŒ ํ•œ ํ•ฉ์„ฑ ์Œ์„ฑ(Synthesized Speech)์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ ์Œ์„ฑ์—๋Š” ๋ง๋”๋“ฌ, ๊ตฐ๋”๋”๊ธฐ, ๊ฐ์ • ๋ณ€ํ™” ๋“ฑ์ด ํฌํ•จ๋˜์ง€๋งŒ ํ•ฉ์„ฑ ์Œ์„ฑ์€ ์ด๋ฅผ ์™„๋ฒฝํžˆ ์žฌํ˜„ํ•˜์ง€ ๋ชปํ•ด ํ˜„์‹ค๊ฐ์ด ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅ์„ฑ

ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ์‹ค์ œ ํ•„๋“œ ํ™˜๊ฒฝ์—์„œ ์ˆ˜์ง‘ํ•œ ์ž์—ฐ์Šค๋Ÿฌ์šด ์‚ฌ์šฉ์ž ์Œ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ™•์žฅํ•  ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํ˜„์žฌ๋Š” ์˜์–ด์™€ ์ค‘๊ตญ์–ด์—๋งŒ ์ง‘์ค‘๋˜์–ด ์žˆ์œผ๋ฏ€๋กœ, ํ•œ๊ตญ์–ด๋ฅผ ํฌํ•จํ•œ ๋‹ค์–ธ์–ด ๋‹ค๊ตญ์–ด ํ™˜๊ฒฝ์œผ๋กœ์˜ ํ™•์žฅ๋„ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์–ด๋””์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅ?

์ด ๋ฒค์น˜๋งˆํฌ๋Š” ์Œ์„ฑ ๋น„์„œ(Siri, Bixby ๋“ฑ), ์ฐจ๋Ÿ‰ ๋‚ด๋น„๊ฒŒ์ด์…˜ ์‹œ์Šคํ…œ, ์Šค๋งˆํŠธ ํ™ˆ ๊ธฐ๊ธฐ ๊ฐœ๋ฐœํŒ€์— ์ฆ‰์‹œ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ œํ’ˆ ์ถœ์‹œ ์ „์— โ€œ์‹œ๋„๋Ÿฌ์šด ์ง€ํ•˜์ฒ ์ด๋‚˜ ์šด์ „ ์ค‘โ€์— ์ œํ’ˆ์ด ์–ผ๋งˆ๋‚˜ ์ž˜ ์ž‘๋™ํ•˜๋Š”์ง€ ํ’ˆ์งˆ ๊ฒ€์ฆ(QA)ํ•˜๋Š” ํ‘œ์ค€ ๊ฐ€์ด๋“œ๋ผ์ธ์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

์ด ๋ฒค์น˜๋งˆํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ์žฌํ•™์Šตํ•˜๊ฑฐ๋‚˜ ํ‰๊ฐ€ํ•˜๋ ค๋ฉด ์ƒ๋‹นํ•œ ์—ฐ์‚ฐ ์ž์›์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋Œ€์šฉ๋Ÿ‰ ์˜ค๋””์˜ค ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ GPU์™€ ํ…์ŠคํŠธ ๊ฒ€์ƒ‰์„ ์œ„ํ•œ ๊ณ ์‚ฌ์–‘ ๋ฉ”๋ชจ๋ฆฌ(RAM)๊ฐ€ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค. ๋‹ค๋งŒ, ์ด๋ฏธ ํ•™์Šต๋œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ…Œ์ŠคํŠธ๋งŒ ํ•˜๋Š” ๋‹จ๊ณ„๋ผ๋ฉด ์ผ๋ฐ˜์ ์ธ ํด๋ผ์šฐ๋“œ ์ธ์Šคํ„ด์Šค๋‚˜ ๋‹จ์ผ ๊ณ ์‚ฌ์–‘ ์›Œํฌ์Šคํ…Œ์ด์…˜์—์„œ๋„ ์ถฉ๋ถ„ํžˆ ์ˆ˜ํ–‰ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • Automatic Speech Recognition (ASR): ์‚ฌ๋žŒ์˜ ์Œ์„ฑ์„ ์ปดํ“จํ„ฐ๊ฐ€ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.
  • Information Retrieval (IR): ์‚ฌ์šฉ์ž์˜ ์งˆ๋ฌธ(Query)์— ๊ฐ€์žฅ ์ ํ•ฉํ•œ ๋ฌธ์„œ(Document)๋ฅผ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์—์„œ ์ฐพ์•„๋‚ด๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.
  • Signal-to-Noise Ratio (SNR): ์‹ ํ˜ธ์˜ ์„ธ๊ธฐ์™€ ์žก์Œ์˜ ์„ธ๊ธฐ์˜ ๋น„์œจ์„ ๋œปํ•˜๋ฉฐ, ์†Œ์Œ ํ™˜๊ฒฝ์˜ ์ฒญ๋„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๋‹จ์œ„์ž…๋‹ˆ๋‹ค.
  • Word Error Rate (WER): ์Œ์„ฑ ์ธ์‹ ์‹œ์Šคํ…œ์ด ํ…์ŠคํŠธ๋ฅผ ์ž˜๋ชป ์ธ์‹ํ•œ ๋น„์œจ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์ง€ํ‘œ๋กœ, ๋‚ฎ์„์ˆ˜๋ก ์„ฑ๋Šฅ์ด ์ข‹์Šต๋‹ˆ๋‹ค.
  • nDCG (normalized Discounted Cumulative Gain): ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ์˜ ์ˆœ์œ„ ํ’ˆ์งˆ์„ ์ธก์ •ํ•˜๋Š” ์ง€ํ‘œ๋กœ, ๊ด€๋ จ ์žˆ๋Š” ๋ฌธ์„œ๊ฐ€ ์ƒ์œ„์— ์œ„์น˜ํ• ์ˆ˜๋ก ๋†’์€ ์ ์ˆ˜๋ฅผ ๋ฐ›์Šต๋‹ˆ๋‹ค.
  • Cascaded vs. End-to-End: Cascaded๋Š” ASR๊ณผ ๊ฒ€์ƒ‰ ๋ชจ๋ธ์ด ์ˆœ์ฐจ์ ์œผ๋กœ ์ž‘๋™ํ•˜๋Š” ๋ฐฉ์‹, End-to-End๋Š” ์ž…๋ ฅ ์˜ค๋””์˜ค์—์„œ ๋ฐ”๋กœ ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ๋ฅผ ๋‚ด๋Š” ํ†ตํ•ฉ๋œ ๋ฐฉ์‹์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • Text-to-Speech (TTS): ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ๋žŒ์˜ ๋ชฉ์†Œ๋ฆฌ์™€ ๊ฐ™์€ ์Œ์„ฑ ์‹ ํ˜ธ๋กœ ๋ณ€ํ™˜ํ•ด์ฃผ๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Less is Enough: Synthesizing Diversโ€ฆDD-026
๐ŸฅˆSQuTR: A Robustness Benchmark for Sโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐Ÿฅ‰GLM-5: from Vibe Coding to Agentic โ€ฆDD-028
4.Experiential Reinforcement LearningDD-029
5.MedXIAOHE: A Comprehensive Recipe fโ€ฆDD-030

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-02-22 | ๐Ÿค– GLM-4.7 Deep Dive