Midjourney나 Stable Diffusion에 문장 하나를 넣으면 몇 초 만에 그림이 나옵니다. 이 뒤에서 돌아가는 기술이 확산 모델(Diffusion Model)입니다. 이 글은 확산 모델이 노이즈에서 이미지를 만들어내는 원리를 초보자 눈높이에서 풀고, GAN·자기회귀 모델과의 차이, 그리고 2026년 들어 텍스트 생성까지 번진 최신 흐름을 정리합니다. 필자는 다국적 금융기관에서 20년 가까이 IT 보안·컴플라이언스를 운영해 왔는데, 요즘은 이 기술을 “신기한 그림 도구”가 아니라 eKYC 위조 신분증 같은 보안 리스크의 출발점으로 먼저 보게 됩니다. 그 관점까지 포함해서 다루겠습니다.
1. 확산 모델(Diffusion Model)의 개념과 등장 배경
확산 모델의 정의: 노이즈를 배우는 생성 모델
확산 모델은 생성 모델(Generative Model)의 한 종류입니다. 생성 모델이란 학습한 데이터의 분포를 흉내 내어 “그럴듯한 새 데이터”를 만들어내는 모델을 말합니다. 사람 얼굴 사진 수백만 장을 학습하면, 세상에 없는 새로운 얼굴을 그려낼 수 있는 식입니다.
확산 모델의 학습 방식은 단순하게 요약하면 이렇습니다. 멀쩡한 이미지에 노이즈(noise, 화면의 지지직거리는 점들)를 조금씩 섞어 완전히 망가뜨린 뒤, 그 과정을 거꾸로 되돌리는 법을 배우는 것입니다. “망가뜨리는 법”은 수학적으로 정해져 있으니, 모델이 실제로 배우는 것은 “되돌리는 법”, 정확히는 “이 노이즈 낀 이미지에서 어떤 부분이 노이즈인지”를 알아맞히는 능력입니다.
이게 왜 그림 그리기가 되는지 의아할 수 있습니다. 되돌리는 능력을 충분히 배운 모델에게 순수한 노이즈 덩어리를 주면, 모델은 그것을 “원래 어떤 이미지였는데 망가진 것”으로 취급하고 한 단계씩 복원해 나갑니다. 원본이 애초에 없었으니, 복원 결과는 학습 데이터를 닮은 완전히 새로운 이미지가 됩니다. 무에서 유를 만드는 게 아니라, 노이즈 제거 능력을 생성에 전용하는 셈입니다.
‘확산’이라는 이름이 붙은 이유: 잉크 한 방울의 물리학
이름은 물리학의 확산 현상에서 왔습니다. 물컵에 잉크 한 방울을 떨어뜨리면 잉크 분자가 퍼져 나가 결국 물 전체가 균일하게 흐려집니다. 이미지에 노이즈를 조금씩 더하는 과정이 이와 닮았습니다. 또렷한 이미지(잉크 방울)가 단계를 거치며 균일한 노이즈(흐려진 물)로 퍼져 가는 것입니다.
물리학에서 확산은 자연스럽게 한 방향으로만 일어나지만, 확산 모델은 이 과정을 아주 잘게 쪼개면 각 단계를 거꾸로 추정할 수 있다는 점을 이용합니다. 잉크가 퍼지는 영상을 1,000프레임으로 쪼개 놓으면, 인접한 두 프레임 사이의 변화는 아주 작아서 “직전 프레임이 어땠을지”를 통계적으로 맞힐 수 있습니다. 이 아이디어는 2015년 Sohl-Dickstein 연구진의 논문에서 비평형 열역학에 빗대어 처음 제시됐습니다.
GAN의 한계와 DDPM의 등장
2015년에 개념이 나왔지만 한동안 주목받지 못했습니다. 당시 이미지 생성의 주류는 GAN(Generative Adversarial Network, 생성적 적대 신경망)이었습니다. GAN은 위조지폐범(생성기)과 감별사(판별기)를 경쟁시키는 구조로, 결과물이 선명한 대신 학습이 불안정하기로 악명이 높았습니다. 두 네트워크의 균형이 무너지면 같은 그림만 반복해서 내놓는 모드 붕괴(mode collapse)가 일어나고, 하이퍼파라미터를 조금만 잘못 잡아도 학습 자체가 무너졌습니다.
전환점은 2020년 구글 브레인의 DDPM(Denoising Diffusion Probabilistic Models) 논문입니다. 노이즈 예측이라는 단순한 목표 함수로 GAN급 품질을 안정적으로 뽑아낼 수 있다는 것을 보여줬고, 이후 2021~2022년 DALL·E 2, Imagen, Stable Diffusion이 연달아 나오면서 이미지 생성의 표준이 GAN에서 확산 모델로 넘어갔습니다.
2. 확산 모델의 동작 원리: 노이즈를 더하고 되돌리는 두 과정
확산 모델의 동작은 정방향 과정과 역방향 과정, 두 축으로 이뤄집니다. 학습할 때는 둘 다 쓰고, 실제로 그림을 생성할 때는 역방향만 씁니다.

정방향 과정(Forward Process): 이미지를 노이즈로 무너뜨리는 단계
정방향 과정은 학습용 이미지에 가우시안 노이즈를 수백~수천 단계에 걸쳐 조금씩 더하는 과정입니다. DDPM 원 논문 기준으로 1,000단계를 거치면 어떤 이미지든 통계적으로 순수한 노이즈와 구분할 수 없는 상태가 됩니다.
여기서 중요한 점이 둘 있습니다. 첫째, 이 과정에는 학습이 필요 없습니다. 노이즈를 얼마나 더할지는 스케줄(schedule)이라는 수식으로 미리 정해져 있습니다. 둘째, 임의의 단계로 한 번에 건너뛸 수 있습니다. 1단계부터 차례로 700번 노이즈를 더하지 않아도, “700단계만큼 망가진 이미지”를 수식 한 줄로 바로 만들 수 있습니다. 덕분에 학습 효율이 크게 올라갑니다.
역방향 과정(Reverse Process): 노이즈에서 이미지를 되살리는 단계
역방향 과정이 모델이 실제로 배우는 부분입니다. 학습은 이렇게 진행됩니다. 이미지 하나를 골라 임의의 단계(예: 412단계)만큼 노이즈를 입힌 뒤, 신경망(주로 U-Net 또는 최근에는 Transformer 기반 DiT)에게 “지금 이 이미지에 섞인 노이즈가 무엇인지”를 맞히게 합니다. 정답 노이즈는 우리가 직접 섞었으니 알고 있고, 모델의 예측과 정답의 차이를 줄이는 방향으로 가중치를 갱신합니다. 이 단순한 문제를 수억 번 반복하는 게 학습의 전부입니다.
생성할 때는 순수 노이즈에서 출발해, 모델이 예측한 노이즈를 조금씩 빼는 작업을 수십 번 반복합니다. 초기 DDPM은 1,000번을 반복해야 해서 느렸지만, DDIM 같은 샘플링 기법이 나오면서 20~50단계로 줄었고, 2024년 이후의 증류(distillation) 기법은 4단계 안팎, 일부는 1~2단계까지 줄였습니다. 요즘 서비스들이 몇 초 만에 그림을 내놓는 배경입니다.
조건부 생성(Conditioning): 텍스트 프롬프트가 그림을 조종하는 방법
여기까지만 보면 모델은 “학습 데이터를 닮은 아무 그림”을 만들 뿐입니다. “노을 지는 바닷가의 고양이”처럼 원하는 그림을 시키려면 조건(condition)을 줘야 합니다. 텍스트 프롬프트는 CLIP이나 T5 같은 텍스트 인코더를 거쳐 숫자 벡터로 바뀌고, 이 벡터가 노이즈 제거 신경망의 매 단계에 주입됩니다. 모델은 노이즈를 예측할 때마다 이 텍스트 정보를 참고하므로, 복원 방향이 프롬프트 쪽으로 계속 끌려갑니다.
실무적으로는 CFG(Classifier-Free Guidance)라는 값이 이 “끌어당기는 세기”를 조절합니다. 값을 키우면 프롬프트는 잘 따르지만 그림이 과포화되고, 줄이면 자연스럽지만 프롬프트를 흘려듣습니다. 생성 도구에서 흔히 보는 guidance scale 슬라이더가 바로 이것입니다.
잠재 확산(Latent Diffusion): Stable Diffusion이 일반 GPU에서 도는 이유
픽셀 단위로 노이즈를 다루면 계산량이 막대합니다. 1024×1024 이미지는 픽셀이 100만 개가 넘으니, 이 공간에서 수십 단계 반복 연산을 하려면 고가의 GPU가 여러 장 필요합니다. 잠재 확산 모델(Latent Diffusion Model) 논문은 이 문제를 우회했습니다. 오토인코더(VAE)로 이미지를 1/48 수준의 작은 잠재 공간(latent space)으로 압축한 뒤, 그 압축된 공간에서만 확산 과정을 돌리고, 마지막에 디코더로 픽셀 이미지를 복원하는 방식입니다.
Stable Diffusion이 바로 이 구조이고, 개인용 GPU 한 장으로 이미지 생성이 가능해진 결정적 이유입니다. 비유하자면 원본 도면 대신 축소 스케치 위에서 작업을 끝내고, 마지막에 한 번만 확대 인화하는 셈입니다.

3. 확산 모델 vs GAN vs 자기회귀 모델: 생성 방식 비교
생성 모델은 확산 모델만 있는 게 아닙니다. 세 방식의 차이를 알아두면 4장의 최신 동향과 6장의 선택 기준이 자연스럽게 이해됩니다.
| 구분 | 확산 모델(Diffusion) | GAN | 자기회귀(Autoregressive) |
|---|---|---|---|
| 생성 방식 | 노이즈를 단계적으로 제거 | 생성기·판별기 경쟁 | 토큰을 왼쪽부터 하나씩 예측 |
| 대표 분야 | 이미지·영상·음성 | 이미지(과거 주류), 초해상도 | 텍스트(GPT·Claude·Gemini) |
| 품질 | 높음, 다양성 우수 | 선명하나 다양성 부족 | 텍스트에서 최고 수준 |
| 학습 안정성 | 안정적 | 불안정(모드 붕괴) | 안정적 |
| 생성 속도 | 반복 단계만큼 느림(개선 중) | 1회 통과로 빠름 | 출력 길이에 비례해 느림 |
| 수정·편집 | 중간 단계 개입 용이(인페인팅 등) | 어려움 | 생성 후 재생성 필요 |
표에서 눈여겨볼 부분은 마지막 두 줄입니다. 확산 모델의 약점은 속도였고, 자기회귀 모델의 약점은 “한 번 뱉은 토큰을 못 고친다”는 점입니다. 2026년의 변화는 이 두 약점이 서로의 영역을 침범하면서 생겼습니다.
4. 2026년 확산 모델 동향: 그림을 넘어 텍스트(dLLM)까지
텍스트 확산 모델(dLLM): 토큰을 한꺼번에 다듬는 방식
GPT 계열 모델은 자기회귀 방식이라 토큰을 왼쪽부터 하나씩 생성합니다. 토큰 하나를 만들려면 직전 토큰이 끝나야 하니, 하드웨어가 아무리 좋아져도 속도에 구조적인 천장이 있습니다. 텍스트 확산 모델(dLLM, Diffusion Language Model)은 이미지 확산처럼 문장 전체를 가려진(masked) 상태에서 시작해, 여러 위치의 토큰을 동시에 채우고 다듬는 과정을 반복합니다.
| 모델 | 발표 | 특징 |
|---|---|---|
| Mercury (Inception Labs) | 2025년 2월 | 최초의 상용 dLLM, H100에서 1,000토큰/초 이상 |
| Gemini Diffusion (Google DeepMind) | 2025년 5월 | 실험 모델, 약 1,479토큰/초, 코딩 벤치마크에서 자기회귀 모델과 대등 |
| Mercury 2 (Inception Labs) | 2026년 초 | 확산 기반 추론(reasoning) 모델을 표방 |
| DiffusionGemma (Google) | 2026년 6월 | 26B MoE(활성 3.8B) 오픈 가중치, 256토큰 병렬 생성, 기존 대비 최대 4배 속도 |
특히 이번 달 공개된 DiffusionGemma는 Apache 2.0 라이선스의 오픈 가중치 모델이라 의미가 큽니다. 양자화 시 18GB VRAM에 들어가는 크기여서, 외부 API를 쓸 수 없는 환경에서도 직접 돌려볼 수 있는 첫 dLLM 후보가 됐습니다.
다만 현시점의 솔직한 평가도 적어두겠습니다. dLLM은 코드 생성, 번역, 분류처럼 짧고 구조적인 작업에서는 자기회귀 모델과 대등하지만, 긴 글의 일관성과 복잡한 추론에서는 아직 밀립니다. 속도가 5~10배 빨라도 품질이 5~15% 떨어지면 용도가 갈립니다.
영상·음성으로 번지는 확산 방식
영상 생성(OpenAI Sora, Google Veo 계열)도 시간 축까지 포함한 확산 방식이 표준이고, 음성 합성과 음악 생성에서도 확산 계열이 주류로 자리 잡았습니다. “노이즈에서 단계적으로 복원한다”는 한 가지 원리가 모달리티를 가리지 않고 확장되는 중입니다.
5. 금융 IT 보안 실무에서 본 확산 모델: 기회보다 먼저 보이는 위험
eKYC·AML 관점: 확산 모델이 만든 가짜 신분 이미지
필자가 다국적 금융 환경에서 보안·컴플라이언스를 운영하며 확산 모델을 처음 진지하게 들여다본 계기는 그림 도구로서가 아니라 비대면 실명확인(eKYC) 우회 수단으로서였습니다. 신분증 사진과 셀피를 제출받는 비대면 계좌 개설 절차에서, 확산 모델 기반 인페인팅으로 신분증의 얼굴·텍스트 영역만 자연스럽게 바꿔치기한 위조물은 기존의 포토샵 합성과 결이 다릅니다. 경계선 아티팩트나 조명 불일치 같은 전통적 탐지 단서가 거의 남지 않기 때문입니다.
운영 관점에서 내린 결론은 두 가지였습니다. 첫째, 이미지 단독 검증에 의존하는 eKYC 절차는 더 이상 충분한 통제가 아니며, 기기 신호·행동 데이터·공적 DB 대조 같은 비이미지 신호를 묶어야 합니다. 둘째, “AI 생성 이미지 탐지기”를 도입하더라도 탐지율을 KPI로 못 박으면 안 됩니다. 생성 모델이 분기 단위로 갱신되는 속도를 탐지 모델이 따라가지 못하는 구간이 반드시 생기기 때문입니다. 탐지기는 보조 신호로 쓰고, 절차 설계로 막는 쪽이 오래갑니다.
폐쇄망 도입 검토 시 확인할 것: 가중치 반입·라이선스·GPU
반대로 사내에서 확산 모델을 쓰고 싶다는 요구(디자인 시안, 합성 학습 데이터 생성 등)가 올라올 때도 있습니다. 외부 API 호출이 막힌 폐쇄망 환경 기준으로, 검토 단계에서 실제로 걸렸던 항목은 이렇습니다.
- 모델 가중치 반입 절차: 수 GB짜리 가중치 파일을 망간 자료 전송 절차로 들여올 때 무결성 검증(해시 대조)과 출처 증빙이 필요합니다. Hugging Face에서 받은 파일이라는 사실만으로는 보안 심의를 통과하기 어렵습니다.
- 라이선스 구분: 같은 “오픈 모델”이어도 Apache 2.0(DiffusionGemma 등)과 상용 제한이 붙는 커뮤니티 라이선스(일부 Stable Diffusion 계열)는 법무 검토 결과가 다릅니다. 가중치를 받기 전에 라이선스부터 확인하는 게 순서입니다.
- GPU 자원: 잠재 확산 덕에 추론은 24GB급 GPU 한 장으로 가능하지만, 사내 데이터로 미세조정(LoRA 포함)까지 가면 요구 사양이 한 단계 뜁니다. 추론용인지 학습용인지부터 갈라서 견적을 잡아야 합니다.
- 출력물 통제: 생성 이미지가 학습 데이터의 저작물을 재현할 가능성, 워터마크(C2PA 등) 부착 여부를 내부 정책으로 정해두지 않으면 나중에 정리하기 어렵습니다.
6. 상황별 생성 모델 선택 기준
지금까지의 내용을 의사결정 기준으로 정리하면 이렇습니다.
- 고품질 이미지·영상 생성이 목적이라면: 확산 모델이 기본값입니다. 외부 서비스(Midjourney 등)로 충분한지, 데이터 통제 때문에 오픈 가중치(Stable Diffusion·FLUX 계열) 자체 구축이 필요한지만 가르면 됩니다.
- 실시간성이 극단적으로 중요한 이미지 작업(게임 내 초해상도 등)이라면: 1회 통과로 끝나는 GAN 계열이 여전히 현역입니다. 확산이 표준이 됐다고 GAN이 사라진 게 아닙니다.
- 일반적인 텍스트·추론 작업이라면: 자기회귀 LLM이 아직 기본값입니다. dLLM은 품질 격차가 남아 있습니다.
- 코드 자동완성·번역·분류처럼 짧고 지연에 민감한 텍스트 작업이라면: dLLM(Mercury 계열, DiffusionGemma)을 후보에 올려볼 시점입니다. 같은 품질이면 응답 속도가 사용자 경험을 가릅니다.
- 금융권처럼 규제·폐쇄망 제약이 있는 환경이라면: 모델 성능보다 라이선스, 가중치 반입 절차, 출력물 통제 정책을 먼저 확정하는 게 빠른 길입니다. 기술 검증(PoC)은 그다음입니다.
확산 모델은 “노이즈 제거를 배우면 생성이 따라온다”는 한 가지 발상이 이미지, 영상, 음성을 차례로 바꾸고 이제 텍스트까지 넘보는 이야기입니다. 다음 글에서는 이 글에서 짧게 짚은 dLLM을 따로 떼어, 자기회귀 LLM과의 구조 차이와 도입 판단 기준을 다뤄볼 예정입니다. 지금 하시는 업무에서는 생성 속도와 품질 중 어느 쪽이 더 아쉬운가요?