"ChatGPT로 만든 이미지에 한글 넣으면 아직도 깨지나요?"

"gpt-image-2부터는 메뉴판이나 포스터 수준의 한글이 실제로 나와요. 커뮤니티 테스트 기준 95% 이상 정확도로, 이전 모델처럼 글자가 뭉개지거나 엉뚱한 문자가 섞이는 문제는 거의 사라졌어요."

"무료 계정으로 하루에 이미지 몇 장까지 뽑을 수 있나요?"

"무료 사용자는 하루 약 3회 제한이 있어요. 실무에 쓰려면 Plus($20/월) 플랜이 현실적인데, 3시간에 50회 제한이라 몰아서 작업하는 방식엔 불편할 수 있어요."

"Thinking 모드가 그냥 생성보다 실제로 결과물이 나은가요?"

"인포그래픽이나 카드뉴스처럼 레이아웃이 복잡한 작업에서는 차이가 확실해요. 다만 처리 시간이 길어지기 때문에 배경 이미지 한 장 빠르게 뽑을 땐 오히려 일반 모드가 나아요."

"미드저니 대신 갈아탈 만큼 해상도가 올라왔나요?"

"기본 해상도가 2K(2048px)로 올랐고, API 베타에서는 4K까지 지원돼요. 투명 배경 PNG 출력도 되니까 디자인 작업에 바로 붙여 쓸 수 있는 수준은 됐어요."

"한국인 얼굴 표현은 여전히 어색한가요?"

"아직은 국내 경쟁 모델 대비 약점으로 꼽혀요. 실제로 국내 콘텐츠 마케터들이 한국인 얼굴 일관성이 필요한 작업엔 나노바나나 2를, 퀄리티가 중요한 작업엔 gpt-image-2를 따로 나눠 쓰는 이유가 여기 있어요."

ChatGPT 이미지 생성 2.0 실제로 써봤더니: 일반인 솔직 후기

June 8, 2026 4 min read 한국어

AI 이미지 생성 툴이 넘쳐나는 지금, 정작 “일반인이 매일 쓸 수 있는가"라는 질문엔 아무도 제대로 답을 안 해줬어요. 이 글은 그 질문에 직접 답해보는 분석이에요.

핵심 요약
ChatGPT 이미지 생성 2.0(모델명 gpt-image-2)은 2026년 4월 21일 출시됐고, Image Arena 전 3개 벤치마크에서 Google Gemini Imagen을 앞질렀어요.
가장 큰 변화는 한국어·일본어·힌디어 등 비라틴 텍스트 렌더링 정확도로, 캐럿 블로그 커뮤니티 테스트 기준 95% 이상 정확도를 보였어요.
기본 해상도가 2K(2048px)로 올랐고, 한 번에 최대 8장의 일관된 이미지를 뽑아낼 수 있어요.
무료 사용자는 하루 약 3회, Plus($20/월)는 3시간에 50회 제한이 있어요. 실무 투입까지는 요금제 설계가 관건이에요.
속도와 한국인 외모 표현에서는 여전히 국내 경쟁 모델 대비 약점이 있어요.

ChatGPT 이미지 2.0, 뭐가 달라진 건가

DALL-E 3는 꽤 오래된 아키텍처예요. 텍스트를 이해하는 모델과 이미지를 만드는 모델이 따로 놀았거든요. gpt-image-2는 여기서 완전히 갈라졌어요.

gpt-image-2는 GPT-4o에 이미지 생성 기능이 통합된 구조예요. 텍스트를 이해하고, 생각하고, 그림을 그리는 게 전부 하나의 모델 안에서 일어나요. TechCrunch와 Engadget 보도에 따르면 내부적으로는 기존 디퓨전 방식에서 오토리그레시브(autoregressive) 방식으로 전환됐을 가능성이 높아요. OpenAI가 공식 확인하진 않았지만요.

출시 전 일화도 흥미로워요. 정체를 숨기고 LM Arena에 packingtape, maskingtape, gaffertape라는 세 개의 익명 모델로 등장했는데, 신원이 공개되기 전에 이미 이미지 생성 부문 1위를 찍었어요. 성능이 먼저 증명된 셈이에요.

2026년은 AI 이미지가 단순 취미 도구를 넘어 실무에 편입되는 시점이에요. 소셜 콘텐츠, 이커머스 상품 이미지, 인포그래픽, 뉴스레터 배너—이 모든 걸 한 사람이 뽑아내야 하는 1인 작업 환경에서 “텍스트도 제대로 들어가는 AI 이미지"는 선택이 아닌 필수가 됐거든요.

핵심 기능 3가지, 실제로는 어떤가

한국어 텍스트, 드디어 쓸 수 있는 수준이 됐다

이전 모델들의 가장 큰 약점이 바로 이거였어요. 한글을 넣으면 글자가 뭉개지거나, 아예 엉뚱한 문자가 나왔죠.

캐럿 블로그의 42가지 프롬프트 비교 테스트 결과를 보면, gpt-image-2의 한국어 텍스트 렌더링은 커뮤니티 기준 95% 이상 정확도를 기록했어요. 메뉴판, 포스터, 책 표지 수준의 한글이 나온다는 거예요. Gpters.org 분석에서도 문단 수준의 텍스트 정확도가 확인됐어요.

비교가 되는 사례도 있어요. Gemini Imagen이 한국어 만화 프롬프트에 일본어를 섞어 출력하는 오류를 냈을 때, gpt-image-2는 언어 정확도를 유지했어요. 사소해 보이지만, 실제 콘텐츠 작업에선 치명적인 차이예요.

Thinking 모드: 그냥 생성이랑 뭐가 다른가

Thinking 모드는 Plus, Pro, Business 플랜에서만 써요. 프롬프트를 받으면 바로 그리지 않고, 웹 검색을 포함해서 구도·레이아웃·요소 배치를 먼저 계획한 다음 이미지를 만들어요.

Gpters.org 정리에 따르면 최대 8장을 한 번에 일관되게 생성할 수 있어요. 인포그래픽, 가격표 배너, 카드뉴스 시리즈처럼 “레이아웃이 복잡한 작업"에서 차이가 확실하게 나요.

반대로 단순한 배경 이미지 한 장을 빠르게 뽑아야 할 땐 Instant 모드가 나아요. Thinking 모드는 복잡한 프롬프트일수록 처리 시간이 길어지거든요.

해상도와 비율: 실무 수준이 됐다

항목	DALL-E 3 / gpt-image-1	gpt-image-2
기본 해상도	최대 1792×1024	2K (2048px)
비율 선택	고정 3-4개	3:1 ~ 1:3 연속 범위
배치 생성	단일 이미지	프롬프트당 최대 8장
투명 PNG	미지원	지원
한글/일본어	깨짐·오류 다수	문단 수준 정확도
텍스트 렌더링	짧은 단어만 가능	문장·문단 가능

픽스노트 분석에 따르면 API 베타에서는 4K까지 지원돼요. 투명 배경 PNG 출력도 되니까 디자인 작업에 바로 붙여 쓸 수 있어요.

경쟁 모델과 비교: 어디서 쓰고, 어디서 안 쓰는가

캐럿 블로그의 42개 프롬프트 비교 결과를 정리하면 이렇게 돼요.

gpt-image-2가 앞선 영역:

영화적 표현, 액션 컷(땀·먼지·물 튀기는 장면)
에디토리얼 제품 사진 디테일
복잡한 텍스트 레이아웃
브랜드 공간·랜드마크 재현(스타벅스 리저브 내부, 서울타워 등)

나노바나나 2가 앞선 영역:

생성 속도 (분 단위 vs 초 단위)
한국 SNS 감성 스타일
콘텐츠 필터 유연성
한국인 얼굴 일관성

요즘 국내 콘텐츠 마케터들이 두 모델을 목적별로 분리해서 쓰는 이유가 여기 있어요. gpt-image-2는 “퀄리티가 필요한 작업”, 나노바나나 2는 “빠르게 많이 뽑아야 하는 작업"에 더 맞거든요.

요금제별 실제 사용 시나리오

무료 플랜의 하루 약 3회 제한은 “맛보기” 수준이에요. 실무에 투입하려면 요금제 설계가 먼저예요.

시나리오 1 — 1인 크리에이터 Plus($20/월, 3시간당 50회)면 하루 2-3개 콘텐츠 제작 기준으로 충분해요. Thinking 모드도 쓸 수 있고, 2K 해상도 이미지가 나오니 유튜브 썸네일·뉴스레터 배너 작업에 실질적인 도움이 돼요.

시나리오 2 — 스타트업 마케팅 팀 API 경로가 현실적이에요. 픽스노트 정리 기준 API 가격은 이미지 1장당 $0.006(저화질)~$0.211(고화질·1024×1024)이에요. 대량 생산이 필요한 이커머스 상품 이미지에선 Pro($200/월) 무제한보다 API가 비용 효율이 나을 수 있어요.

시나리오 3 — 기업 도입 Microsoft Azure Foundry를 통해 기업용 배포가 가능하고, Azure SLA가 적용돼요. 보안·컴플라이언스 요건이 있는 곳엔 이 경로가 현실적이에요.

참고로, Thinking 모드의 생성 시간이 얼마나 단축될지가 앞으로 관건이에요. 지금은 복잡한 요청일수록 체감 속도가 느린데, 여기가 개선되면 나노바나나 2의 마지막 강점도 흔들리거든요.

결국 뭘 봐야 하나

세 가지만 기억하면 돼요.

텍스트 렌더링: 커뮤니티 테스트 기준 95% 이상 정확도. 한글이 들어간 콘텐츠 작업에서 처음으로 “믿고 쓸 수 있는” 수준이 됐어요.
Thinking 모드: 복잡한 레이아웃 작업을 프롬프트 한 방에 해결해줘요. 단, Plus 이상 플랜이 필요해요.
비용 구조: 무료·Plus·Pro·API 네 가지 경로가 있고, 사용 패턴에 따라 최적 경로가 달라요.

앞으로 6-12개월 안에 볼 변화는 두 가지예요. Thinking 모드의 속도 개선, 그리고 아시안 얼굴 표현 정확도 향상이에요. 지금 gpt-image-2의 가장 큰 약점이 “한국인 vs 중국인 얼굴 구분"이거든요. 이게 해결되면 국내 콘텐츠 시장에서 경쟁 구도가 꽤 많이 바뀔 거예요.

한 줄 정리하면 이래요. “텍스트 넣는 이미지 작업엔 이제 쓸 만하다, 그런데 빠르게 많이 뽑아야 한다면 아직 대안을 같이 쓰세요.”

어떤 작업에 가장 먼저 써볼 예정인가요? 카드뉴스, 상품 이미지, 인포그래픽—각자 다른 최적 플랜이 있을 수 있어요. 댓글로 알려주시면 더 구체적인 세팅 팁을 정리해볼게요.

참고자료

Photo by Levart_Photographer on Unsplash