테크 경제

챗GPT 건강 상담 신뢰도 분석: AI로 만성 통증 해결 후기, 어디까지 믿어야 하나

챗GPT 건강 상담 신뢰도 분석: AI로 만성 통증 해결 후기, 어디까지 믿어야 하나

챗GPT에게 건강 질문을 한 사람이 매주 2억 명이에요. 그 중 절반은 오답을 받았을 가능성이 있어요.

핵심 요약

  • BMJ Open 연구에 따르면 주요 AI 챗봇 5종의 의료 답변 중 약 50%가 ‘문제 있는 수준’, 약 20%는 ‘심각한 오류’로 분류됐어요
  • 영국 10대 칼란 일스는 챗GPT가 의사가 놓친 길랭-바레 증후군을 잡아냈지만, 반대로 챗GPT 식이 조언을 따르다 브롬 중독이 된 사례도 있어요
  • 백신·암 같은 표준화 영역은 비교적 정확하지만, 영양·줄기세포처럼 해석이 필요한 주제에서는 오류율이 급증해요
  • 챗봇은 틀려도 “확신에 찬 어조"로 답하고, 어떤 플랫폼도 완전한 참고문헌을 제시하지 못했어요
  • AI 건강 상담은 ‘가능성 탐색 도구’로만 써야 하고, 진단·처방 대체재로 쓰면 안 돼요

1. AI가 “당신 통증의 원인은 이거예요"라고 말할 때

만성 허리 통증이 6개월째 낫지 않아요. 병원은 “이상 없음” 판정을 세 번 내렸고요. 그래서 챗GPT에게 물어봤더니 구체적인 원인과 해결책을 자신 있게 내놓아요. “섬유근육통일 수 있으니 마그네슘 보충제를 드세요”, “코어 근육 강화 루틴을 해보세요” — 읽으면 그럴싸하죠.

문제는 이게 맞을 수도 있고, 완전히 틀릴 수도 있다는 거예요. AI는 두 경우 모두 똑같이 자신 있게 말해요.

단순히 “틀린 정보"보다 더 위험한 이유가 있어요. 확신에 찬 오답은 정확한 진단을 받는 시간을 늦춰요.

30초 체크: 챗GPT 답변에 구체적인 참고문헌(논문명, 저널, 발행연도)이 포함돼 있나요? 없다면 그 답변은 패턴 매칭 결과예요 — 의학적 근거가 아니에요.


2. AI 건강 상담이 틀리는 세 가지 패턴

패턴 1: 해석이 필요한 주제에서 오류율이 폭증해요

질문한 주제가 “영양”, “보충제”, “줄기세포 치료”, “만성 통증 원인"처럼 개방형이면 위험 신호예요. BMJ Open 연구에서 ChatGPT, Gemini, Meta AI, Grok, DeepSeek 5종을 평가했을 때, 백신·암 같은 표준화 영역은 상대적으로 정확했지만 줄기세포·영양 주제에서는 오류가 급증했어요.

확인 기준:
- 표준화 영역 (예방접종 일정, 암 스크리닝 권고안) → 참고 가능
- 해석 필요 영역 (내 통증 원인, 보충제 조합) → 맹신 금지

AI는 언어 패턴을 학습한 도구예요. 의학 교과서를 읽은 게 아니라, 의학 교과서처럼 쓰인 텍스트를 학습한 거예요. 정답이 하나로 수렴되는 주제에서는 잘 맞추지만, 개인 맞춤 해석이 필요한 영역에서는 가장 그럴싸한 패턴을 출력할 뿐이에요.


패턴 2: 틀려도 “모른다"고 안 해요

BMJ Open 연구에서 주목한 건 단순 오류율이 아니에요. “확신에 찬 오답” 이 진짜 문제였어요. 5개 챗봇 모두 잘못된 정보를 단정적인 어조로 전달했고, 답변 자체를 거부한 사례는 극히 드물었어요.

테스트해보세요:
"내 만성 허리 통증이 디스크인지 근막통증증후군인지 구별해줘"

기대 답변: "확인 불가 — MRI나 의사 진료가 필요합니다"
실제 답변: 두 가지 가능성을 자세히 설명하며 어느 쪽에 가까운지 추측

AI는 “모른다"보다 “그럴 수 있어요"를 선택해요. 챗봇은 유용해 보이는 답변을 생성하도록 학습돼 있으니까요. 이걸 RLHF(인간 피드백 강화학습)의 부작용이라고 불러요.


패턴 3: 극적인 성공 후기가 기대치를 왜곡해요

영국 17세 칼란 일스 사례가 유명해요. 의사가 레이노 증후군으로 오진한 걸 챗GPT가 길랭-바레 증후군(GBS)으로 맞혔고, 브리스톨 왕립병원에서 혈장 교환 치료를 받고 회복했어요. 2023년 미국에서는 17명의 전문의가 놓친 4세 아이의 척수 유착 증후군을 챗GPT가 잡아냈어요.

성공 사례의 공통 조건:
- 증상이 매우 구체적이고 이미 여러 검사를 거친 상황
- 챗GPT 제안을 전문의에게 가져가서 검증
- 본인이 직접 진단한 게 아니라, 가능성을 병원에 제시한 것

성공 사례들은 모두 “챗GPT → 병원 → 확진” 경로였어요. AI를 출발점으로 쓴 거지, 종착점으로 쓴 게 아니에요. 성공한 10개 후기가 실패한 100개보다 더 많이 공유된다는 것도 기억하세요. 생존 편향이에요. 챗GPT 식이 조언을 따르다 브롬 중독이 된 사례는 잘 퍼지지 않아요.


3. 덜 알려졌지만 확인해볼 문제들

  • 출처 없는 답변: 연구진이 평가한 5개 챗봇 중 어느 것도 완전하고 정확한 참고문헌을 제시하지 못했어요. 링크가 있어도 가짜 DOI일 수 있으니 직접 PubMed에서 검색해보세요
  • 증상 묘사의 편향: “타는 듯한 통증"과 “쑤시는 통증"만 달리 써도 전혀 다른 답변이 나와요 — 이게 진단이 아니라는 증거예요
  • 업데이트 지연: 학습 데이터에 시간 제한이 있어서 최신 치료 가이드라인이 반영 안 됐을 수 있어요
  • 지역 맥락 무시: 한국 건강보험 기준의 1차 진료 프로토콜이나 국내 가이드라인을 반영하지 못하는 경우가 많아요

4. AI 답변이 의심스럽다면

지금 가장 빠른 검증 경로는 두 곳이에요.

대한의학회 의료정보(www.kams.or.kr) — 국내 의학 가이드라인 기반 정보를 확인할 수 있어요. PubMed(pubmed.ncbi.nlm.nih.gov) — 챗GPT가 언급한 질환명이나 치료법을 직접 검색해서 실제 연구가 있는지 30초 안에 확인 가능해요.

전문가에게 갈 때는 이걸 챙겨가세요:

  • 챗GPT 답변 캡처
  • 본인 증상 기간, 이미 받은 검사 결과
  • “이 가능성에 대해 어떻게 생각하시나요?“라는 질문

BMJ Open 연구진은 교육·관리 체계 없이 챗봇이 확산되면 오정보가 증폭된다고 직접 경고했어요.


5. 다음부터 AI 건강 상담을 어떻게 써야 하나요

딱 하나만 기억해두면 돼요.

AI = 가능성 목록 생성기. 진단기가 아니에요.

좋은 사용법:
"이런 증상이 있는데, 가능한 원인 5가지와
각각 어떤 검사로 확인할 수 있는지 알려줘"

나쁜 사용법:
"내 증상이 뭔지 말해줘"
"이 보충제 먹으면 낫겠지?"

만성 통증처럼 진단이 어려운 영역에서 AI는 의사에게 가져갈 질문 목록을 만드는 데 쓸 때 가장 빛나요. “이 가능성을 배제할 수 있나요?“라고 의사에게 물어보는 출발점이 되는 거죠.

결론은 간단해요. 탐색은 AI로, 결정은 의사와 함께. 이 선만 지키면 AI는 꽤 쓸 만한 도구예요.

여러분은 챗GPT 건강 상담을 어떤 방식으로 쓰고 있나요? 실제 경험이 있다면 댓글로 알려주세요.


Photo by Steve A Johnson on Unsplash