ChatGPT vs Claude vs Gemini: PM이 6개월간 3개 다 써본 솔직 후기
ChatGPT vs Claude vs Gemini: PM이 6개월간 3개 다 써본 솔직 후기
지난 2월, 나는 AI 툴에 월 100달러를 쓰기 시작했다. ChatGPT Plus, Claude Pro, Gemini Advanced를 모두 구독했다. 동료들은 "미쳤냐"는 반응이었지만, PM으로서 이건 실험이었다. 각 AI의 특성을 파악하고, 업무 시나리오별로 최적의 도구를 찾고 싶었다.
6개월이 지난 지금, 3개 중 2개는 해지했다. 그리고 남은 하나도 완벽하지 않다는 걸 안다.
실험 설계: 같은 작업, 다른 AI
공정한 비교를 위해 동일한 작업을 3개 AI에 맡겼다. PM 업무의 핵심 시나리오 5가지로 나눴다:
- PRD(Product Requirements Document) 작성 - 주 2-3회
- 사용자 인터뷰 데이터 분석 - 월 4-5회
- 경쟁사 리서치 요약 - 주 1회
- 개발팀 커뮤니케이션용 문서 - 거의 매일
- 디자인 피드백 구조화 - 주 3-4회
각 작업마다 결과물의 품질, 소요 시간, 수정 횟수를 기록했다. 스프레드시트에 130개 케이스가 쌓였다.
ChatGPT: 빠르지만 얕다
강점: 속도와 범용성
ChatGPT는 반응 속도가 가장 빨랐다. 평균 응답 시간 3-5초. 급하게 회의록 요약이 필요하거나, 빠른 브레인스토밍이 필요할 때 가장 먼저 찾게 된다. 플러그인 생태계도 장점이다. Figma 파일을 바로 불러와서 디자인 스펙을 추출할 수 있었다.
하지만 문제는 깊이의 부족이었다. PRD를 작성할 때 ChatGPT는 항상 표면적인 답변을 내놨다. "사용자 니즈 분석" 섹션을 요청하면 일반론적인 3-4개 bullet point만 던져준다. 디자이너 출신으로서 특히 아쉬웠던 건, UX 관련 질문에 대한 답변이 너무 교과서적이라는 점이다.
실패 사례:
지난 4월, 새 기능의 PRD를 ChatGPT로 작성했다. 30분 만에 5페이지 문서가 완성됐다. 개발팀에 공유했더니 CTO가 물었다. "이게 왜 필요한지 이해가 안 되는데요?" 문서를 다시 읽어보니, 모든 문장이 맞는 말이지만 설득력이 없었다. 맥락(context)이 빠져 있었다.
수치로 본 ChatGPT:
- 평균 응답 속도: 3.2초
- 첫 응답 만족도: 62%
- 평균 수정 요청 횟수: 3.1회
Claude: 느리지만 깊다
강점: 맥락 이해와 논리 구조
Claude는 게임 체인저였다. 특히 긴 문서 작업에서. 같은 PRD를 Claude에게 맡기면 응답은 느렸다(평균 15-20초). 하지만 결과물의 품질이 달랐다.
Claude는 맥락을 이해한다. "이전 대화를 참고해서"라는 말을 진짜로 실행한다. 3일 전에 나눈 대화를 기반으로 PRD의 배경 섹션을 채워넣는다. 놀라웠던 건 논리 구조다. Claude가 작성한 문서는 "왜 → 무엇을 → 어떻게"의 흐름이 자연스럽다.
디자이너 출신으로서 특히 유용했던 건 디자인 의사결정 문서화다. 내가 "이 버튼을 왜 파란색으로 했는지 설명해줘"라고 하면, Claude는 색채 심리학, 브랜드 일관성, 접근성까지 고려한 3단 논리를 만들어준다.
성공 사례:
5월에 신규 기능의 우선순위를 정해야 했다. 사용자 인터뷰 10개의 녹취록(총 4만 단어)을 Claude에 넣었다. "RICE 프레임워크로 우선순위를 매기고, 각 기능의 Impact 점수 근거를 인터뷰 내용에서 찾아줘"라고 했다.
결과는 8페이지 분석 문서. 각 기능마다 실제 사용자 발언을 인용하며 점수를 매겼다. 이걸 그대로 경영진 보고에 썼고, 30분 회의가 10분 만에 끝났다. 모두가 납득했다.
수치로 본 Claude:
- 평균 응답 속도: 17.8초
- 첫 응답 만족도: 84%
- 평균 수정 요청 횟수: 1.3회
Gemini: 구글의 야심, 현실의 어중간함
기대와 실망
Gemini는 가장 기대했던 AI였다. 구글 워크스페이스와의 통합, 실시간 웹 검색, YouTube 요약 기능. 스펙상으론 완벽했다.
현실은 달랐다. Gemini는 정체성이 없었다. ChatGPT처럼 빠르지도 않고, Claude처럼 깊지도 않다. 중간 어디쯤에서 어정쩡하게 서 있다.
유일하게 유용했던 건 경쟁사 리서치다. 실시간 웹 검색이 되니까 "지난 1주일간 [경쟁사 A]의 업데이트 내역"을 물으면 최신 정보를 긁어온다. 하지만 이마저도 Perplexity가 더 잘한다.
3개월 쓰다가 해지했다. 20달러가 아깝다는 생각이 들었다.
수치로 본 Gemini:
- 평균 응답 속도: 8.4초
- 첫 응답 만족도: 58%
- 평균 수정 요청 횟수: 2.7회
실전 가이드: 언제 어떤 AI를 쓸 것인가
6개월의 실험 끝에 내린 작업별 최적 조합:
PRD & 기획 문서 → Claude
이유: 논리 구조와 맥락 이해가 필수. 개발팀을 설득해야 하는 문서는 깊이가 생명이다.
프롬프트 예시:
[3일 전 대화 참고] 사용자 인터뷰 결과를 바탕으로 "알림 설정" 기능의 PRD를 작성해줘. 포함 사항: 1) 사용자 페인포인트 (인터뷰 인용), 2) 기대 효과 (정량 지표), 3) 기술적 고려사항
빠른 브레인스토밍 → ChatGPT
이유: 속도가 중요. 회의 중에 실시간으로 아이디어를 받을 때.
프롬프트 예시:
온보딩 퍼널의 이탈률이 60%다. 첫 화면 개선안 10개를 30초 안에 던져줘. 실현 가능성은 신경 쓰지 마.
사용자 데이터 분석 → Claude
이유: 긴 텍스트(인터뷰, 설문 응답)에서 패턴을 찾는 능력이 탁월.
경쟁사 최신 동향 → (Gemini 아님) Perplexity
솔직히 이 용도로는 Gemini보다 Perplexity가 낫다. 출처 표기가 명확하고, 정보가 더 구조적이다.
결론: 완벽한 AI는 없다. 조합이 답이다
6개월 실험의 결론은 단순하다. AI 도구는 하나만 쓰면 안 된다.
나는 지금 Claude Pro 하나만 유지하고, ChatGPT는 무료 버전으로 병행한다. Claude가 주력, ChatGPT가 보조. 이 조합이 내 업무 패턴에 가장 맞았다.
하지만 당신의 답은 다를 수 있다. PM이라도 B2B SaaS를 하는지 컨슈머 앱을 하는지에 따라 필요한 게 다르다. 디자이너 출신이라면 Claude의 논리 구조화 능력이 특히 유용할 것이다. 코드 리뷰가 잦은 PM이라면 ChatGPT의 플러그인이 더 매력적일 수 있다.
당신의 실험을 시작하라. 각 AI의 무료 버전으로 2주씩 써보라. 같은 작업을 각각 시켜보고, 결과물을 비교하라. 어떤 블로그 포스트보다 그 경험이 정확한 답을 줄 것이다.
나는 여전히 실험 중이다. 다음 달에는 새로 나온 AI 툴을 하나 더 테스트할 계획이다. 완벽한 도구는 없지만, 더 나은 조합은 계속 찾을 수 있다.
당신은 어떤 AI를 주로 쓰나요? 실패담이나 성공 사례가 있다면 댓글로 공유해주세요.