일주일 전 던진 의문이 데이터로 돌아왔다 — Claude 4.7 출시 2주 분석

Anthropic이 만드는 AI 모델 Claude의 새 버전 4.7이 4월 16일 출시됐습니다. 출시 직후 개발자 커뮤니티에 이상한 보고가 잇따랐습니다. 같은 작업을 시켰는데 토큰이 더 많이 들어간다, 품질이 예전만 못하다, 답변이 갑자기 장황해졌다는 불만이었습니다. 단순한 모델 업데이트의 부작용일까요, 아니면 다른 이유가 있는 걸까요. 출시 2주가 지난 지금, 흐릿했던 그림이 데이터로 또렷해지고 있습니다.

4월 23일에 던졌던 의심

지난 4월 23일에 썼던 “Anthropic IPO 레이스의 그늘”에서 한 가지 의심을 정리했습니다. Anthropic이 IPO를 앞두고 있고 가치평가가 두 달 만에 800억 달러로 두 배 뛴 상황에서, 같은 시기에 신제품이 일주일 안에 쏟아지고 토큰 사용량이 늘고 품질 보고가 어수선해지는 패턴이 우연이라기엔 너무 일관되어 보였습니다.

가설은 단순했습니다. IPO를 앞둔 회사는 매출은 끌어올리고 비용은 줄여야 하는 압박을 동시에 받습니다. 빠른 신제품 출시는 매출 확장 방향이고, 토큰 정책 조정은 비용 절감 방향입니다. 그런데 이 두 방향이 사용자 입장에서는 같은 문제로 나타납니다. 새 제품을 쓰면 토큰이 빨리 닳고, 원래 쓰던 제품은 품질이 떨어지고, 더 비싼 플랜으로 유도됩니다. 결정적 증거는 없었고, 패턴이 일관된다는 정도였습니다.

일주일 만에 데이터로 답이 돌아왔다

4월 25일 Anthropic이 공식 후속 조치 보고서를 냈습니다. 3월 초부터 4월 중순까지 자사 시스템에 3가지 버그가 있었음을 인정했습니다. 첫째 Claude Code의 기본 추론 노력이 의도치 않게 낮춰졌고, 둘째 1시간 이상 비활성 세션의 사고 기록을 매 대화마다 삭제하는 캐싱 버그가 있었고, 셋째 답변을 불필요하게 장황하게 만드는 프롬프트 변경이 있었습니다. 세 가지 모두 롤백했다고 발표했습니다. 사용자들이 한 달 넘게 체감하던 품질 저하의 정체가 이제야 드러났습니다.

5월 1일에는 OpenRouter가 100만 건의 실제 사용 데이터를 분석한 결과를 공개했습니다. Claude 4.6에서 4.7로 전환한 사용자들의 비용이 평균 12~27% 늘었다는 측정이었습니다. 짧은 질문(2천 토큰 미만)에서는 오히려 비용이 줄었지만, 긴 코드 작업이나 문서 분석에서는 32~34%까지 증가했습니다. 4.7에 도입된 새 토크나이저(텍스트를 AI 처리 단위로 쪼개는 장치)가 같은 입력에 더 많은 토큰을 매기는 구조 탓이었습니다. 가격표는 그대로인데 청구서가 늘어나는 일이 실제로 일어났습니다.

한국 매체 ZDNet은 4월 29일 기사에서 해외 개발자들이 Claude Code에서 OpenAI의 Codex로 갈아타는 분위기를 보도했습니다. “이미 유명 개발자들 사이에서는 이사했다는 표현이 나올 정도”라는 업계 인용이 실렸습니다. 토큰 비용 부담, 보안 사고(미토스 무단 접근 의혹과 npm 패키지 51만 줄 소스 노출), 가끔씩 발생하는 서비스 장애가 겹치면서 누적된 신뢰 흔들림이 경쟁 도구로의 이동으로 이어졌습니다.

5월 1일, 같은 패턴이 또 한 번

4월 23일 글이 짚었던 핵심은 신제품 출시·가치평가 급등·정책 변경이 짧은 기간에 압축되는 패턴이었습니다. 5월 1일에 그 패턴이 다시 나타났습니다.

이날 Anthropic은 Claude Security를 퍼블릭 베타로 공개했습니다. 보안 취약점을 자동으로 찾아주는 모델로, CrowdStrike·Microsoft Security·Palo Alto Networks 같은 주요 보안 기업들이 자사 제품에 통합한다고 발표했습니다. 매출을 늘리려는 발표였습니다. 같은 날 Wall Street Journal은 Anthropic이 비공개 상위 모델 Mythos의 접근 권한을 추가 70개 기업으로 확장하려 했지만 백악관이 반대했다고 보도했습니다. Mythos가 잘못된 손에 들어가면 사이버 공격에 악용될 수 있다는 국가 안보 우려 때문이었습니다. 매출 확장 시도에 정부가 막아선 모양새였습니다. 4월 16~17일에 압축됐던 흐름이 5월 1일에도 그대로 반복된 것은 우연으로 보기 어려워졌습니다.

한국 사용자에게는 어떤 의미일까

한 가지 짚고 싶은 부분이 있습니다. 토크나이저 변경은 영어보다 한국어 사용자에게 더 큰 영향을 줄 가능성이 있습니다. 한국어가 영어보다 토큰 수가 많은 언어 특성 때문입니다. OpenRouter 데이터의 32~34% 인플레이션 권역에 한국 개발자들이 더 가까울 수 있다는 뜻입니다.

제가 직접 겪은 일이 있습니다.

Opus 4.6으로 진행하던 프로젝트를 4.7로 업데이트한 직후, 답변 톤이 명확하게 바뀌었습니다. 갑자기 장황해지고, 자기가 검토하고 고민하는 중간 과정까지 시시콜콜 답변하고, 사사건건 결정을 물어보기 시작했습니다. 결국 “핵심 위주로만 커뮤니케이션하라”는 명령을 따로 내려야 했습니다.

그때는 단순한 모델 변경의 부작용이라 짐작했는데, 4월 25일 Anthropic이 공식 인정한 “장황함 프롬프트 변경”이 정확히 그 증상이었습니다. 다행히 롤백되긴 했지만, 한국어 사용자가 같은 작업에 더 많은 토큰을 쓰면서 자기도 모르게 비용을 더 내고 있을 가능성은 한 번 점검해 볼 만합니다.

그래서 추세는 굳어졌나

섣불리 단정하기는 어렵습니다. 두 방향의 사실이 동시에 보입니다.

이탈을 시사하는 쪽은 분명합니다. 토크나이저 인플레이션과 답변 장황화로 인한 비용 증가, 보안 사고와 가격 테스트 시도, OpenAI Codex의 코딩 성능 강화는 모두 객관 사실입니다.

다만 단기 반응으로 봐야 할 면도 있습니다. 코드 품질 측면 블라인드 비교에서는 여전히 Claude가 더 깨끗한 코드를 만든다는 평가가 나오고, 4월 25일 Anthropic이 3가지 버그를 빠르게 롤백했고 5월 1일 Claude Security와 미토스 확장 시도 등 후속 대응도 빨라졌습니다. 12~27%의 비용 증가는 캐싱이나 배치 처리 같은 기능을 잘 활용하면 상당 부분 회수 가능한 영역입니다. 출시 2주차 데이터로 장기 추세를 단정하기에는 변수가 더 보일 시간이 필요합니다.

다음에 봐야 할 것

4월 23일에 짚었던 의심이 일주일 만에 외부 데이터로 어느 정도 메워졌습니다. Anthropic 공식 인정, OpenRouter 실측, ZDNet 보도, 백악관 반대까지 짧은 시간에 여러 갈래로 답이 돌아왔습니다.

같은 시기에 발행한 구글 딥마인드 디커플드 딜로코 글이 다른 방향에서 같은 흐름을 가리킵니다. AI 인프라 경제학 자체가 흔들리는 시점에서 Anthropic의 IPO 압박은 그 흐름의 한 단면일 가능성이 큽니다. 4월 23일 글에서 짚은 의문 중 시간대별 품질 차이 같은 부분은 아직 검증되지 않았는데, 향후 4~12주 데이터를 더 봐야 합니다. 더 깊은 비교가 궁금하시면 Claude 4.7과 GPT-5.5 비교 분석이나 미토스 사태와 한국 정부 대응도 같은 흐름의 글들입니다.

※ 본 글은 ZDNet Korea(2026년 4월 29일), OpenRouter 공식 분석(2026년 5월 1일), Anthropic 후속 조치 보고서(2026년 4월 25일), Bank Info Security Claude Security 보도(2026년 5월 1일), Wall Street Journal Mythos 확장 보도(2026년 5월 1일)을 종합한 분석 글입니다. 투자 판단은 본인의 책임하에 이루어져야 합니다.

일주일 전 던진 의문이 데이터로 돌아왔다 — Claude 4.7 출시 2주, 무슨 일이 있었나