작업의 목표는 기존 Vue3 기반 프로젝트를 1.x, 2.x 브랜치로 구분하고, 2.x 브랜치에서 React 전환을 진행하는 것이었다. 단순히 특정 모델 하나만 사용하는 것이 아니라, 여러 AI 코딩 에이전트를 실제 작업에 투입해 계획 수립, 상세화, 구현, 리뷰, 병합의 각 단계에서 어떤 조합이 가장 효율적인지를 확인해보고자 했다
1. 최초 계획 수립 - Codex
최초 작업 계획은 Codex(GPT-5.4, reasoning effort: medium)를 사용해 수립했다. Codex는 전체 작업 방향과 단계별 흐름을 정리한 MIGRATION_2X.md 문서를 작성했다. 이 문서는 실제 개발을 바로 수행할 수 있는 상세 설계서라기보다는, 원칙과 단계별 진행 방향을 정리한 초안 성격의 계획서에 가까웠다.
2. 상세 계획 수립 - Gemini 중심, Codex 보조
![]() |
| 제미나이(Gemini 2.5 Flash) 실행 가능성 검토 |
![]() |
| 코덱스 (GPT 5.4 medium) 1차 검토 |
![]() |
| 코덱스 (GPT 5.4 medium) 1차 검토 결과 보완 |
![]() |
| 생성되어 등록된 이슈 목록 |
-
Codex: 최초 계획 초안 작성에 강점
-
Claude: 계획의 세부화와 경계 정리에 강점 (사용 제한으로 확인 못함)
-
Gemini: 계획 보완과 실행 가능성 판단에 충분히 유용함
3. 구현 - Codex와 Gemini 중심
실제 구현은 처음에는 Gemini(Free)를 통해 진행했다.Gemini는 Plan 모드와 Edit 모드를 구분하고 있었고, 실제 코딩을 위해서는 Edit 모드 전환이 필요했다. 무료 버전임에도 불구하고, 구현 자체는 충분히 수행 가능했고, 리뷰 결과에 대한 수정도 상당히 잘 반영했다. 이 점에서 Gemini의 코딩 능력 자체는 충분히 확인할 수 있었다고 본다.
다만 사용량 제한에 도달하면 작업이 중단되는 문제가 있었고, 실제 작업 흐름을 이어가는 데에는 제약이 있었다. 그 이후 구현은 Codex가 이어받아 진행했는데, 이 과정은 서로 다른 모델 에이전트가 작업을 이어받을 수 있는지를 확인하는 좋은 사례가 되었다. Codex는 구현을 이어서 진행하는 데에도 무리가 없었고, 이후 병합 충돌 원인을 작업 히스토리 기준으로 파악하고 해결하는 모습도 인상적이었다.
실제 수행 흐름을 종합하면, 구현 단계에서는 다음과 같은 인상이 남았다.
- Gemini: 무료 버전 기준에서도 구현 능력은 충분히 확인 가능
- Codex: 구현의 연속성, 작업 유지, 충돌 해결, 마무리 처리에 강점
4. 리뷰 - Claude의 강점이 가장 분명했던 구간
구현 결과에 대한 검토는 주로 Claude를 통해 진행했다.
브랜치 리뷰, PR 리뷰, 리뷰 결과 확인, 추가 수정 요청 등 여러 단계에서 Claude를 반복적으로 사용했는데, 전체 흐름을 보면 이 부분에서 Claude의 장점이 가장 뚜렷하게 드러났다. Claude는 단순한 오류 지적이 아니라 작업 범위의 타당성, 보완 필요 지점, 수정 누락 여부를 비교적 안정적으로 짚어냈다.
Codex도 코드 리뷰를 수행했지만, 글의 흐름상 Codex는 리뷰어 역할보다는 직접 수정하고 정리하는 역할에서 더 자연스러웠다. 반면 Claude는 여러 차례 교차 검증 과정에서도 추가 수정 사항을 찾아냈고, PR 리뷰 품질도 일관적이었다. 따라서 리뷰 단계에 대해서는 Claude가 가장 적합했다고 판단된다.
5. 병렬 작업과 교차 검증에서 확인한 점
이번 작업에서는 단순히 하나의 모델만 쓰지 않고, 서로 다른 모델을 조합해 병렬 작업과 교차 검증도 시도했다. Codex가 지시문을 작성하고, Gemini와 Codex 서브에이전트가 각각 구현을 수행한 뒤, Claude가 리뷰를 담당하는 방식도 실험했다. 또한 Claude가 작업한 결과를 Codex가 리뷰하고, 다시 Codex 결과를 Claude가 리뷰하는 교차 방식도 시도했다.
이러한 과정을 통해 확인한 것은, 모델마다 잘하는 역할이 분명히 다르다는 점이다.
-
Codex는 실행과 정리에 강했다.
-
Claude는 계획의 정교화와 리뷰의 완성도가 높았다.
-
Gemini는 무료 버전 기준에서도 구현 능력을 보여주었다.
![]() |
| 클로드(Sonnet 4.6) PR 리뷰 결과 |
![]() |
| 코덱스 (GPT 5.4 medium) 작업 지시문 생성 |
![]() | |
|
![]() |
| 클로드(Sonnet 4.6) 2차 리뷰 결과 |
![]() |
| 클로드(Sonnet 4.6) 3차 리뷰 결과 |
![]() |
| 깃랩 병합 이슈 |
![]() |
| 코덱스 (GPT 5.4 medium) 병합 이슈 해결 |
작업 완료 후 로컬에서 직접 실행하여 화면을 확인해본 결과, 이번 계획의 범위였던 공통 기능을 포함한 사용자 파트의 React 전환은 완전하지는 않지만 전반적으로 잘 이관된 상태임을 확인할 수 있었다.
이번 실험을 통해 각 모델의 강점이 어느 정도 분명하게 드러났다.
특히 Gemini는 무료 버전을 사용했음에도 코딩 능력 자체는 충분히 확인할 수 있었다. 그러나 실제 실무에서 지속적으로 사용하기에는 사용량과 기능 제약이 존재했다. 반면 Codex는 최초 계획 수립, 구현, 이슈 정리, 병합 충돌 해결 등 실행과 연속성 측면에서 강점을 보였고, Claude는 상세 계획 수립과 리뷰, PR 검토 등 정교한 검토와 품질 보증 측면에서 가장 안정적이었다.




















댓글 없음:
댓글 쓰기