<aside> <img src="/icons/movie-clapboard_lightgray.svg" alt="/icons/movie-clapboard_lightgray.svg" width="40px" />
지원환경: L4 GPU 1개
<aside> <img src="/icons/movie-clapboard_lightgray.svg" alt="/icons/movie-clapboard_lightgray.svg" width="40px" />
L4 GPU 1개를 지원받는 환경에서 모든 과정을 자체적으로 기획하고 개발해 나갔습니다. 현장에 대한 니즈나 수요에 대한 정보가 전무했기에 현직자 인터뷰를 통해 이를 수집했으며, 시장에서 사용되고 있는 기술 수준을 파악하기 위해 경쟁사 분석을 진행했습니다. 현재 시장에서는 입력 이미지를 그대로 두고 의상과 배경을 마스킹하여 변경하는 방식(예: 배경 제거, 한복 착용)이 주로 사용되고 있었는데, 이는 얼굴을 재구성하고자 하는 팀의 취지와 맞지 않았습니다. 따라서, 팀의 의도를 구현할 수 있는 워크플로우를 탐색하고 개발하게 되었습니다.
다양한 모델들 중에서도 realistic photo로 학습된 체크포인트 모델들이 존재하여 여러 실험을 진행하면서 각 모델의 특징과 기능을 익혔습니다. 특히, 모델마다 필요한 노드 구성이 달라 이를 숙지하는 데 약 3주가량 소요되었습니다. FLUX 모델은 이미지 생성 모델 중에서도 취약점으로 알려진 손 표현을 사실적으로 구현할 수 있어 활용하고자 했으나, VRAM 메모리 한계로 사용할 수 없었습니다. 또한, SDXL 3.5 모델은 개발 도중 출시되었으나, ComfyUI에서 사용할 수 있는 노드가 제한적이어서 충분한 실험이 어려웠습니다. 결국 SDXL 모델을 사용해 베이직 기능을 모두 구현할 수 있었습니다.
특히 여성 어르신들의 한복 니즈를 반영한 출력을 구현하고자 했으나, pre-trained 모델 자체의 "한복"이라는 텍스트 토큰 임베딩이 일본의 기모노와 중국의 치파오로 학습되어 있었습니다. 이로 인해 단순히 "한복" 프롬프트만으로는 한국의 한복을 구현하기 어려웠고, 네거티브 프롬프트를 사용해도 문제가 개선되지 않았습니다. 이러한 이유로 LoRA를 활용한 파인 튜닝을 진행하게 되었습니다.
주변 동료들에게 조언을 구하고, 다양한 레퍼런스를 참고하며 처음에는 30장의 데이터셋으로 학습을 시작했고, 출력 결과물의 품질을 높이기 위해 학습 데이터를 50장, 110장으로 점차 늘려갔습니다. 그 결과, 한복을 입은 증명사진을 성공적으로 생성할 수 있었습니다.
이번 프로젝트를 통해 가장 크게 느낀 점은, 다른 연구자들의 연구를 빠르게 이해하고 이를 프로젝트의 목적에 맞게 변형하여 활용하는 것이 AI 업무의 핵심이라는 사실이었습니다. 또한, 다양한 실험과 실험을 기반으로한 선택이 프로젝트의 성공을 좌우한다는 점도 배울 수 있었습니다.
</aside>
<aside> ⚠️
스프린트 방식으로 프로젝트를 진행하다 보니, 기한 내에 원하는 성능의 결과물을 만들어내는 것이 매우 어려웠습니다. 프로젝트에 몰입하면서 지속적으로 발전 가능성을 느꼈으나, 시간이 부족해 충분한 실험을 진행할 수 없었습니다. 또한, L4 GPU 1대로 5명이 동시에 개발을 진행하다 보니, 서버가 자주 다운되어 개발이 지연되는 상황이 반복되었습니다. 결국, 아무도 서버를 사용하지 않는 시간을 확보하기 위해 밤 12시 이후로 개발을 진행해야 하는 경우가 많았으며, 새벽에 실험을 하는 일이 빈번했습니다.
LoRA 튜닝 과정에서도 어려움이 있었습니다. 학습 결과가 실시간으로 반영되는 것이 아니라 학습이 모두 끝난 후에만 모델 성능을 평가할 수 있었기 때문에, 파라미터나 설정값을 수정하는 일이 쉽지 않았습니다. 특히, 한 번의 학습에 약 10시간이 소요되었기 때문에, 한 사람이 파인 튜닝을 진행하면 나머지 팀원들이 서버를 사용할 수 없는 독점 현상이 발생했고, 시간적인 분배가 매우 중요하게 작용했습니다.
기업의 니즈를 반영한 가족사진 생성에도 도전했으나, Omnigen 모델이 SOTA(최고 성능) 모델이었음에도 불구하고 참고할 레퍼런스가 부족했습니다. 영정사진은 한 사람의 얼굴 완성도를 높이는 데 초점이 맞춰지지만, 가족사진은 포함된 모든 사람의 완성도를 높여야 했습니다. 또한, 기존 가족사진에 새로운 사람을 추가하는 방식에서는 추가되는 개인 사진과 기존 가족사진 간의 분위기가 어울리는지를 확인해야 했는데, 이는 사진의 조화를 유지하기 위한 매우 까다로운 작업이었습니다.
완벽하게 구현하지는 못했지만, 기술 발전의 속도를 보았을 때 약 1년 정도 후에는 이러한 기능이 실현 가능할 것으로 기대됩니다.
</aside>