[기고] 생성 AI와 소통하려면? 클릭, 터치에서 다시 타이핑의 시대로

AI가 생성한 여성 이미지
AI가 생성한 여성 이미지 [사진=Pixabay]
그럴싸한 결과물을 척척 찍어 내는 여러 인공지능(AI) 서비스가 세계적인 관심을 끌고 있습니다. 이른바 생성(generative) AI 분야 기업들이 기술 개발과 새로운 활용 분야를 발굴하는 움직임을 활발하게 보이고 있기 때문이죠. 다국적 기업 메타(전 페이스북)와 구글, 마이크로소프트(MS)의 투자를 받고 있는 미국 민간 연구소 오픈AI 등이 치열한 전쟁의 포문을 열었습니다.

이미 오픈AI는 그럴듯한 문장을 뚝딱 만들어내는 챗(ChatGPT)를 공개하기에 앞서 AI 화가로 불리는 ‘달리2(DALL·E 2)를 선보였습니다. 달리2는 2021년 1월 발표한 오리지널 ‘달리(DALL·E)’보다 4배 높은 화질로 더 정교한 이미지를 만들어 줍니다. 이용자가 달리2 웹사이트에 접속해 원하는 사물, 장면을 묘사하는 영어 문구를 입력하면 AI가 그에 맞게 그림을 생성해 주죠. ‘꽃이’나 ‘의자’ 같은 일상적인 물체뿐 아니라, ‘피자로 만든 우주선’이나 ‘자전거를 타는 거북이’처럼 상상으로만 가능한 장면까지 그려냅니다. 주문만 하면 반 고흐, 세잔, 렘브란트 같은 거장의 화풍까지 흉내 내고요. 오픈AI는 2022년 7월 달리2 베타 서비스를 출시하면서 15달러에 115크레딧(이미지 460장을 만들 수 있음)을 판매하기 시작했습니다. 이걸 사용해 만든 이미지를 상업적으로 제한 없이 쓸 수 있다는 정책을 함께 발표했죠.

정교한 이미지를 만들어낼 수 있는 생성 AI 서비스의 원조격은 ‘미드저니(midjourney)’입니다. 지난 16일에 미드저니 최신 버전인 ‘미드저니 v5’ 모델 알파 릴리즈가 발표됐는데요. 미드저니 v5는 이전 모델보다 생성되는 이미지에 적용할 스타일을 더 다양하게 선택할 수 있고, 더 정교하면서도 빠르게 이미지를 생성할 수 있도록 진화했어요. 특히 사람 손의 손가락 마디, 관절 등을 제대로 구현하지 못했던 기존 이미지 생성 AI의 약점을 보완해 정확한 손 모양을 그려낼 수 있게 됐다는 점이 주목받고 있죠.

오픈AI 투자자인 MS도 2023년 3월 13일 새로운 이미지 생성 AI 서비스 ‘비주얼(Visual) 챗GPT’를 선보였습니다. 비주얼 챗GPT는 MS 리서치 아시아 연구진들이 스테이블 디퓨전(Stable Diffusion)을 포함한 22가지 시각적 기반 모델(VFM·Visual Foundation Models)을 오픈AI가 개발한 AI 챗봇인 챗GPT에 연결해서 작동하게 만든 서비스예요. 영어 문구를 입력해 이미지를 생성할 수 있다는 점은 여타 생성 AI 서비스와 비슷한데, 생성 AI 모델 기능에 사람과 자연스럽게 대화할 수 있는 챗GPT를 연결했다는 점이 차별화 요소죠. 이 덕분에 챗GPT와 대화하듯이 순차적으로 대화하면서 의도한 이미지를 생성, 편집, 수정해 나갈 수 있습니다. 한 번에 명확하게 요구사항을 입력하지 못하는 사람이라고 해도 비주얼 챗GPT에 여러 시도를 거쳐 기능을 이해하고 만족할 만한 결과물을 얻을 때까지 탐색적으로 활용할 수 있다는 뜻입니다. 스스로 이미지를 인식하고 다룰 수 없는 챗GPT에 그림을 보는 ‘눈’과 그리는 ‘손’을 달아 준 셈입니다.

한국 AI 스타트업인 업스테이지가 2023년 3월 9일 출시한 ‘아숙업(AskUp)’이라는 카카오톡 채널 기반 챗봇도 이와 비슷한 접근을 취합니다. 아숙업은 업스테이지의 자체 문자인식(OCR) 기술을 챗GPT에 연결해서 만들어졌어요. 이용자가 찍은 문서 사진을 주면, 아숙업이 이미지 속 단어와 문장을 읽고 이용자의 관련 질문에 답하는 식입니다. 이처럼 다양한 데이터 인식 기능을 연결하면 언어 모델로 다양한 결과물을 얻을 수 있게 됩니다. 이미 ‘마스터피스 스튜디오(Masterpiece Studio)’나 ‘포인트E(Point-E)’처럼 3D 캐릭터나 사물 모델을 만들어 주는 서비스도 있어요. 앞으로 AI 기반으로 음성의 내용과 목소리 스타일까지 언어로 편집하는 도구도 나올 수 있겠죠.

생성 AI 다음 격전지는 ‘멀티 모달’ 기술

사실 생성 AI에 말을 통해 인식하게 하거나 만들어낼 수 있는 것은 사진이나 그림만이 아닙니다. 챗GPT는 언어라는 단일 유형 데이터만 인식할 수 있는데, 언어뿐 아니라 멀티미디어를 다룰 수 있는 ‘멀티 모달’ AI 연구도 활발하게 진행되고 있어요. 어쩌면 언어와 함께 다른 종류의 데이터를 다룰 수있는 멀티 모달 AI가 생성 AI 서비스로 만들어질 때 더욱 큰 파급력을 발휘할 것으로 예상됩니다.

일례로 과거 ‘페이스북 AI 연구소(FAIR)’가 이름을 바꾼 ‘메타 AI(Meta AI)’는 2022년 9월 ‘메이크 어 비디오(Make-A-Video)’라는 서비스를 선보였어요. 메이크 어 비디오는 2021년에 선보인 ‘메이크 어 씬(Make-A-Scene)’을 더 발전시킨 것이죠. 메이크 어 씬은 사람들이 영어 문구를 입력해 사실적인 이미지를 만들 수 있는 서비스로 소개됐는데요. 짐작할 수 있듯이 메이크 어 비디오는 입력된 문구로 움직이는 영상, 비디오를 생성해 줍니다. 공개된 샘플 이미지를 보면, 초원의 말이 물을 마시는 모습이나 캔버스에 붓질을 하는 손을 클로즈업한 장면 등을 꽤 자연스럽게 만들어낸 것을 볼 수 있는데요. 오픈AI의 달리2처럼 ‘빨간 망토를 두르고 선글라스를 낀 강아지가 하늘을 나는 모습’이나 ‘화성에 UFO가 착륙하는 장면’ 등 현실에 없는 영상도 생성해 냅니다.

메이크 어 비디오는 말이 아니라 ‘사진’을 입력받아 영상화해 주기도 한다는 점에서 흥미롭습니다. 바다거북이 사진이나 풍랑을 만난 배 그림을 주면 헤엄치는 바다거북이 영상, 풍랑을 헤치며 항해하는 배 애니메이션을 생성하는 식이에요. 서로 다른 이미지 두 장을 주면 둘이 자연스럽게 연결되는 움직임을 채워 넣은 동영상을 만들어내고요. 그리고 원본 영상의 일부 특징을 남긴 채 다른 스타일을 입힌 새로운 영상을 만들어 내는 기능도 갖고 있습니다. 이런 유형의 서비스가 상용화한다면 파급력이 클 것 같은데, 메타는 이 서비스로 생성된 토막 영상에 회사의 로고와 이름이 들어간 워터마크를 삽입해 생성 AI 기술로 만들어졌다는 점을 나타내고 있어요. 당장은 달리2나 미드저니 같은 이미지 생성 AI와 다르게 제한적인 용도로만 제공하고 있다는 얘기입니다.

구글은 2023년 3월 14일부터 구글 클라우드 서비스 기반 애플리케이션 프로그래밍 인터페이스(API)와 ‘메이커스위트(MakerSuite)’라는 도구를 통해 과거 선보인 생성 AI 기술을 비공개 시험판(Private Preview)으로 일부 선별된 외부 개발자들이 쓸 수 있게 만들었어요. 2022년 4월 처음 소개된 구글의 초거대 언어 모델 ‘팜(PaLM·Pathways Language Model)’을 구글 클라우드의 ‘팜 API’로 쓸 수 있게 된 것입니다. 첫 소개 당시 팜은 5400억개 매개변수를 갖고 있고 언어 이해, 추론, 오류 수정 능력이 뛰어난 언어 모델이고 프로그래밍 언어와 수학 분야 문제를 해결하고 인간의 농담까지 설명할 줄 아는 신통한 모델로 등장해 주목받았습니다.

영어 단어 문자열
영어 단어 문자열 [사진=Pixabay]
구글은 팜 API뿐 아니라 주요 구글 클라우드 서비스에 다양한 생성 AI 기능을 추가 지원한다고 밝혔습니다. 우선 기존 머신러닝 모델 및 AI 애플리케이션을 개발하는 ‘버텍스 AI’ 서비스에 텍스트와 이미지를 생성하고 이후 오디오와 비디오를 제공하는 기본 모델을 제공해, 이용자가 이 모델을 활용해 자체 데이터로 미세조정(fine-tuning) 학습을 거쳐 정교한 결과물을 만들 수 있게 했죠. 또 기업과 기관이 몇 분에서 몇 시간 안에 기본 모델과 자체 서비스 데이터를 결합한 AI 챗봇 형태의 디지털 비서를 개발할 수 있도록 ‘생성 AI 앱 빌더’라는 솔루션을 새로 내놨습니다.

구글은 이미 생성 AI 기술로 기업용 협업 솔루션 ‘구글 워크스페이스’에선 지메일(Gmail), 독스(Docs) 등에 스마트 편지쓰기(Smart Compose)와 자동 요약 기능을 제공하고 있는데요. 이번엔 팜 API 비공개 시험판 제공 소식과 함께 구글 워크스페이스에 더 강화된 생성 AI 신기능도 시범 제공하겠다고 예고했어요. 구글 워크스페이스 제품 이용자는 이 신기능으로 직원 채용 공고와 신규 입사자 환영 인사 메일, 사원 교육 자료 등 문서의 초안까지 빠르고 쉽게 작성하고 클릭 몇 번이면 메시지를 간결하게 압축하거나 더 정교하게 다듬을 수 있게 될 거라고 해요.

하지만 구글 워크스페이스의 생성 AI 신기능 출시 예고는 그 이틀 뒤인 2023년 3월 16일 MS가 진행한 이벤트 때문에 금세 빛이 바랬습니다. 이날 MS는 ‘AI와 함께하는 일의 미래’라는 주제로 온라인 발표를 진행했는데, 여기서 워드, 엑셀, 파워포인트, 아웃룩, 팀즈, 파워 플랫폼 등 ‘마이크로소프트 365’라는 업무용 생산성 소프트웨어 제품 전반에 오픈AI의 최신 모델 ‘GPT-4’를 적용한 차세대 업무 도구 ‘코파일럿(Copilot)’을 선보였거든요.

MS는 코파일럿이 적용된 마이크로소프트 365 제품으로 수많은 직장인들의 품을 덜어주겠다고 약속했습니다. 워드를 예로 들면 코파일럿은 장문의 문서를 열고 ‘핵심을 요약해 달라’고 하면 몇 문단으로 압축한 글을 보여 줍니다. 거꾸로 새로운 문서의 초안을 떠올리거나 틀을 잡고 수정과 재작성을 돕기도 하죠. 파워포인트를 쓴다면 다채로운 시각 효과와 디자인이 적용된 슬라이드 여러 장을 몇 마디 말로 순식간에 만들어낼 수 있습니다. 워드 문서를 입력해 슬라이드에 음성과 이미지를 추가한 파워포인트 문서로 변환할 수도 있고요. 숫자에 약한 이용자도 엑셀에서 코파일럿으로 데이터세트를 이해하고 수식을 적용하거나 생성, 편집할 수 있고, 핵심적인 정보를 추출하거나 상관관계와 추세를 파악할 수 있죠. 구글 지메일처럼 아웃룩에서도 이메일 초안을 대신 써 주고, MS의 메신저 기반 협업 도구 팀즈에선 대화와 회의 내용을 실시간 요약하고 특정 인물이 어떤 발언을 했는지도 알려 줘 회의 내용을 놓치지 않도록 돕습니다. 노코드 개발 도구인 파워 플랫폼을 쓸 땐 더욱 간편하게 앱을 개발하고 반복 작업을 자동화할 수 있다고 해요. 오픈AI는 코파일럿의 기반 기술인 GPT-4 시험판을 2023년 3월 14일 텍스트와 이미지를 비롯한 다양한 데이터를 이해하는 멀티모달 AI 모델로 소개했어요. 이전 시리즈와 달리 어떤 데이터, 컴퓨팅 성능, 훈련 기법을 적용했는지에 대해선 함구했지만, 같은 날 MS가 ‘새로운 빙’에 적용한 최신 GPT 모델도 이 GPT-4를 빙 검색용으로 수정해 쓰고 있었다고 밝혀서 큰 관심을 모았죠.

생성 AI 시대의 프로그래밍, AI 프롬프트 엔지니어링

빅테크 기업의 생성 AI 서비스는 모두 초거대 모델의 잠재력을 극대화한 모습을 보여 줬다는 점에서 큰 반향을 일으키고 있지요. 그런데 과연 생성 AI 서비스의 가능성을 누구나 똑같이 100% 활용할 수 있을까요? 각 기업에서 선보인 AI 서비스는 모범 사례로 공개되었을 뿐, 실제로 일반 이용자들에게 제공되기 시작하면 서비스를 통해 얻는 결과물의 품질은 사람마다 천차만별이 될 것입니다. 똑같은 의도를 갖고 있더라도 챗GPT나 미드저니 같은 AI 서비스에 어떤 형식의 지시문을 입력하는지, 같은 형식의 문장이어도 어떤 형용사, 부사, 명사, 지시대명사를 쓰는지에 따라 상당히 다른 결과물을 내놓을 수 있기 때문이죠. 결국 다른 모든 도구와 마찬가지로 AI 역시 제대로 활용하기 위해서는 그에 걸맞은 능력이 필요해집니다.

그래서 최근 ‘AI 프롬프트 엔지니어링(prompt engineering)’이라는 능력에 주목하는 기업들이 나오고 있습니다. 여기서 프롬프트는 생성 AI 서비스에 결과를 얻기 위해 입력하는 명령 문구를 일컫습니다. AI 프롬프트 엔지니어링은 의도에 맞게 생성 AI 서비스를 다루기 위해 프롬프트의 내용과 형식을 최적화하는 기법이나 그런 방법론을 의미하고요. 이 분야의 중요성이 앞으로 더욱 더 커질 것이라고 전망하는 일부 기업들은 이 능력에 전문성을 보유한 인재, ‘AI 프롬프트 엔지니어’를 거액에 채용하려고 하고 있습니다.

AI 프롬프트 엔지니어는 2023년 3월 2일 세계경제포럼(WEF) 공식 웹사이트에 게재된 ‘당신이 채용될 수 있는 올해 뜨는 새 일자리 3가지(3 new and emerging jobs you can get hired for this year)’라는 기사에서도 주요 신흥 직업으로 소개됐어요. 이 기사는 “생성 AI가 스토리와 이미지뿐 아니라 새로운 일자리를 창출하고 있다”면서 “올해 AI와 화이트 칼라 직업에 대한 WEF 연례 회의 세션에서 전문가들이 설명한 바와 같이 기업들뿐 아니라 어린이 병원까지 AI에 올바른 질문을 입력하는 AI 프롬프트 엔지니어를 채용하고 있다”고 묘사합니다. 챗GPT를 만든 오픈AI의 샘 알트먼 공동창업자 겸 최고경영자는 이미 2023년 2월 21일 자신의 트위터 계정에 “챗봇 페르소나에 맞는 정말 뛰어난 프롬프트를 작성하는 것은 놀라울 정도로 활용도가 높은 기술이며 약간의 자연어로 프로그래밍을 수행하는 초기 사례”라고 언급했죠. 즉 프롬프트 엔지니어링이 ‘자연어’를 이용한 일종의 컴퓨터 프로그래밍이라고 비유한 것입니다.

워싱턴포스트의 2023년 2월 25일자 보도에 따르면 2023년 2월 초 미국 AI 스타트업 ‘앤스로픽’이 3억~4억원 상당 연봉을 제시하면서 AI 프롬프트 엔지니어 채용 공고를 냈어요. 보스턴 어린이 병원도 연구 및 임상 업무용 의료보건 데이터를 분석하는 스크립트 작성을 돕기 위한 AI 프롬프트 엔지니어를 구한다고 했고요. 영국 법무법인 미쉬콘 드 레야(Mishcon de Reya)는 법률 업무에 필요한 정보를 제공할 프롬프트를 설계하는 ‘법률 프롬프트 엔지니어’를 구인 중이에요. 이 직무에 지원한 사람은 챗GPT와 대화를 나눈 스크린샷을 제출해야 한다고 해요. 국내에서도 AI 프롬프트 엔지니어를 뽑는 곳이 있어요. 얼마 전 생성 AI 전문 스타트업인 뤼튼테크놀로지스가 최초로 AI 프롬프트 엔지니어를 최대 연봉 1억원을 내걸고 공개 채용한다고 밝혔죠. 이 회사는 AI 프롬프트 엔지니어에게 AI가 더 사실에 가까운 답을 내놓도록 다양한 프롬프트를 작성하고 테스트하는 업무를 맡길 계획인데, 경력이나 코딩 실력과 무관하게 채용하겠다고 하네요.

AI 프롬프트 엔지니어라는 직종이 얼마나 보편화할 것인지는 예측하기 어렵습니다. 아주 탁월한 프롬프트 작성 감각과 능력을 보유한 사람들이 전문 엔지니어로 활동하고, 이들에게 보수를 지불하고 일을 맡기는 시장이 형성될 가능성이 있겠네요. 이제 막 확산하고 있는 생성 AI라는 도구가 앞으로 얼마나 대중화할 수 있느냐에 달려 있습니다. 사진 편집 도구 시장에서 가장 유명한 컴퓨터 프로그램을 하나만 꼽으라면 누구나 미국 기업 어도비의 ‘포토샵’을 꼽을 텐데요. 지금 이 포토샵을 누구나 알고 있고 주요 기능을 익혀서 사용하는 방법도 다양한 책과 강좌를 통해 배울 수 있습니다. 하지만 이 프로그램의 모든 기능을 완전히 자유자재로 다루는 것은 전혀 다른 얘기예요. 이 프로그램의 기능을 완전히 섭렵해 탁월한 편집 실력을 발휘하는 사람들이 전문가로서 활동하고 있습니다. 영상 편집이나 엑셀, 파워포인트 작성 등 업무도 마찬가지입니다. 이런 프로그램들이 앞으로 생성 AI와 결합한다면, 그 잠재력을 극대화하는 수단은 터치나 마우스 클릭이 아니라 키보드가 되겠네요. 프로그램의 어떤 기능이나 메뉴가 어느 자리에 있는지 일일이 기억하고 눈으로 찾아 가지 않고 그걸 AI에게 찾아서 쓰도록 만드는 프롬프트가 훨씬 더 빠르고 정확한 지시 방법이 될 테니까요.

솔트룩스 네이버블로그 ‘인공지능 인사이트’ 필진으로서 작성한 열세 번째 정기 원고. 230414 솔트룩스 네이버블로그 포스팅으로 게재됨. 240114 개인 블로그에 원문 비공개로 올림. 240317 공개로 전환.