[기고] 웹에서 앱으로, 사용자와 접점 넓히는 생성 AI 서비스들

앱 아이콘을 터치하는 손. [사진=Pixabay]

생성 인공지능(AI) 서비스라고 하면 온라인 웹사이트 기반 ‘채팅 인터페이스’로 개발돼, 사용자가 텍스트를 입력해 결과를 텍스트로 되돌려주는 것이 전부일 때가 있었습니다. 사용자가 궁금한 것을 질문하거나 알아보고 싶은 정보를 찾아 달라고 요구하거나 준비된 콘텐츠를 특정한 형태로 가공해 달라고 하려면 그 내용을 단어나 문장, 문단으로 정리해야 했죠. 이 정리된 내용을 입력할 수 있는 창구는 대체로 인터넷 웹사이트 하나뿐이었고요. 따라서 이 생성 AI 서비스를 이용하는 방법은 ‘웹브라우저’를 반드시 써야 한다는 전제가 따라붙었습니다.

아무 웹브라우저나 다 쓸 수 있는 것도 아니었죠. 데스크톱, 노트북 기기의 PC용 운영체제 기반으로 구동되는 웹브라우저를 써야 했습니다. 데스크톱, 노트북 기기보다 상대적으로 화면의 크기가 작은 스마트폰, 태블릿 등 모바일 기기 환경에선 원활한 작동을 보장하지 않았거든요. 정보를 입력하고 결과를 얻는 과정이 작은 화면 크기에선 일정한 불편을 감수해야 하는 모양으로 설계돼 있곤 했습니다. 아예 키보드와 마우스 입력에 대응하도록 개발돼서 터치스크린 입력만으로 제 기능을 발휘하지 못하게 돼 있는 경우도 있었고요.

이런 웹사이트 기반 채팅 인터페이스 자체는 전 세계 인터넷을 통해 생성 AI 서비스가 대중화하는 과정의 초기에 별로 문제가 되지 않았습니다. 최근 2년 동안 오픈AI의 챗GPT부터 마이크로소프트의 빙챗, 구글의 제미나이, 앤트로픽의 클로드, 네이버의 클로바X, 솔트룩스의 구버 등이 모두 웹사이트 기반 채팅 인터페이스를 제공하는 형태로 첫 선을 보인 생성 AI 서비스였죠. 한국의 스타트업 가운데 업스테이지의 애스크업은 카카오톡 사용자가 친구로 추가하면 작동하는 메신저 기반 챗봇이어서 예외였지만요. 애스크업은 챗GPT 모델의 기능을 응용한 챗봇이라는 점만큼이나 카카오톡으로 쓸 수 있다는 점으로도 주목받았지만, 이와 비슷한 인터페이스는 널리 유행하진 않았습니다.

웹사이트 일색이던 생성 AI 인터페이스가 설치형 프로그램으로

이제는 분위기가 좀 달라지고 있는데요. 웹사이트만이 아니라 모바일 앱과 PC에 설치되는 프로그램 형태의 서비스도 등장하고 있습니다. 우선 이런 앱과 설치형 프로그램은 당연히 기존 웹사이트로 제공하던 것과 동일한 기능을 제공합니다. 올 상반기 한국과 미국에 웹 버전으로 먼저 출시되고 최근 모바일 앱으로도 출시된 솔트룩스의 구버를 예로 들 수 있겠네요.

모바일 앱 구버의 하단 주요 메뉴별 기능 화면

구버의 대표 기능인 ‘애스크 구버(Ask Goover)’는 사용자가 관심 있는 주제를 질문 형태의 문장으로 입력하면, 거대 언어 모델(LLM)의 텍스트 분석 및 생성 AI가 질문에 맞는 정보를 인터넷에서 찾아 추려내고 정리, 요약해 줍니다. 핵심 정보 중심으로 빠른 결과를 제공하는 기본적인 답변 모드인 ‘빠른 답변’ 결과가 먼저 제공되고, 이 답변이 생성될 때 AI가 참조한 외부 문서(레퍼런스) 내용을 더 상세히 파악해 더 풍부한 결과를 제공하는 ‘심층 답변’ 기능이 따로 존재하죠. 이어서 표시되는 ‘고 오버(GO OVER)’ 기능은 이 레퍼런스들을 바탕으로 관심 주제에 대한 정보를 별도의 보고서 및 브리핑 페이지로 정리해 줍니다. 나중에 자신의 리포트와 브리핑 페이지를 다시 열어 볼 수 있고, ‘소셜 브리핑’ 기능으로 다른 사람이 만든 브리핑 페이지를 구독할 수 있습니다. 이와 별개로 구버 서비스에 생성, 등록된 여러 주제의 리포트와 서비스 외부의 국영문 인터넷 정보 요약 콘텐츠를 사용자가 맞춤형으로 추천받을 수 있는 ‘스마트 브리핑’과 ‘스마트 피드’도 있고요.

제가 소개한 일련의 기능은 구버 웹사이트와 모바일 앱에서 모두 쓸 수 있습니다. 모바일 앱 하단 메뉴 가운데 맨 왼쪽에 애스크 구버 버튼이 있고, ‘디스커버리’, ‘내 리포트’, ‘내 브리핑’, ‘소셜 브리핑’ 버튼이 순서대로 배열돼 있습니다. 웹 버전에는 애스크 구버와 맞춤형 콘텐츠 추천 기능이 ‘홈’ 영역에 하나로 통합돼 있는데 모바일 앱은 이것을 애스크 구버와 디스커버리 버튼으로 나눠 놓았죠. 복잡한 정보를 한꺼번에 담는 대신 상대적으로 크기가 작은 화면 영역과 기능에 맞게 인터페이스를 일부 재구성한 것으로 보입니다. 웹 버전과 모바일 앱 버전에서 약간 다르게 작동하는 기능도 있는데, 리포트 공유가 그렇습니다. 웹 버전에서 리포트 공유를 시도하면 엑스(전 ‘트위터’), 페이스북, 링크드인 서비스에 곧장 공유할 수 있는 버튼이 기본 제공되고 이 밖에 다른 서비스에 공유할 수 있는 링크 주소가 제공됩니다. 모바일 앱으로 리포트 공유를 시도하면 스마트폰의 앱 간 공유 기능이 기본적으로 호출돼 훨씬 더 다양한 서비스에 간편하게 공유할 수 있죠.

실험 단계의 에이전트 AI, 생성 AI 서비스 경쟁 무대 위로

생성 AI 서비스 발전 과정 한 축으로 이처럼 웹사이트로 제공하던 것과 같은 기능을 모바일 기기에서 앱으로 더 편리하게 쓸 수 있게 하는 방식이 자리잡고 있는데요. 더불어 웹사이트로는 불가능하고 설치형 프로그램이기 때문에 가능해진 새로운 동작을 구현하는 모습도 나타나고 있습니다.

마이크로소프트의 ‘코파일럿 스튜디오’를 예로 들 수 있겠습니다. 코파일럿 스튜디오는 2024년 5월 마이크로소프트 연례 기술 콘퍼런스인 ‘빌드’에서 처음 소개됐습니다. 기존 ‘코파일럿’은 챗GPT 스타일의 대화형 AI 챗봇이라는 점은 비슷했어요. 다만 윈도 운영체제를 구동하는 컴퓨터 사용자에게 정보를 찾고 정리하는 내장된 앱이라는 점에서 더 높은 접근성을 갖췄습니다. 코파일럿 스튜디오는 이 앱이 할 수 있는 일을 더욱 확장한 형태입니다. 인간 사용자가 말을 걸고 작업을 지시하지 않아도 ‘코파일럿 에이전트’라는 존재가 배후에서 작동해 자동화된 작업을 수행하죠. 기업 환경에서 직원들의 윈도 기반 PC에 이 코파일럿 에이전트가 구동되고, IT 헬프데스크 서비스나 신입사원을 위한 안내와 직무 가이드 같은 반복적이지만 상호작용이 필요한 업무를 수행할 수 있다고 합니다. 해당 업무를 수행하는 데 많은 시간을 써야 하는 인사부서 등 기업의 지원업무 생산성을 높여 줄 수 있겠죠. 이런 동작을 수행하는 코파일럿 에이전트를 만들 수 있는 환경을 제공하는 것이 코파일럿 스튜디오입니다.

공개된 웹사이트나 기업 내부의 셰어포인트 기반 업무 포털, 원드라이브 등에 있는 데이터와 정보를 연결하고 코파일럿 에이전트의 동작에 필요한 사내 데이터를 가져다줍니다. 인간 직원이 업무 자료와 인터넷을 검색하며 시간과 품을 들여야 했던 일을 이제 그 직원의 PC에서 백그라운드로 작동하는 코파일럿 에이전트가 대신 맡아 줄 수 있고, 인간 직원은 비정형적이고 유연성이 필요한 업무를 맡을 수 있겠습니다.

물론 이런 시나리오가 실현되려면 기업이 실제 업무에 빠르고 정확하게 작동하는 코파일럿 에이전트를 직접 개발할 수 있어야겠죠. 마이크로소프트는 2024년 11월 개발자 대상 이벤트 ‘이그나이트’를 통해 기업 사용자들이 에이전트를 구축하고 배포할 수 있는 개발 도구를 공개 또는 비공개 시험판으로 제공하기 시작했습니다. 이 에이전트로 사용자가 코파일럿 스튜디오에 업로드한 이미지를 분석해 필요한 정보를 제공하거나, 기업이 구축한 앱이나 웹사이트에 맞춤형 음성 서비스를 제공하는 기능도 준비되고 있다고 합니다.

타이핑하는 로봇. AI로 생성. [사진=Pixabay]

마이크로소프트는 코파일럿 스튜디오를 통해 생성 AI 기술에 기반한 AI 에이전트의 광범위한 실용화 가능성을 엿볼 수 있게 했다는 데 의미가 있는데요. 그보다 이미 개인 사용자들에게 AI 에이전트의 유용함을 알리면서 인상을 남긴 것은 앤트로픽의 ‘컴퓨터 유즈’입니다. 2024년 10월 앤트로픽은 클로드 3.5 소네트 모델에 사람 대신 PC의 마우스 커서를 움직이거나 버튼을 누르고 키보드로 텍스트를 입력하는 AI 에이전트 기능을 개발자용 API로 시범 제공하기 시작했습니다. 이것이 컴퓨터 유즈라는 이름으로 소개됐죠.

앤트로픽의 컴퓨터 유즈 시연 영상을 보면 사용자는 기업의 공급업체 관련 문서를 완성하기 위해 양식에 채워 넣어야 할 내용을 요청합니다. AI는 이 작업을 수행하기 위해 필요한 절차를 파악하고 요청과 관련된 정보를 수집하기 시작합니다. 이를 위해 컴퓨터 유즈가 작동하는 PC의 화면을 직접 캡처하는데요. 사람이 그 화면을 보면서 PC를 다루듯이 이 스크린샷을 분석해 어떤 세부 동작을 수행할지 결정하면서 일을 진행하죠. AI는 양식이 비어 있는 공급업체 관련 정보를 파악하고, 사내 고객관계관리(CRM) 시스템에서 해당 공급업체 정보를 찾아 필요한 부분을 채워 제출합니다.

앤트로픽의 알렉스 알버트가 공개한 시연 영상을 보면 명령줄인터페이스(CLI) 도구인 배시(Bash)를 사용해 미국 연방정부 공공데이터 사이트에서 임의의 데이터세트를 내려받고 오픈소스 머신러닝 라이브러리를 적용해 뉴욕시 공기 질을 분석한 결과를 얻기까지 5분밖에 걸리지 않는 것을 볼 수 있습니다. 또 한 미국 스타트업 창업자가 컴퓨터 유즈 기능을 활용해 최신 AI 관련 뉴스를 조사해 달라고 한 뒤 여러 온라인 뉴스 사이트를 AI가 직접 조회하고 주요 기사 6건을 찾아 출력하는 과정이 2분 밖에 걸리지 않았다는 경험을 소개하면서 찬사를 보내고 놀라움을 표하기도 했습니다. 이처럼 일단 앤트로픽의 컴퓨터 유즈를 사용하려면 API를 다룰 수 있는 개발자여야 하고, 이 회사의 시험판 최신 기능에 접근할 수 있는 사용자여야 합니다. 개발자들 사이에서는 이 기능에 대한 기대감이 클 것 같습니다.

실험실 벗어날 수 있을까… “산업용으론 아직, 과연 효율적인지도”

코파일럿 스튜디오나 컴퓨터 유즈가 작동하려면 이렇게 운영체제와 결합할 수 있는 앱 형태로 설치되는 AI 에이전트가 존재해야 합니다. AI 에이전트는 기업의 지원부서 업무나 대고객 서비스, 일반 사용자의 자료 조사, 개인 개발자의 데이터 분석과 프로그램 개발 등에 필요한 수작업을 자동화할 수 있을 것으로 기대됩니다. 웹브라우저를 넘어 사용자 PC와 모바일 기기에서 구동되는 앱은 이러한 AI 에이전트 기능을 사용자 기기에 탑재시킬 수 있는 통로 역할을 하게 될 것 같습니다.

물론 아직은 AI 에이전트라는 개념이나 기술이 기업 내부나 산업 전반으로 광범위하게 보급되기까지 안정화된 작동을 할 수 있도록 하는 연구가 좀 더 필요하겠습니다.

2024년 11월 20일 미국 IT매체 벤처비트 보도에 따르면 싱가포르 국립대학교 연구실에서 컴퓨터 유즈를 다양한 분야에 적용한 결과를 정리한 논문을 발표했는데요. 웹 검색, 문서 작업, 비디오 게임 등 여러 유형의 작업을 놓고 컴퓨터 유즈의 활용 가능성을 검증한 결과, 컴퓨터 유즈를 작동하게 하는 앤트로픽의 AI 모델은 작업 수행에 필요한 여러 단계를 계획하고 진행하며 필요한 여러 애플리케이션을 사용하고 그 결과가 목적에 맞는지 확인하는 등 뛰어난 점이 있었습니다.

하지만 연구자들은 AI 모델에 내장된 자체 평가 메커니즘의 판단력이 부족하다고 지적했습니다. 텍스트를 선택해 바꾸거나 화면에 보이지 않는 버튼을 찾기 위해 웹페이지 스크롤을 내리는 등 인간이라면 쉽게 해낼 수 있는 작업을 수행하지 못하고 오류를 알아차리지 못하는 모습도 보였거든요. 연구자들은 또 인간이 컴퓨터를 쓰는 방법을 AI 에이전트가 실제로 이해하는 것은 아니라는 점, 보안 문제, 불안정하고 예측할 수 없는 결과를 초래할 수 있다는 점, 인간을 위해 설계된 인터페이스로 작업을 수행하는 게 효율적이지 않다는 점 등을 한계로 지적했습니다.

앤트로픽의 컴퓨터 유즈와 마이크로소프트 코파일럿 스튜디오 외에도 AI 에이전트 기술 경쟁에 다른 기업이 뛰어들 여지는 많이 있습니다. 구글은 2024년 12월에 코드명 ‘자비스(Jarvis)’라는 프로젝트를 선보일 계획으로 알려졌는데요. 컴퓨터 유즈처럼 웹브라우저를 사용해 정보를 검색하거나 제품 정보를 찾고 구매할 수 있게 할 것으로 추정되고 있습니다. 다만 구글의 크롬 브라우저에서만 자비스를 사용할 수 있을 거라고 하네요. 하지만 이 기술을 발전시키면 안드로이드 스마트폰 사용자를 위한 기능으로 제공할 수도 있을 것 같습니다. 지금도 안드로이드용 제미나이 모바일 앱은 사용자 기기 화면을 인식하는 기능을 갖추고 있죠. LLM 개발 경쟁에 집중돼 있던 생성 AI 기술 산업의 흐름이 이제 웹 기반 정보 탐색과 분석 기능을 갖춘 생성 AI를 활용해 기존 디지털 기기 사용자의 편의성을 끌어올리기 위한 신기능 아이디어 경쟁으로 빠르게 전환하고 있네요.

솔트룩스 네이버블로그 ‘인공지능 인사이트’ 필진으로서 작성한 서른 번째 정기 원고. 241220 솔트룩스 네이버블로그 포스팅으로 게재됨. 250127 개인 블로그에 원문 비공개로 올림. 250418 공개로 전환.