인공지능(AI) 소프트웨어 기업 솔트룩스가 지난 22일 ‘솔트룩스 AI 컨퍼런스(SAC) 2022’를 열고 초개인화 경험을 제공하는 차세대 AI 서비스 ‘딥시그널(DeepSignal)’을 공개했다. 딥시그널은 수많은 온라인 정보 가운데 유용한 것만 골라 제공할 수 있는 나만의 AI 비서이자, 인간을 도와 지적 노동을 수행해 줄 미래의 협업 상대로 묘사됐다. 컴퓨터와 인터넷의 등장으로 과거 어느 때보다 많은 데이터에 매몰되고 있는 인류를 딥시그널이 구원해 줄 수 있을지 주목된다.
솔트룩스는 앞서 사람과 지적으로 협력하는 국산 AI 소프트웨어 개발을 목표로 하는 국책사업 ‘엑소브레인’ 프로젝트를 10년째 주관해 왔고, 자연어 기반 지식베이스와 심층 질의응답 기술을 확보하면서 언어 처리 분야의 AI 기술을 고도화해 왔다. 최근 들어 텍스트 형태의 자연어 처리, 음성 인식·합성 기술과 인간의 외모를 정교한 컴퓨터 그래픽으로 표현하는 디지털 휴먼 기술 등을 융합해 사람처럼 말하고, 듣고, 보고, 움직이고, 반응하는 ‘메타휴먼’을 선보이고 있다.
16번째 개최된 SAC 2022 현장에선 포스트 코로나 시대에 접어드는 현재 AI와 새롭게 주목받고 있는 메타버스·웹3(Web3) 기술이 한 데 어우러진 미래를 예견한 솔트룩스의 신사업 전략이 구체화됐다. 행사 키노트에서 이경일 솔트룩스 대표는 인류가 현대에 폭증하고 있는 정보량을 감당하고 지적 능력의 한계를 극복하기 위해 인간과 기계의 협력이 본격화하는 새로운 AI 시대가 도래할 것이라는 전망을 내놨다. 솔트룩스의 임직원들이 이 분야의 해외 연구 동향과 솔트룩스의 AI 연구 현황을 소개했다. 행사 현장에서 발표된 주요 내용과 메시지를 아래에 정리했다.
“타인과 소통하기 위해 발달된 인류 뇌…문명 탄생 이래 정보량 6조배 폭증”
이경일 솔트룩스 대표는 ‘경험, 동료+진심’이라는 제목으로 진행된 키노트의 주 연사로 나섰다. 그는 “새로운 메타버스 세상에서 AI가 어떤 역할을 하게 될지, 우리 삶을 어떻게 혁신할지 얘기를 나눠 보고자 한다”며 “핵심 주제는 시간”이라고 말했다.
인류의 선조인 호모(Homo) 종족이 나타난 시기는 지금으로부터 400만년 전 경이다. 단순한 문제해결 방법을 생각하고 도구를 사용하거나 불을 피울 수 있는 이 종족의 뇌 신경세포는 400억개 정도였다. 30만 년 전에는 인류의 직계 조상인 ‘호모 사피엔스’가 등장했는데 이 종족의 뇌 신경세포는 900억개였다. 이 대표는 “호모 사피엔스는 손도끼, 활과 창을 만들거나 동굴벽화를 그렸고 바퀴를 만들기도 했다”면서 “현대인류에게도 평균적으로 뇌 신경세포 1000억개가 있는데 실제로는 (더 늘지 않고) 줄어들고 있기도 하다고 한다”면서 “그 과정에 뇌의 바깥쪽 대뇌피질과 전전두엽(前前頭葉, prefrontal lobe)이라고 하는 타인과 소통하기 위한 뇌 부위가 발달하고 있다”고 말했다. 전전두엽은 대뇌피질 가운데 인간의 인격기능을 수행하는 부위로 통찰, 자기인식, 계획, 의사결정, 작업기능, 언어생성, 인지, 신체적 표현, 정보 통합, 계획 형성, 행동 수행, 주의, 동기, 이성적 사고, 지남력(orientation: 시간, 장소, 사람 등 자신이 놓여 있는 상황을 올바르게 인식하는 능력) 등 동물과 구별되는 능력에 관여한다고 알려져 있다.
이 대표는 “(문자) 문명 이전의 모든 의사소통은 글이 존재하지 않아 말을 통해서만 가능했다”며 문명 이전 인류가 가진 정보량은 한 사람이 평생 말 할 수 있는 분량인 300메가바이트(MB)밖에 안 됐는데 현재는 100제타바이트(ZB)라는 상상하기 어려운 규모로, 3조배 이상으로 인류의 정보량이 늘어났다”고 설명했다. 그에 따르면 1950년 생각하는 기계의 구현 가능성을 다룬 논문을 통해 ‘튜링 테스트’라는 실험을 제안한 컴퓨터과학자 앨런 튜링이 살았던 시대의 정보량은 100기가바이트(GB)에 불과했는데, 당시의 모든 지식이 고작 오늘날의 USB 플래시메모리 하나에 다 담길 정도였다는 얘기다. 이 대표는 “인류의 정보량은 1980년대 정보를 저장하고 유통할 수 있는 컴퓨터가 나오고 특히 인터넷이 탄생해 폭발적으로 증가하게 됐다”면서 “에니악, IBM의 메인프레임, PC, 스마트폰에 이르기까지 정보를 가공, 저장, 유통, 재생산하기 위한 노력이 시작됐다”고 지적했다.
“향후 100년은 지능 증강 시대…가상세계 속 AI, 경제 파급력 클 것”
주목할 것은 기계가 아니라 인간의 능력이라는 설명이 이어졌다. 이 대표는 인간의 뇌세포를 연결해 지도처럼 형상화한 ‘커넥톰(connectome)’ 이미지를 띄웠다. 이어 그는 “우리는 지난주 화요일 아침식사로 뭘 먹었는지, 작년 오늘 날짜에 무슨 일을 했는지 기억해내지 못한다”며 “생존하기 위해 필요한 정보만 걸러 내어 밤새 자는 동안 저장소에 저장하기 때문”이라고 설명했다. 그는 “어느 순간 세상에 존재하는 정보량이 내가 집중해서 학습할 수 있도록 도와주는 ‘어텐션 필터’의 한계 용량을 넘어서게 됐는데, 그럼에도 뇌는 인간의 인지능력 덕분에 어마어마한 일을 해내고 있다”고 덧붙였다. 또 “인간은 글을 쓰고, 번식을 하고, 자신의 즐거움을 위해 모든 것을 할 수 있고 새로운 비즈니스 모델을 발전시킬 수 있는 플랫폼(기반) 그 자체”라면서 “인간은 내게 부족한 것을 다른 사람과 협력해 만들어 왔고 커뮤니티를 통해 플랫폼과 플랫폼이 연결되는 ‘메타 플랫폼’을 만들어 왔다”고 강조했다.
이 대표는 “20~30년 사이 큰 변화 중 하나는 (협업하는) 우리의 뇌가 모든 것을 (혼자서) 알기보다 집중적인 문제 해결 능력을 갖는 것으로 진화하고 있다는 점”이라며 “저는 인간이 다른 인간, 기계와 협력함으로써 지적 능력의 한계를 극복하고 정보를 처리하는 능력을 증강(augmenting)하는 플랫폼, ‘메타휴먼 플랫폼’으로 진화할 수 있을 것이라고 본다”고 전망했다. 그는 “향후 100년은 우리 인간의 지능이 증강하는 지능 증강 시대가 되고, 먼 미래에는 로봇이 되겠지만, 당분간은 가상 세계에서 우리처럼 몸을 가지고 행동하고 교감하는 새 AI 세상이 도래하고, 특히 우리 경제 질서에 이 변화가 큰 영향을 미칠 것이라고 확신한다”면서 “그러려면, AI와 사람이 협력하려면 둘 사이의 지적 능력 격차가 줄고 (AI가 사람처럼) 말하고 웃고 협업하는 것이 필요할 것”이라고 언급했다.
“사람처럼 보고 듣고 말하는 멀티모달 기술 연구는 이제 시작”
메타휴먼은 AI 기술을 활용해 사람과 대화를 나누고 사람처럼 반응할 수 있는 가상인간을 의미한다. 기계가 인간의 협력에 대비하기 위해 필요한 기본적인 능력을 갖추려면 시청각적 소통이 가능한 메타휴먼으로 구현될 필요가 있다.
김재은 솔트룩스 AI랩스 리더는 인간을 닮은 메타휴먼을 구현하기 위한 최근의 AI 기술 연구 동향을 소개했다. 그는 메타휴먼을 구현하기 위해 잘 가꿔진 외모뿐 아니라 다양한 기술적인 도전과제가 있고, 솔트룩스는 그 중 외부의 정보를 보고 듣는 인지 능력, 언어로 인지하는 사고능력, 말로 생각을 전달하고 사람처럼 울고 웃으며 감정을 표현하는 능력, 세 가지 상호작용 기술에 집중하고 있다고 설명했다.
기계의 인지 능력은 영상 객체 인식과 음성 인식 등 기술로 나뉜다. 김 리더는 “딥러닝 기반 인지 능력은 기계가 사람을 뛰어넘은 지 오래돼, 사람보다 더 잘 보고 듣는다”고 말했다. 그런데 그는 “각 인지 기술을 독립적으로 놓고 한정된 환경에서 평가하면 사람을 능가했다고 하지만 사람은 시끄러운 환경에서 원하는 소리에만 집중해 소리를 듣거나, 듣는 동시에 눈으로도 정보를 확인한다”면서 “(사람처럼 소통하는) 메타휴먼을 위한 인지 기술은 (시각과 청각 정보를 동시에 처리하는) 멀티모달을 통해 상호 보완하는 방향으로 발전해 기존과 전혀 다른 패러다임이 펼쳐질 것이라고 예상한다”고 말했다. 통제된 환경에서 인간처럼 말을 알아듣고 문자 언어를 읽고 눈으로 사물을 인식하는 기술은 각각 인간의 수준을 넘어섰지만 이 능력이 통합된 통합인지(멀티모달) 기술은 이제 막 시작됐다는 설명이다.
“초거대 모델이 필수일까…한정된 뇌 활용하는 사람 같은 AI 연구 중”
김 리더는 “최근 5년 사이 구글의 BERT라는 모델을 시작으로 초거대 파라미터를 사용하는 흐름이 나타나고 있는데 사람으로 치면 뇌 용량이 아주 커지는 것이고, 이는 초월적인 사고력을 위해 상상 속 외계인처럼 머리를 아주 크게 키운 것”이라면서 “이렇게 학습된 (초거대) 언어 모델은 20장짜리 논문을 몇 초 만에 읽고 요약하고 한국어뿐 아니라 각국의 언어를 구사할 수 있지만 이런 초거대 모델이 과연 메타휴먼의 사고력에 필요할지 의문이 들 때가 있다”고 언급했다. 그는 “뇌 크기가 한정된 사람은 어떻게 (끊임없이) 새로운 것을 학습할까 의문을 갖게 되는데 요즘 많은 데이터를 학습하면서 파라미터 수를 크게 줄인 구글의 ‘친칠라(Chinchilla)’같은 모델이 소개되고 있다”면서 “솔트룩스도 필요한 정보에 집중해 사람처럼 효율적으로 학습할 수 있는 언어 모델 기술을 개발하는 데 집중하고 있다”고 설명했다.
이경일 대표로부터 “구글에서 람다2(lamda 2) 모델을 개발한 연구원이 이 모델에 의식과 생각이 있고 영혼이 느껴진다고 했다는 얘기가 최근 이슈인데 어떻게 보느냐”는 질문을 받은 김 리더는 “메타휴먼에게는 단순히 정답을 알려 주는 챗봇보다 페르소나를 기반으로 성격이나 기억을 학습하고 경험에 기반해 말하도록 하는 게 훨씬 중요하다”면서 “람다가 인간처럼 생각하고 추론할 수 있다고 얘기한 연구원의 사례는 사람이 보기에 자의식을 갖고 얘기하는 것인지 아닌지 판단하기 힘들 정도로 언어모델 수준이 높아졌다는 것”이라고 언급했다.
사람처럼 자연스럽게 느껴지는 음성 합성, 얼굴을 비롯한 그래픽 합성 기술은 메타휴먼의 소통 능력에 필요한 또 다른 요소다. 음성 합성 분야는 지난 2017년 ‘타코트론’이라는 기술을 제시한 논문을 시작으로 점차 성능이 향상되기 시작했고 사람과 96% 수준까지 유사하게 말할 수 있을 만큼 발전했다. 김 리더는 “메타휴먼이 사람처럼 말하는 것은 이제 기본이고 앞으로 (메타휴먼에 부여된) 직업에 따라, 아나운서처럼 말하거나 스튜어디스처럼 말하게 하는 방향으로도 발전할 수 있을 것 같다”고 말했다. 그는 또 “이미지 생성 모델로 실제 모델 사진과 구별하기 힘든 수준으로 자연스러운 얼굴을 만들어내기도 하고, 사람이 상상하는 것처럼 주어진 텍스트에 딱 맞는 이미지를 합성해내기도 한다”면서 “앞으로 이런 기술을 메타휴먼과 어떻게 접목할 것인지 연구 중”이라고 언급했다.
소음이 없는 맞춤형 검색엔진, 딥시그널…“나를 대신해 심층 웹까지 탐색”
키노트에 이어 조슈아 배 솔트룩스 미국법인장이 딥시그널을 개발하게 된 배경과 주요 기능, 올해 하반기와 내년 예정된 서비스 개발 및 출시 로드맵을 공개했다.
배 법인장은 “우리는 인간으로서 엄청난 (정보가 증가하는) 속도와 정보량에 압도돼 우리의 인지능력이 도저히 그에 따라갈 수 없다”면서 “이는 우리의 관심이 수많은 주제로 나뉘고 끝없는 알림으로 파편화되고 있다는 것”이라고 말했다. 그는 “1998년 구글 검색엔진에 ‘구글’이라는 검색어를 넣으면 25만 개 정도의 결과를 얻을 수 있을 것이고 오늘 같은 검색을 한다면 1초도 걸리지 않아 250억 개의 문서가 나오는 것을 볼 수 있을 것”이라면서 “1998년보다 10만 배 더 많은 결과를 얻었다고 제가 10만 배 더 유용한 정보를 얻을 수 있을까? 그렇지 않고 아마도 저는 10여개 문서를 읽는 데 그칠 것”이라고 말했다.
솔트룩스의 딥시그널은 AI 기술로 초개인화 경험을 제공하는 ‘지식 어시스턴트’다. 아마존, 넷플릭스, 유튜브 등 서비스에서 AI 기술로 제공하는 맞춤형 정보 탐색 기술보다 한 차원 발전한 개인화 경험을 지원한다는 것이 초개인화 경험의 핵심 메시지다. 솔트룩스의 딥시그널 개발진은 AI가 사용자의 의도와 관심을 완전히 이해했을 때 초개인화 경험이 실현될 수 있다고 강조했다. 예를 들어 ‘모션(Motion)’이라는 단어로 무언가를 검색한다고 했을 때, 사용자의 관심이 어디에 있느냐에 따라 이 단어로 찾아야 할 정보의 범주가 완전히 달라진다. 이 단어는 양자역학에서 양자의 상태를 표현할 수 있고, 안무(choreography) 영역에선 동작의 요소를 의미할 수 있다. 법원에서는 모션이 ‘사건 당사자가 소송 중 판사에게 어떤 결정·명령을 내려달라고 요청하는 행위’를 뜻한다. 이런 서로 다른 범주의 정보를 사용자가 갖는 의도와 관심에 맞춰 제공하는 것이 초개인화 경험이고 딥시그널이 그 경험을 제공하는 AI 서비스라는 설명이다.
기존 검색엔진은 수동적으로 작동하고 사용자가 한 번에 다룰 수 없을 만큼 많은 결과를 보여 준다. 전체 인터넷에서 공개된 ‘표층 웹(surface web)’을 통해서만 데이터를 수집하기 때문에 제공할 수 있는 정보의 범위도 제한적이다. 배 법인장은 “기존 검색엔진은 귀중한 데이터 소스의 90% 이상을 (검색 대상에서) 제외하고 우리가 처리할 수 없는 규모의 정보와 소음(noise)을 같이 제공한다”며 “수동적인 검색을 능동적 검색으로 대체하는 것, 인지능력을 향상시키고 사람들이 쉽게 이해할 수 있도록 정보를 통합해 통찰력을 얻도록 하는 것이 우리의 과제였다”고 밝혔다.
딥시그널은 ‘심층 웹(deep web)’을 탐색해 표층 웹보다 사용자에게 더 유용한 정보를 수집한다. 딥시그널의 ‘인텔리전트 서치 에이전트’라는 도구가 회원가입을 요구하는 웹사이트를 비롯해 사용자가 선호하고 신뢰할 수 있는 정보 출처를 찾아낸다. 사용자는 우선순위 높은 업무에 집중하고, 인텔리전트 서치 에이전트가 대신 사용자처럼 웹에서 정보를 수집해 정리된 형태로 보여 주는 조수 역할을 하게 된다.
딥시그널 2023년 상용화…NFT로 사용자 맞춤형 AI 거래하는 장터 열린다
솔트룩스는 20년 간 축적된 데이터 수집, 검색, 추천 기술과 3세대 AI라고 불리는 ‘신경-상징 AI(Neuro-symbolic AI)’를 통해 설명 가능한 AI 분야 기술력과 방대한 지식자산을 축적해 딥시그널을 구현할 수 있다고 자부했다. 솔트룩스가 제시하는 딥시그널의 타깃 이용자는 우선 지식노동자 계층이다. 투자자를 대상으로 관심 산업에 대한 조망, 새로운 주제, 잠재적 위험 요소를 제시해 투자 의사결정을 도울 수 있다. 언론인들이 다국어 기반의 복잡한 의제, 유명인사, 중요한 사건 등을 이해할 수 있도록 지원할 수 있다. 배 법인장은 “딥시그널은 최신 기술 트렌드에 초점을 맞춰 거시적이고 미시적인 수준에서 소비자들의 감정을 수집하고 분석할 수 있다”며 “우리는 북미에서만 약 2억명의 이용자들이 딥시그널을 이용해 혜택을 얻을 것으로 추정한다”고 강조했다.
딥시그널은 AI 기술을 기업과 공공기관의 정보시스템 구축 환경에 제공하는 B2B 및 B2G 사업에 주력해 온 솔트룩스가 B2C 분야에 도전하는 신호탄이 될 전망이다. 사용자는 ‘초개인화 광고’를 보면서 딥시그널의 네 가지 주요 기능인 스마트 피드(Smart Feed), 라이브 인사이츠(Live Insights), 리마커블 피플(Remarkable People), 시그널 디텍션(Signal Detection) 등을 무료로 온전히 이용할 수 있다. 배 법인장은 “딥시그널은 초개인화 기반의 여러 분야 정보를 추천하고 사용자는 자신의 의사결정에 영향을 줄 수 있는 신호를 놓치지 않게 된다”며 “사용자는 딥시그널의 ‘신호 감지’ 기능으로 자신에게 중요한 이벤트와 이상 징후를 인식해 미래에 생길 기회와 위험에 대비할 수 있다”고 설명했다.
솔트룩스는 딥시그널의 내부 서비스 기능과 안정성 검증을 거쳐 올해 10월부터 일반 이용자 대상으로 오픈 베타 서비스를 시작한다. 현재 개인 외에 기업과 정부기관 사용자를 위한 추가 기능(팀 협업, 완전 맞춤형 이상징후 탐지, 사용자 정의 인사이트 등)도 개발되고 있다. 내년 1월 딥시그널이 정식 출시된다. 기업 사용자들은 마이크로소프트 팀즈, 슬랙, 세일즈포스, 구글독스 등 주요 협업 도구에 통합되는 딥시그널 유료 버전을 쓸 수 있다. 개인 딥시그널 이용자는 자신의 지식과 경험을 활용해 훈련된 AI 모델을 혼자만 쓰는 것이 아니라 내년 5월 열리는 마켓플레이스를 통해 다른 이용자에게도 판매할 수 있게 된다.
배 법인장은 “딥시그널 마켓플레이스는 새로운 이용자가 다른 이용자의 AI를 구독해 AI로 지능을 증강하는 경험을 앞당길 수 있다”면서 “이 때 AI는 대체불가능토큰(NFT)을 통해 개인 고유 자산으로 인증되고 거래되고, 딥시그널 마켓플레이스는 약간의 수수료를 부과해 이런 거래가 안전하게 이뤄지도록 함으로써 AI 경제가 시작될 것”이라고 밝혔다.
—
솔트룩스 네이버블로그 ‘인공지능 인사이트’ 필진으로서 작성한 다섯 번째 정기 원고. 220629 솔트룩스 네이버블로그 포스팅으로 게재됨. 230125 개인 블로그에 원문 비공개로 올림. 230531 공개로 전환.