16번째 개최된 SAC 2022 현장에선 포스트 코로나 시대에 접어드는 현재 AI와 새롭게 주목받고 있는 메타버스·웹3(Web3) 기술이 한 데 어우러진 미래를 예견한 솔트룩스의 신사업 전략이 구체화됐다. 행사 키노트에서 이경일 솔트룩스 대표는 인류가 현대에 폭증하고 있는 정보량을 감당하고 지적 능력의 한계를 극복하기 위해 인간과 기계의 협력이 본격화하는 새로운 AI 시대가 도래할 것이라는 전망을 내놨다. 솔트룩스의 임직원들이 이 분야의 해외 연구 동향과 솔트룩스의 AI 연구 현황을 소개했다. 행사 현장에서 발표된 주요 내용과 메시지를 아래에 정리했다.
“타인과 소통하기 위해 발달된 인류 뇌…문명 탄생 이래 정보량 6조배 폭증”
이경일 솔트룩스 대표는 ‘경험, 동료+진심’이라는 제목으로 진행된 키노트의 주 연사로 나섰다. 그는 “새로운 메타버스 세상에서 AI가 어떤 역할을 하게 될지, 우리 삶을 어떻게 혁신할지 얘기를 나눠 보고자 한다”며 “핵심 주제는 시간”이라고 말했다.
이 대표는 “(문자) 문명 이전의 모든 의사소통은 글이 존재하지 않아 말을 통해서만 가능했다”며 문명 이전 인류가 가진 정보량은 한 사람이 평생 말 할 수 있는 분량인 300메가바이트(MB)밖에 안 됐는데 현재는 100제타바이트(ZB)라는 상상하기 어려운 규모로, 3조배 이상으로 인류의 정보량이 늘어났다”고 설명했다. 그에 따르면 1950년 생각하는 기계의 구현 가능성을 다룬 논문을 통해 ‘튜링 테스트’라는 실험을 제안한 컴퓨터과학자 앨런 튜링이 살았던 시대의 정보량은 100기가바이트(GB)에 불과했는데, 당시의 모든 지식이 고작 오늘날의 USB 플래시메모리 하나에 다 담길 정도였다는 얘기다. 이 대표는 “인류의 정보량은 1980년대 정보를 저장하고 유통할 수 있는 컴퓨터가 나오고 특히 인터넷이 탄생해 폭발적으로 증가하게 됐다”면서 “에니악, IBM의 메인프레임, PC, 스마트폰에 이르기까지 정보를 가공, 저장, 유통, 재생산하기 위한 노력이 시작됐다”고 지적했다.
“향후 100년은 지능 증강 시대…가상세계 속 AI, 경제 파급력 클 것”
주목할 것은 기계가 아니라 인간의 능력이라는 설명이 이어졌다. 이 대표는 인간의 뇌세포를 연결해 지도처럼 형상화한 ‘커넥톰(connectome)’ 이미지를 띄웠다. 이어 그는 “우리는 지난주 화요일 아침식사로 뭘 먹었는지, 작년 오늘 날짜에 무슨 일을 했는지 기억해내지 못한다”며 “생존하기 위해 필요한 정보만 걸러 내어 밤새 자는 동안 저장소에 저장하기 때문”이라고 설명했다. 그는 “어느 순간 세상에 존재하는 정보량이 내가 집중해서 학습할 수 있도록 도와주는 ‘어텐션 필터’의 한계 용량을 넘어서게 됐는데, 그럼에도 뇌는 인간의 인지능력 덕분에 어마어마한 일을 해내고 있다”고 덧붙였다. 또 “인간은 글을 쓰고, 번식을 하고, 자신의 즐거움을 위해 모든 것을 할 수 있고 새로운 비즈니스 모델을 발전시킬 수 있는 플랫폼(기반) 그 자체”라면서 “인간은 내게 부족한 것을 다른 사람과 협력해 만들어 왔고 커뮤니티를 통해 플랫폼과 플랫폼이 연결되는 ‘메타 플랫폼’을 만들어 왔다”고 강조했다.
이 대표는 “20~30년 사이 큰 변화 중 하나는 (협업하는) 우리의 뇌가 모든 것을 (혼자서) 알기보다 집중적인 문제 해결 능력을 갖는 것으로 진화하고 있다는 점”이라며 “저는 인간이 다른 인간, 기계와 협력함으로써 지적 능력의 한계를 극복하고 정보를 처리하는 능력을 증강(augmenting)하는 플랫폼, ‘메타휴먼 플랫폼’으로 진화할 수 있을 것이라고 본다”고 전망했다. 그는 “향후 100년은 우리 인간의 지능이 증강하는 지능 증강 시대가 되고, 먼 미래에는 로봇이 되겠지만, 당분간은 가상 세계에서 우리처럼 몸을 가지고 행동하고 교감하는 새 AI 세상이 도래하고, 특히 우리 경제 질서에 이 변화가 큰 영향을 미칠 것이라고 확신한다”면서 “그러려면, AI와 사람이 협력하려면 둘 사이의 지적 능력 격차가 줄고 (AI가 사람처럼) 말하고 웃고 협업하는 것이 필요할 것”이라고 언급했다.
“사람처럼 보고 듣고 말하는 멀티모달 기술 연구는 이제 시작”
김재은 솔트룩스 AI랩스 리더는 인간을 닮은 메타휴먼을 구현하기 위한 최근의 AI 기술 연구 동향을 소개했다. 그는 메타휴먼을 구현하기 위해 잘 가꿔진 외모뿐 아니라 다양한 기술적인 도전과제가 있고, 솔트룩스는 그 중 외부의 정보를 보고 듣는 인지 능력, 언어로 인지하는 사고능력, 말로 생각을 전달하고 사람처럼 울고 웃으며 감정을 표현하는 능력, 세 가지 상호작용 기술에 집중하고 있다고 설명했다.
기계의 인지 능력은 영상 객체 인식과 음성 인식 등 기술로 나뉜다. 김 리더는 “딥러닝 기반 인지 능력은 기계가 사람을 뛰어넘은 지 오래돼, 사람보다 더 잘 보고 듣는다”고 말했다. 그런데 그는 “각 인지 기술을 독립적으로 놓고 한정된 환경에서 평가하면 사람을 능가했다고 하지만 사람은 시끄러운 환경에서 원하는 소리에만 집중해 소리를 듣거나, 듣는 동시에 눈으로도 정보를 확인한다”면서 “(사람처럼 소통하는) 메타휴먼을 위한 인지 기술은 (시각과 청각 정보를 동시에 처리하는) 멀티모달을 통해 상호 보완하는 방향으로 발전해 기존과 전혀 다른 패러다임이 펼쳐질 것이라고 예상한다”고 말했다. 통제된 환경에서 인간처럼 말을 알아듣고 문자 언어를 읽고 눈으로 사물을 인식하는 기술은 각각 인간의 수준을 넘어섰지만 이 능력이 통합된 통합인지(멀티모달) 기술은 이제 막 시작됐다는 설명이다.
“초거대 모델이 필수일까…한정된 뇌 활용하는 사람 같은 AI 연구 중”
김 리더는 “최근 5년 사이 구글의 BERT라는 모델을 시작으로 초거대 파라미터를 사용하는 흐름이 나타나고 있는데 사람으로 치면 뇌 용량이 아주 커지는 것이고, 이는 초월적인 사고력을 위해 상상 속 외계인처럼 머리를 아주 크게 키운 것”이라면서 “이렇게 학습된 (초거대) 언어 모델은 20장짜리 논문을 몇 초 만에 읽고 요약하고 한국어뿐 아니라 각국의 언어를 구사할 수 있지만 이런 초거대 모델이 과연 메타휴먼의 사고력에 필요할지 의문이 들 때가 있다”고 언급했다. 그는 “뇌 크기가 한정된 사람은 어떻게 (끊임없이) 새로운 것을 학습할까 의문을 갖게 되는데 요즘 많은 데이터를 학습하면서 파라미터 수를 크게 줄인 구글의 ‘친칠라(Chinchilla)’같은 모델이 소개되고 있다”면서 “솔트룩스도 필요한 정보에 집중해 사람처럼 효율적으로 학습할 수 있는 언어 모델 기술을 개발하는 데 집중하고 있다”고 설명했다.
사람처럼 자연스럽게 느껴지는 음성 합성, 얼굴을 비롯한 그래픽 합성 기술은 메타휴먼의 소통 능력에 필요한 또 다른 요소다. 음성 합성 분야는 지난 2017년 ‘타코트론’이라는 기술을 제시한 논문을 시작으로 점차 성능이 향상되기 시작했고 사람과 96% 수준까지 유사하게 말할 수 있을 만큼 발전했다. 김 리더는 “메타휴먼이 사람처럼 말하는 것은 이제 기본이고 앞으로 (메타휴먼에 부여된) 직업에 따라, 아나운서처럼 말하거나 스튜어디스처럼 말하게 하는 방향으로도 발전할 수 있을 것 같다”고 말했다. 그는 또 “이미지 생성 모델로 실제 모델 사진과 구별하기 힘든 수준으로 자연스러운 얼굴을 만들어내기도 하고, 사람이 상상하는 것처럼 주어진 텍스트에 딱 맞는 이미지를 합성해내기도 한다”면서 “앞으로 이런 기술을 메타휴먼과 어떻게 접목할 것인지 연구 중”이라고 언급했다.
소음이 없는 맞춤형 검색엔진, 딥시그널…“나를 대신해 심층 웹까지 탐색”
키노트에 이어 조슈아 배 솔트룩스 미국법인장이 딥시그널을 개발하게 된 배경과 주요 기능, 올해 하반기와 내년 예정된 서비스 개발 및 출시 로드맵을 공개했다.
배 법인장은 “우리는 인간으로서 엄청난 (정보가 증가하는) 속도와 정보량에 압도돼 우리의 인지능력이 도저히 그에 따라갈 수 없다”면서 “이는 우리의 관심이 수많은 주제로 나뉘고 끝없는 알림으로 파편화되고 있다는 것”이라고 말했다. 그는 “1998년 구글 검색엔진에 ‘구글’이라는 검색어를 넣으면 25만 개 정도의 결과를 얻을 수 있을 것이고 오늘 같은 검색을 한다면 1초도 걸리지 않아 250억 개의 문서가 나오는 것을 볼 수 있을 것”이라면서 “1998년보다 10만 배 더 많은 결과를 얻었다고 제가 10만 배 더 유용한 정보를 얻을 수 있을까? 그렇지 않고 아마도 저는 10여개 문서를 읽는 데 그칠 것”이라고 말했다.
솔트룩스의 딥시그널은 AI 기술로 초개인화 경험을 제공하는 ‘지식 어시스턴트’다. 아마존, 넷플릭스, 유튜브 등 서비스에서 AI 기술로 제공하는 맞춤형 정보 탐색 기술보다 한 차원 발전한 개인화 경험을 지원한다는 것이 초개인화 경험의 핵심 메시지다. 솔트룩스의 딥시그널 개발진은 AI가 사용자의 의도와 관심을 완전히 이해했을 때 초개인화 경험이 실현될 수 있다고 강조했다. 예를 들어 ‘모션(Motion)’이라는 단어로 무언가를 검색한다고 했을 때, 사용자의 관심이 어디에 있느냐에 따라 이 단어로 찾아야 할 정보의 범주가 완전히 달라진다. 이 단어는 양자역학에서 양자의 상태를 표현할 수 있고, 안무(choreography) 영역에선 동작의 요소를 의미할 수 있다. 법원에서는 모션이 ‘사건 당사자가 소송 중 판사에게 어떤 결정·명령을 내려달라고 요청하는 행위’를 뜻한다. 이런 서로 다른 범주의 정보를 사용자가 갖는 의도와 관심에 맞춰 제공하는 것이 초개인화 경험이고 딥시그널이 그 경험을 제공하는 AI 서비스라는 설명이다.
딥시그널은 ‘심층 웹(deep web)’을 탐색해 표층 웹보다 사용자에게 더 유용한 정보를 수집한다. 딥시그널의 ‘인텔리전트 서치 에이전트’라는 도구가 회원가입을 요구하는 웹사이트를 비롯해 사용자가 선호하고 신뢰할 수 있는 정보 출처를 찾아낸다. 사용자는 우선순위 높은 업무에 집중하고, 인텔리전트 서치 에이전트가 대신 사용자처럼 웹에서 정보를 수집해 정리된 형태로 보여 주는 조수 역할을 하게 된다.
딥시그널 2023년 상용화…NFT로 사용자 맞춤형 AI 거래하는 장터 열린다
솔트룩스는 20년 간 축적된 데이터 수집, 검색, 추천 기술과 3세대 AI라고 불리는 ‘신경-상징 AI(Neuro-symbolic AI)’를 통해 설명 가능한 AI 분야 기술력과 방대한 지식자산을 축적해 딥시그널을 구현할 수 있다고 자부했다. 솔트룩스가 제시하는 딥시그널의 타깃 이용자는 우선 지식노동자 계층이다. 투자자를 대상으로 관심 산업에 대한 조망, 새로운 주제, 잠재적 위험 요소를 제시해 투자 의사결정을 도울 수 있다. 언론인들이 다국어 기반의 복잡한 의제, 유명인사, 중요한 사건 등을 이해할 수 있도록 지원할 수 있다. 배 법인장은 “딥시그널은 최신 기술 트렌드에 초점을 맞춰 거시적이고 미시적인 수준에서 소비자들의 감정을 수집하고 분석할 수 있다”며 “우리는 북미에서만 약 2억명의 이용자들이 딥시그널을 이용해 혜택을 얻을 것으로 추정한다”고 강조했다.
딥시그널은 AI 기술을 기업과 공공기관의 정보시스템 구축 환경에 제공하는 B2B 및 B2G 사업에 주력해 온 솔트룩스가 B2C 분야에 도전하는 신호탄이 될 전망이다. 사용자는 ‘초개인화 광고’를 보면서 딥시그널의 네 가지 주요 기능인 스마트 피드(Smart Feed), 라이브 인사이츠(Live Insights), 리마커블 피플(Remarkable People), 시그널 디텍션(Signal Detection) 등을 무료로 온전히 이용할 수 있다. 배 법인장은 “딥시그널은 초개인화 기반의 여러 분야 정보를 추천하고 사용자는 자신의 의사결정에 영향을 줄 수 있는 신호를 놓치지 않게 된다”며 “사용자는 딥시그널의 ‘신호 감지’ 기능으로 자신에게 중요한 이벤트와 이상 징후를 인식해 미래에 생길 기회와 위험에 대비할 수 있다”고 설명했다.
배 법인장은 “딥시그널 마켓플레이스는 새로운 이용자가 다른 이용자의 AI를 구독해 AI로 지능을 증강하는 경험을 앞당길 수 있다”면서 “이 때 AI는 대체불가능토큰(NFT)을 통해 개인 고유 자산으로 인증되고 거래되고, 딥시그널 마켓플레이스는 약간의 수수료를 부과해 이런 거래가 안전하게 이뤄지도록 함으로써 AI 경제가 시작될 것”이라고 밝혔다.
—
솔트룩스 네이버블로그 ‘인공지능 인사이트’ 필진으로서 작성한 다섯 번째 정기 원고. 220629 솔트룩스 네이버블로그 포스팅으로 게재됨. 230125 개인 블로그에 원문 비공개로 올림. 230531 공개로 전환.