2022년 말 등장한 초거대 인공지능(AI) 챗봇인 ‘챗GPT(ChatGPT)’의 파장이 지속하고 있습니다. 챗GPT가 구사하는 언어 표현이 마치 진짜 사람처럼 유창하고, 상당히 방대한 분야에 능통한 지식을 갖고 있는 것처럼 보이기 때문이죠. 챗GPT를 활용하면 우선 일반적인 아이디어 수집과 정보 요약에 드는 품을 덜 수 있다고 하지요. 실제로 개인이 가사, 요리, 학습 등 경험해 보지 않았던 일상 활동을 시작할 때 도움이 될 만한 조언을 목록으로 제시해 주기도 하고, 초보 개발자에게 특정한 프로그래밍 언어로 문제를 풀 수 있는 예시 코드를 보여 주고, 업무용 이메일 초안 문구나 상품 홍보와 광고에 쓸 표현을 제안해 주기도 합니다.
그리고 사용자가 챗GPT에 어떤 목적이나 주제, 포함돼야 하는 정보나 표현, 일정한 견해나 방향 등을 제시하고 내용을 만들어 보라고 지시하면, 이 챗봇은 수백 개 단어, 수십 개 문장으로 구성된 글 한 편을 말 그대로 눈 깜짝할 새에 지어 냅니다. 앞서 나온 무료 서비스는 사용자가 많을 땐 작동을 안 하는 경우도 있지만 그래도 사용자가 몰리지 않을 땐 몇 초에서 몇 십 초만 기다리면 여러 문단으로 된 글 하나를 써 주죠. 2023년 2월 출시된 월정액 유료 서비스는 아예 즉각적으로 반응합니다. 물론 정확도와 완성도를 높이려면 여전히 사람이 최종적인 점검을 해야 하는 수준이지만요.
일상적, 개인적인 용도를 넘어 전문가들이 언어를 텍스트, 그러니까 ‘글’이라는 형태로 지식과 정보를 표현하고 이를 평가·검증하는 교육, 학술, 연구 활동에 챗GPT를 활용할 가능성도 있습니다. 학생이라면 대학 입시, 구직자라면 입사 지원 서류에 포함된 에세이의 검수에 챗GPT를 활용할 수 있죠. 글에 담긴 어휘나 논리 전개를 교정하는 데 이 AI가 도움을 줄 수 있거든요. 실제 사용해 보니 챗GPT가 영어로 받은 지시를 더 정확하게 반영하고 영어로 좀 더 매끄러운 결과물을 제공하지만, 한국어로도 상당히 광범위한 분야의 지시를 의도에 맞게 만들어 줍니다.
AI 파라미터 수를 수천억개로 늘렸더니 일어난 일
많은 사람들이 대단하다고 느끼고 있는 챗GPT는 미국의 민간 AI 연구소인 오픈AI(OpenAI)가 2022년 11월 말(한국 시간으로는 12월 1일)에 시범 서비스로 외부에 공개한 초거대 AI 모델 기반 챗봇 서비스의 이름인데요. 오픈AI는 챗GPT 이전에 GPT-2, GPT-3 등 ‘GPT’라는 이름을 붙인 자연어 처리(NLP)용 딥러닝 모델을 지속해서 만들어 온 곳입니다. 여기서 GPT는 ‘Generative Pre-trained Transformer’의 앞글자를 딴 명칭이고, 한국말로 직역하면 ‘생성(적) 사전훈련 트랜스포머’라고 해요. 트랜스포머는 AI 개발 방법론 가운데 하나인 딥러닝 분야에서 요즘 들어 대단히 널리 쓰이는 인공신경망 알고리즘 중 하나입니다. 여러 문자, 단어가 순서대로 이어지는 문장이나 글 등 주어진 텍스트를 순차적으로 처리해 그 안에서 데이터 간 관계를 추적하고 맥락과 의미를 학습하는 것이 트랜스포머의 작동 방식이에요.
오픈AI는 트랜스포머 알고리즘을 활용한 딥러닝 기반의 NLP 모델 개발 기법을 여러 해에 걸쳐 고도화하면서 GPT 시리즈를 개발하고 공개했는데, 몇 년 마다 모델의 복잡도와 크기를 나타내는 지표인 ‘파라미터(parameter)’ 수를 극단적으로 키우는 전략을 취하고 있어요. 어떤 AI 모델의 파라미터는 ‘모델의 연산 동작이 개발 목적에 가장 적합한 결과를 내도록 조정하는 변수’를 의미해요. 파라미터 수가 많다는 것은 그만큼 모델의 동작에 관여하는 값이 여럿이라는 얘기이고, 그 값을 다루기 위해 많은 연산 능력이 필요하다는 뜻입니다. 어떤 모델에 이 파라미터 수가 많다는 것이 항상 결과의 정확성을 보장해 주진 않지만요.
2020년 GPT-3가 등장한 이후 파라미터 수가 수천억개 이상에 달하는 모델 개발 경쟁이 활발해졌어요. 오픈AI는 미국에 본사를 둔 다국적 빅테크 기업인 마이크로소프트와 전략적 협력 관계를 맺고, 양사 계약 내용이 구체적으로 공개된 건 아니지만 마이크로소프트에서 상당한 규모의 재정적 투자와 지원을 받기로 했다고 알려져 있어요. 마이크로소프트는 자사 퍼블릭 클라우드 서비스 ‘애저(Azure)’에 오픈AI의 GPT-3나 챗GPT와 같은 초거대 AI 모델 연구를 지원하기 위한 전용 슈퍼컴퓨터를 구축했어요. 2016년 이세돌 9단과 대국을 벌여 전 세계 딥러닝 AI 모델 개발 붐을 일으킨 ‘알파고(AlphaGo)’도 핵심 연구진은 영국의 민간 연구소 ‘딥마인드(DeepMind)’ 소속이었는데, 구글은 2014년 이 회사를 인수했고 현재 딥마인드의 인프라 대부분은 구글이 운영 중인 ‘구글 클라우드 플랫폼(GCP)’과 구글이 주문형 반도체(ASIC)로 개발한 AI 연산 가속 프로세서인 텐서처리장치(TPU)를 활용하는 것 같아요.
“구글이 기술로 밀린 것은 아니다”
국내에서도 대규모 연산 자원과 학습 데이터를 활용하는 방식으로 경쟁이 일어나고 있습니다. 일각에서는 구글 검색 사업이 기술적으로 앞선 오픈AI의 도전에 위기를 맞이했다는 평가를 내놓고 있는데, 꼭 그렇게 볼 일은 아닐 것 같습니다. 이 초거대 AI 모델 개발 경쟁의 흐름을 이끌어낸 가장 중요한 기술적 발견을 한 곳은 애초에 구글이었기 때문이에요.
2023년 1월 31일 유명 경제 전문 유튜브 채널인 삼프로TV에 한국 AI 전문기업 솔트룩스의 이경일 창업자 겸 대표가 출연해서 다음과 같이 말했어요.
“챗GPT 때문에 구글이 망하지 않(겠)느냐 하는데 뒷얘기는 전혀 다르다. 사업적 감각이 아닌 기술적 완성도는 오픈AI보다 구글이 훨씬 앞섰다고 본다. …(중략)… 인공신경망의 문제가 뒤로 가면 앞에 본 것을 잊어버리는 것이었다. 알파고는 (성능을 높이기 위해 신경망을) 무조건 많이 넣었는데 언어는 그렇게 해도 뒤로 가면 앞에 주어진 말을 다 잊어버려서 안 된다. 사람의 뇌는 (분량이 긴 언어 정보를 다룰 때) 잊어버릴 만한 시점에 앞에 있던 중요한 정보를 연결해 준다. 그래서 (언어 AI 모델에) 사람이 말 배우듯이 뒤로 가면서 앞에서 중요했던 정보를 뒤로 전달하는 구조를 넣었더니 신기하게 우리 말을 이해하고, 이대로 데이터와 (수학적인) 뉴런을 늘렸더니 점점 더 똑똑해졌다. 이게 2017년 구글이 낸 논문(Attention is all you need)에 제안한 ‘어텐션 모델’이다. 트랜스포머는 이 모델을 위해 구글이 만든 알고리즘으로, 두 조각으로 구성됐다. 하나는 언어의 구조를 ‘이해하는 뇌(encoder를 가리킴)’가 있다. 그게 발전한 것을 우리는 버트(BERT)라는 엔진으로 알고 있다. 다른 하나는 ‘말을 생성할 수 있는 뇌(decoder를 가리킴)’인데 이걸 (오픈AI는) GPT라고 바꿨다. 말의 구조를 이해하는 BERT와 생성할 수 있는 GPT가 구글이 쓴 논문 하나에서 나왔다.”
챗GPT와 같은 모델은 상당히 다양한 분야에 활용할 수 있는 잠재력을 갖고 있다고 하지만 결국 만능이 아닙니다. 여전히 사람이라면 당연히 해낼 수 있을 것 같은 쉬운 일조차 잘 해내지 못한다는 점에서는 기존 AI 모델과 같지요.
이경일 대표도 챗GPT와 같은 AI의 한계 몇 가지를 지적했습니다. 첫째, 안부를 묻거나 날씨 얘기로 인사를 건네는 것 같은 일상적인 대화를 나눌 수 없다. 둘째, 간단한 논리(연역 추론) 문제에 취약하고 ‘상식’을 발휘하지 못한다. 셋째, GPT 시리즈와 같은 모델을 만들 때 사전훈련을 진행하고 사람의 지도를 통한 답변 내용 검수 등에 엄청난 기간이 걸리기 때문에, 그 사이에 일어난 현실 세계의 사건, 최근 정보를 학습하지 못한다. 이 대표는 챗GPT에 대해 “혁신이 완성된 것이 아니라 우리는 지금 혁신의 발가락 끝을 보고 있는 것”이라며 “구글은 (챗GPT같은) 기술이 없다기보다 이미 더 좋은 것을 갖고 있는데, 그걸 내놓지 않고 시장에 진입하기를 머뭇거리고 있는 중”이라고 덧붙였습니다.
챗GPT 같은 초거대 AI, AGI 위한 징검다리일까?
챗GPT가 많은 AI 연구자들이 꿈꾸는 ‘범용인공지능(AGI)’의 실현 가능성을 보여 줬다고 평가하는 사례도 나오고 있습니다. 이제까지는 실현되지 않았지만 영화에 등장하는 것처럼 실제 사람처럼 생각하고 말할 수 있는 AI를 만들 수 있는 지점에 다가갔다는 것이지요. 챗GPT를 구현한 것처럼 많은 데이터, 많은 연산 성능을 확보하고 더 학습 과정을 수행한다면 AGI를 만들어낼 수 있거나, 적어도 그에 기여할 수 있는 성과를 이끌어낼 것이라는 관측입니다.
하지만 이와 상반된 주장이 있습니다. 미국의 컴퓨터공학자이자 신경과학자인 제프 호킨스의 견해입니다. 그는 1980년대 인텔에서 몇 년간 소프트웨어 엔지니어로 일했고 이후 신경과학 박사 과정을 밟다가, 미국 실리콘밸리에서 기술창업가로 살다가, 이후 민간 신경과학 연구소 ‘누멘타(Numenta)’를 창립했습니다. 호킨스 창립자와 그의 연구진은 누멘타에서 인간을 포함한 포유류의 뇌 가운데 지능과 관련된 모든 것을 담당하는 부분인 ‘신피질(neocortex)’을 연구해 왔는데요. 호킨스 창립자는 그간 생물의 신피질과 지능에 대해 연구하면서 발견한 점들을 바탕으로, 지금 대세가 된 초거대 AI 개발과 같은 방법론으로는 사람들이 AGI라고 일컫는 진정한 의미의 지능을 만드는 길로 들어설 수 없다고 주장합니다. 알파고와 GPT-3의 등장이나 그런 딥러닝 기반의 다른 초거대 AI 모델이 무슨 일을 해냈든지 거기에는 지능의 본질적인 요소가 빠져 있기 때문에, 이를 반복해 AGI를 만들고자 하는 게 잘못된 접근 방식이라고 보는 것이죠. 실제로 호킨스 창립자는 2021년 3월 ‘MIT테크놀로지리뷰’와 인터뷰에서 이렇게 말했습니다. “최근 딥러닝으로 이룬 진전은 매우 인상적이다. 하지만 여기에도 근본적인 결핍이 있다는 사실만은 바뀌지 않았다. 나는 지능이 무엇인지 안다고 생각한다. 즉, 뇌가 어떻게 활동하는지 안다고 생각한다. 그리고 지금 AI는 뇌가 하는 활동을 하고 있지 않다.”
호킨스 창립자의 지능에 대한 주장과 이를 뒷받침하는 신경과학 연구계의 주요 발견은 ‘천 개의 뇌(A Thousand Brains)’ 이론으로 명명됐고, 이 내용은 동명의 단행본 도서로 발간됐고 국내 같은 제목으로 번역 출간됐습니다. 이 이론의 주장을 거칠게 요약하면, 인간 뇌의 신피질에 약 15만 개가 있는 ‘피질 기둥(cortical columns, 대뇌피질 표면에 수직 방향으로 원기둥처럼 분포한 신경세포 집단)’들이 각자 세계에 대해 학습하고 예측하는 모형(모델)을 갖고 있는데, 감각 기관을 통해 주어진 외부 정보를 각각의 피질 기둥이 기존 경험과 지식을 토대로 해석하고 ‘투표’를 거쳐 최종적인 판단을 내리는 것이 바로 우리가 ‘지능’이라고 부르는 사고작용의 작동 방식이라는 것입니다. 또 뇌는 학습한 지식을 조직화하기 위해 세계에 대한 지식과 우리의 관점에 대한 상관관계로 형성한 ‘기준틀’을 사용한다고 합니다. 이 이론은 뇌가 어떤 사물이나 공간을 판단할 때 그에 대한 다양한 모형을 갖고 있는 피질 기둥 ‘수천’ 개가 함께 관여한다고 보기 때문에 천 개의 뇌라는 이름을 붙였다고 해요.
“AI의 미래는 뇌의 원리를 기반으로 펼쳐질 것”
책에서 그는 GPT-3를 직접 언급하지 않았지만, 어쨌든 그와 같은 초거대 AI 모델 전반에 대해 이렇게 평했습니다. “AI 과학자들은 이 언어 신경망이 진정한 지식을 가졌는지, 아니면 단지 수백만 단어의 통계를 기억함으로써 사람을 흉내내는 것인지를 놓고 의견이 갈린다. 나는 뇌와 동일한 방식으로 세계 모형을 만들지 않는 한, 어떤 종류의 딥 러닝 네트워크도 AGI의 목표를 달성할 수 있을 거라고 믿지 않는다. …(중략)… 딥 러닝 네트워크가 아무리 똑똑하고, 인상적인 수행 능력을 보여주고, 상업적으로 가치가 있다 하더라도, 나는 그것이 지식을 갖고 있지 않으며, 따라서 다섯 살 아이의 능력에 이르는 길로 가지 못한다고 지적하고 싶다. …(중략)… 나는 AI의 미래가 뇌의 원리를 기반으로 하여 펼쳐질 것이라고 믿는다. 진정한 지능 기계인 AGI는 신피질처럼 지도 같은 기준틀을 사용해 세계 모형을 배울 것이다. 나는 이것이 필연적이라고 생각한다. 달리 진정한 지능 기계를 만드는 방법이 있으리라고는 절대로 믿지 않는다.” (천 개의 뇌, p180~184 발췌)
호킨스 창립자는 이 책에서 AGI를 실현하기 위한 최소 요건 네 가지를 제시했습니다. 첫째, 끊임없이 변화하는 세계를 반영해 끊임없이 배울 수 있는 유연한 학습 능력. 둘째, 신피질이 정보를 처리하는 단위(‘피질 기둥’)에서 일어나는 것처럼 움직임을 통해 정보를 입력받고 다음 입력이 무엇인지 예측하는 학습 방식. 셋째, 수많은 사물, 공간 대상에 대한 다양한 지식을 상호 보완적으로 나눠 습득한 수많은 모형. 넷째, 세계 모형을 배울 때 대상의 모양과 상호작용할 때 변화하는 방식과 상대적 위치 등 종류를 나타내고 뇌의 예측, 계획, 움직임 실행 등에 활용하기 위한 ‘기준틀’을 사용한 지식 저장. 호킨스 창립자는 특히 “기준틀의 종류가 그 시스템이 배울 수 있는 것을 결정한다”고 언급하고 “체스를 두는 것과 같은 특정 과제를 위해 설계된 기준틀은 다른 영역에는 유용하지 않을 것이다”라면서 “범용 지능에는 많은 종류의 문제에 적용할 수 있는 범용 기준틀이 필요하다”고 강조했습니다.
—
솔트룩스 네이버블로그 ‘인공지능 인사이트’ 필진으로서 작성한 열두 번째 정기 원고. 230307 솔트룩스 네이버블로그 포스팅으로 게재됨. 240114 개인 블로그에 원문 비공개로 올림. 240216 공개로 전환.