[기고] 퓨샷러닝, AI 데이터 부족 문제의 돌파구가 될까

피처 이미지
디지털 가상 공간에 원 모양을 표현한 추상화 이미지 [사진=Pixabay]
기업, 교육기관, 행정·공공기관의 미래가 인공지능(AI) 기술과 데이터 활용에 달려 있다는 인식이 전 사회로 확산하고 있다. 윤석열 정부는 지난 5월 발표한 110대 국정과제 가운데 하나로 ‘모든 데이터가 연결되는 세계 최고의 디지털 플랫폼 정부 구현’이라는 정책과제를 제시했다. 정부는 이 과제로 국민, 기업, 정부가 함께 사회문제를 해결하고 새로운 가치를 창출하는 디지털 플랫폼을 마련할 방침이다. 정부는 이 과제 일환으로 AI 기술과 데이터 분석을 통해 행정업무 전반을 디지털 시대에 맞춰 재설계하고 정책효과를 정밀하게 예측해 정부가 일하는 방식을 전환할 계획이다. 국정과제에 포함된 또 다른 정책과제인 ‘민·관 협력을 통한 디지털 경제 패권국가 실현’은 역시 AI 기술과 데이터를 활용해 산업 성장을 촉진하고 디지털 경제 기반 기업 활동을 장려하는 방향으로 추진된다. 이를 통해 한국이 오는 2027년까지 세계 3위권 내 AI 국가로 발돋움하고 2021년 대비 두 배(46조원) 규모 데이터 시장을 창출하고 선도국 대비 93% 수준의 디지털 기술력을 확보하도록 만든다는 목표다. 정부는 AI 기술을 활용해 민간·공공 조직뿐 아니라 재해예방, 국방·안보, 소상공인과 자영업자 육성, 의료·복지와 돌봄, 산업 현장 인력 교육까지 혁신할 수 있다고 기대한다.

정부가 AI 학습용 데이터 구축에 18조원 투자하는 이유

AI 기술이 현실의 문제를 해결하고 경제·사회·문화 측면에서 가치를 발휘할만큼 고도화하려면 AI 학습에 활용할 수 있는 검증된 고품질 데이터가 필요하다. 이는 윤석열 정부가 내세운 디지털 플랫폼 정부, 민·관 협력을 통한 산업, 경제, 복지, 교육 혁신 등 구상에 깔린 전제인 AI 기술과 데이터 활용 방안뿐 아니라 이전 문재인 정부 한국판 뉴딜 국정과제에도 공통적으로 나타나는 인식이다. 문재인 정부는 한국판 뉴딜 10대 대표과제 중 하나로 데이터 댐, 지능형 정부, 스마트 의료 인프라, 그린 스마트 스쿨, 디지털 트윈, 국민안전 사회간접자본(SOC) 디지털화, 스마트 그린 산업단지 등 과제를 제시했다. 당시 정부는 전국에 5G 이동통신망을 구축하고 데이터 경제 핵심 기반으로 데이터 수집·가공·거래·활용 기반을 강화하는 데이터 댐을 만들어 전 산업의 5G AI융합 확산을 뒷받침하겠다고 선언했다. 또 2025년까지 약 18조원을 투자해 공공 데이터 14만2000건을 개방하고 AI 학습용 데이터 1300종을 구축한다는 계획도 제시했다. 이 정부 정책과제 사업으로 작년 말까지 공공 데이터 6만7000여건이 개방됐고 AI 학습용 데이터는 작년 6월 개방한 170종(4억8000만건)에 더해 올해 7월 12일부터 190종(5억8000만건)이 품질 검증을 거쳐 순차 개방되기 시작했다. 과학기술정보통신부에 따르면 이번에 개방되는 AI 학습용 데이터는 기획부터 구축까지 산업계와 전문가, 국민이 대거 참여한 결과물이다. 데이터 구축 과정에만 811개 기업·대학·병원·기관과 4만3000여명에 이르는 국민이 참여했다. 데이터는 한국어 음성·자연어(아동, 다화자 음성 등 44종), 영상·이미지(스포츠 동작, 반려동물 등 39종), 교통·물류(로봇주행, 교통사고 등 22종), 헬스케어(심장질환, 정신건강 등 32종), 재난·안전·환경(과적차량, 물류창고 등 27종), 농·축·수산(정밀 농업, 스마트 양식 등 26종) 등 6대 분야로 구성됐다.

정부가 공공 데이터를 개방하고 막대한 예산을 풀어 AI 학습용 데이터를 만들어내기로 결정한 이유가 뭘까. 2017년 한국판 뉴딜 정책이 입안되고 추진될 시기에 데이터를 일종의 ‘연료’로 활용하는 머신러닝, 특히 막대한 데이터를 필요로 하는 딥러닝 모델 방법론이 전 세계 AI 기술 연구개발 분야에서 지난 몇년간 가장 급격하게 발전했고 미래에도 이것이 주류가 될 가능성이 높게 점쳐졌기 때문이다. 산업계에서 ‘AI 사대천왕’ 중 한 명으로 꼽히는 AI 석학 앤드류 응(Andrew Ng) 스탠퍼드 대학교 교수는 중국 인터넷서비스 기업 바이두의 수석 과학자로 일했던 지난 2015년 5월 IT매체 와이어드와 인터뷰에서 딥러닝 모델 기반 AI 기술과 데이터의 관계를 이렇게 설명했다. “AI는 로켓을 만드는 것과 비슷하다. 거대한 엔진과 많은 연료가 필요하다. 엔진이 크지만 연료가 적다면 (로켓은) 궤도에 오르지 못한다. 엔진은 작은데 연료만 많다면 이륙하지도 못한다. 로켓을 만들려면 거대한 엔진과 많은 연료가 필요하다. 딥러닝에 비유하자면 로켓 엔진은 딥러닝 모델이고 연료는 이러한 알고리즘에 공급할 수 있는 엄청난 양의 데이터인 셈이다.” 또 한국에서 2016년 구글 딥마인드의 딥러닝 기술로 개발된 바둑 AI ‘알파고’와 이세돌 9단이 세기의 대결을 치른 이후 국내에서 AI 관련 개념은 딥러닝을 중심으로 확산한 경향도 있다.

딥러닝은 이후 글로벌 빅테크 기업이나 이들이 지원하는 민간 연구조직이 음성·문자 언어, 사진·영상 데이터를 처리해 패턴을 찾거나 예측을 수행하고 새로운 메시지와 이미지를 생성하는 ‘초거대 AI 모델’을 개발하는 과정에도 적극적으로 활용됐다. 미국에선 구글과 구글 딥마인드, 마이크로소프트와 오픈AI, 메타플랫폼스, 아마존 등이 경쟁적으로 초거대 AI 모델 기반 기술과 응용 성과를 내놓고 있다. 한국에서는 삼성리서치, LG AI연구원, SK텔레콤 아폴로, KT 우면연구센터, 네이버, 카카오 등 대기업 연구소, 이동통신사, 인터넷서비스 사업자들이 저마다 초거대 AI 기술을 확보하는 연구에 뛰어들었고 이들 중 일부는 초거대 AI 기술을 실제 서비스에 부분적으로 응용하는 실용화 단계로 나아가고 있다.

높은 정확도와 직결된 고품질 데이터, 항상 보장할 수 없다면

딥러닝을 포함한 머신러닝 기법으로 AI를 개발할 때 AI 모델 훈련(training)은 많은 데이터를 반복적으로 입력하고 그 계산에 포함된 가중치(매개변수·parameter)를 조정해 나가는 단계를 뜻한다. 연구자들은 이 단계에 앞서 방대한 학습용 데이터 세트를 확보하는 ‘데이터 전처리’ 단계라는 난관을 거쳐야 한다. 데이터 전처리는 수집된 데이터에 적절한 부가 정보를 보태는 ‘데이터 레이블링’ 작업과 데이터에서 모델 훈련을 방해하는 오류·잡음을 제거하는 ‘데이터 클리닝’ 등 여러 하위 작업으로 구성돼 있다. 연구계와 산업계 AI 종사자들은 이 작업을 통해 확보한 데이터 품질이 높고 그 규모가 클수록 AI 모델 훈련의 효율이 뛰어날 것이라고 기대한다. AI가 더 정확한 결과와 더 뛰어난 성능을 보여줄 가능성이 더 높아진다는 뜻이다. 최근 AI 학습용 데이터 추가 개방을 발표한 날 박윤규 과학기술정보통신부 제2차관은 “앞으로도 다양한 분야에서 의미있는 활용성과가 나타날 수 있도록 데이터의 양적·질적 가치를 계속 높여나가는 것이 중요한 과제”라고 언급한 이유가 여기에 있다.

아무리 많은 데이터가 개방되더라도 이를 활용해 AI 기술을 만드는 것은 별개 문제고, AI 기술로 현실의 문제를 해결하는 일에 여전히 산업, 연구, 교육 등 각계 전문가와 기업·기관의 몫이 남아 있다. 그런데 현실에서 모델 성능과 정확도를 높이기 위해 학습용 데이터 품질과 규모를 충분히 만족하는 조건이 언제나 달성되기는 어렵다. 모든 AI 연구자들이 풍족한 지원을 보장하는 글로벌 빅테크 기업 소속으로 일하는 것은 아니기 때문이다. 학술 목적의 연구 활동이든 영리 목적의 기술 확보를 위한 사전 과제든 연구자들이 AI 모델 훈련에 적합하게 정제된 특정 분야 데이터를 확보하는 일에는 비용과 시간이 들기 마련이고 이를 위해 각 과제별로 할당되는 예산과 연구 수행 기간은 한정돼 있다. 정부 차원에서 막대한 예산을 투입해 다양한 분야에 데이터를 만들어 개방하고 있지만 결국 이것을 활용해 풀 수 있는 문제는 현실에서 일부분에 불과하다.

AI 모델을 극히 적은 데이터, 또는 불완전한 데이터 세트만으로 훈련시킬 수 있다면 어떨까? 퓨샷러닝(FSL·few-shot learning)이라는 기법이 이런 관점에서 출발한다.

미국 AI 기술 전문 매체인 유나이트AI 소속 저널리스트 겸 연구원 대니얼 넬슨은 FSL 개념을 다음과 같이 소개하고 있다. “FSL은 극소량의 훈련 데이터를 사용해 AI 모델을 개발하는 데 쓰이는 다양한 알고리즘과 기술을 의미한다. FSL은 상대적으로 적은 훈련 인스턴스에 노출된 AI 모델이 새로운 데이터를 인식하고 분류하도록 만들기 위해 노력한다. FSL은 일반적으로 다량의 훈련 데이터가 사용되는 전통적인 머신러닝 모델 훈련 방법과 대조적이다. FSL은 주로 컴퓨터 비전 분야에 사용된다. …(중략)… FSL을 사용하는 이유 중 하나는 머신러닝 모델 훈련에 필요한 데이터 양을 크게 줄여 대규모 데이터 세트에 레이블을 지정하는 데 드는 시간을 줄일 수 있기 때문이다. FSL은 공통 데이터 세트를 사용해 다른 샘플을 생성할 때 다양한 작업에 대한 특징을 추가할 필요성을 줄여 준다. FSL은 모델을 더 견고하게 만들고 더 적은 데이터를 기반으로 객체를 인식하게 해 고도로 특화한 모델과 상반되게 더 일반화한 모델을 만들 수 있다. …(중략)… FSL이라는 표현은 매우 적은 훈련 예제를 사용하는 학습의 일종이고 ‘몇 가지’ 예제를 사용하는 FSL의 하위 범주가 있다. ‘원샷러닝(one-shot learning)’은 모델이 어떤 물체의 이미지 하나만 보고 그 물체를 인식하도록 만드는 모델 훈련 방법이다. 원샷러닝과 FSL에 사용되는 일반적인 전술은 동일하다. FSL이라는 용어는 모델이 매우 적은 데이터로 훈련하는 상황을 설명하는 포괄적인 용어로 쓰일 수 있다.”

일각에서 FSL는 ‘전이학습(transfer learning)’과 혼동되기도 한다. 둘은 같은 기술을 쓸 수 있지만 연구하려는 문제에 따라 구분된다. 전이학습은 특정 작업을 수행하기 위해 상당한 데이터를 사전훈련(pre-trained)한 모델을 다른 유사 과제에 재사용하면서 비교적 적은 데이터로 추가 훈련을 거쳐 높은 성능을 얻는 것을 목표로 한다. 전이학습의 추가 훈련은 사전훈련 모델의 파라미터를 유사 과제에 맞게 업데이트하기 위한 것으로, 이 최적화 과정을 ‘미세조정(fine-tuning)’이라고 한다. FSL의 목표는 적은 데이터를 이용해 일반화 작업을 할 수 있는 모델을 구현하는 데 있다. 이를 위해 전이학습 과정을 일부 차용할 수도 있고 아래에 언급될 메타러닝 기법이 활용될 수도 있고 둘 다 필요하지 않을 수도 있다.

세 가지 FSL 모델 개발 접근법

FSL을 이용한 모델 개발 방식은 접근하는 수준에 따라 데이터, 매개변수, 척도(metric), 세 가지 범주로 구별된다.

데이터 수준으로 접근하는 FSL은 모델 훈련에 쓸 수 있는 데이터 양이 불충분할 때 그 데이터 양을 늘리기 위해 사용하는 기술을 의미한다. 이미지에서 ‘새’나 ‘개’라는 범주를 인식하는 AI 모델을 개발하면서 세부적인 조류, 견종을 구별하는 분류기(classifier)를 훈련하는 상황을 가정해 보자. 특정 조류나 견종에 대한 이미지가 부족할 경우 연구자는 이 분류기가 일반적인 새나 개의 특징을 판정하도록 돕는 이미지를 훈련용 데이터에 많이 포함시킬 수 있다. 좀 더 쉽게 말하자면 특정한 조류나 견종을 구별하는 AI 모델을 훈련할 때 레이블이 지정돼 있지 않은 새나 개 이미지를 가져오거나 기존 이미지에 임의의 잡음을 추가하는 데이터 증강(data augmentation) 기법 등을 이용해 새로 생성한 데이터를 훈련에 활용할 수 있다. 유명인 얼굴을 이용해 가짜 영상을 만드는 기술로 널리 알려진 ‘생성적 적대 신경망(GAN·Generative Adversarial Networks)’을 활용해 아예 새로운 이미지를 만들어 쓸 수도 있다.

매개변수 수준으로 접근하는 FSL은 복잡한 모델 훈련에 적은 데이터만을 사용했을 때 발생할 수 있는 과적합(overfitting) 문제를 해결하는 기술을 의미한다. 훈련을 제대로 거친 머신러닝 모델이 학습한 데이터에 과도하게 맞춰진 탓에 새로운 데이터가 주어졌을 때 제대로 성능을 내지 못하면 ‘과적합 문제가 발생했다’고 얘기한다. 머신러닝 모델에 어떤 데이터 특징(features)이 중요하다는 것을 학습하도록 가르치는 ‘메타러닝(meta-learning)’ 기술을 사용하는 방법이 매개변수 수준으로 접근하는 FSL의 일종이다. 메타러닝은 소량의 학습용 데이터를 이용해 실제 데이터 분류 작업을 수행하는 ‘학생(student) 모델’과 학생 모델을 최적화하는 방법을 학습해 학생 모델의 분류 작업 정확성을 높이는 ‘교사(teacher) 모델’을 사용해 이뤄진다.

메타러닝 기술을 이용하는 일반적인 모델 설계구조를 ‘기울기 기반 메타러닝(GBML·Gradient-Based Meta-Learning)’이라고 한다. GBML에서 학생 모델은 ‘메타러너(meta-learner) 모델’, 교사 모델은 ‘베이스러너(base-learner) 모델’로도 불린다. GBML 모델 훈련은 먼저 베이스러너 모델을 생성하고 지원 데이터 세트로 이 모델을 훈련한 다음 베이스러너가 제시한 쿼리 세트 예측값으로 메타러너 모델의 분류 오류 손실을 보완하는 훈련을 진행하는 과정으로 진행된다.

GBML 기술의 적용 효과를 강화하기 위한 ‘전천후 모델 메타러닝(MAML·Model-Agnostic Meta-Learning)’이라고 불리는 방법도 있다. GBML 기술로 만들어진 모델은 베이스러너 모델로부터 얻은 선행 경험을 메타러너 모델이 자가 미세조정에 적용해 적은 훈련 데이터로 더 정확한 예측 성능을 제공할 수 있지만 임의로 초기화한 매개변수로 시작한다는 점에서 여전히 데이터에 과적합할 소지가 있다. MAML 방법은 베이스러너 모델로 야기된 예측 손실에 대해 메타러너 모델이 직접 훈련하는 대신 자체 예측 손실에 대해 훈련함으로써 베이스러너 모델의 영향을 제한한다. MAML 모델 훈련 과정은 원본 메타러너 모델의 사본을 생성해 베이스러너 모델의 지원으로 사본을 훈련하고 이 사본이 예측한 손실을 원래 메타러너 모델 성능 개선에 반영하는 과정으로 진행된다.

척도 수준으로 접근하는 FSL은 데이터 세트 내 샘플 간 비교를 위해 기본 거리 척도를 사용하는 방법이며 ‘메트릭러닝(metric-learning)’이라고 불린다. 이미지 분류기를 예로 들면 이미지의 표면적 특징의 유사성을 기반으로 작업을 수행한다는 뜻이다. 기술적인 용어로 메트릭러닝 모델 이미지 분류기 훈련 과정을 표현하면 “베이스러너 모델을 훈련할 이미지 지원 데이터 세트를 선택해 임베딩 벡터로 변환하고 메타러너 모델을 훈련할 쿼리 세트에 대해 동일한 작업을 수행한 다음 두 벡터에 대한 값을 비교해 분류기가 벡터로 변환된 쿼리 세트에 가장 가까운 값을 갖는 분류를 선택”하는 것이다. 이 메트릭러닝 기반 분류 기술에 군집화 모델을 결합해 발전된 기법이 ‘프로토타입 네트워크(prototypical network)’다. 이 기법은 데이터 점들을 군집화한다. 군집화 알고리즘 가운데 주어진 데이터를 평균값 기준으로 k개 군집으로 묶는 ‘K평균 군집화(K-means clustering)’와 마찬가지로 프로토타입 네트워크에서 군집의 중심은 지원 세트와 쿼리 세트 분류로 계산된다. 그 다음 유클리드 거리 척도로 두 세트 중심의 차가 결정되고 쿼리 세트를 더 가까운 지원 세트 분류에 할당한다.

텍스트, 이미지, 영상, 음성 처리 연구에서 활발한 응용 연구

FSL은 컴퓨터가 디지털 이미지나 비디오를 분석해 그 표현과 내용에 대해 높은 수준으로 이해할 수 있는 방법을 분야인 ‘컴퓨터 비전’ 연구에 널리 활용되고 있다. 신경정보처리시스템학회(NIPS), 국제머신러닝학회(ICML), 유럽컴퓨터비전학회(ECCV), 표현학습국제학회(ICLR), 국제전기전자기술자협회(IEEE), 영국머신비전학회(BMVC) 등에서 문자 인식, 이미지 분류, 사물 인식, 사물 추적, 부분 레이블링, 이미지 취득, 이미지 생성, 이미지 설명(캡션) 첨부, 장면 위치 인식, 3D 사물 형상 시점 재구성 등 이미지 처리에 적용한 연구와 영상 분류, 움직임 예측, 행동 국지화(영상 내 행동 발생 구간 탐지), 인물 재인식, 이벤트 탐지 등 비디오 처리에 적용한 연구 사례가 다양하게 발표됐다.

적은 텍스트 데이터를 이용해 자연어처리 작업을 완료하는 AI 모델 연구에 FSL이 활용되고 있다. 전산언어학협회(ACL)와 ICLR에서 텍스트 파싱, 텍스트 번역, 단어 유사성 판정, 범죄 혐의 예측(criminal charge prediction) 등에 FSL을 활용한 연구가 발표됐다. 북미전산언어학회(NAACL)에선 토막 비평에 담긴 감정 분류 모델 연구가 공개됐다. 구글은 문장 완성 AI에 FSL을 적용했다. IBM은 대화형 시스템을 위한 이용자 의도 분류에 FSL을 활용했다.

음성 처리 분야에서는 제한적인 녹취 데이터만을 이용해 특정 음성을 복제하거나 다른 인물, 다른 언어 화자의 발화로 변환하는 수단으로 FSL이 활용되고 있다. 실제 음성을 일일이 녹음하지 않고 아마존 알렉사, 애플 시리, 자동차 내비게이션 안내 등에 필요한 음성을 합성하는 모델을 개발할 수 있다.

이밖에 로봇공학 분야의 단일 시연 동작 흉내내기와 시각 길찾기, 의료보건 분야의 신약 개발과 코로나19같은 신종 질병 진단, 사물인터넷 분야의 데이터 분석, 응용수학 분야의 곡선 적합(Curve fitting)과 논리 추론(logic reasoning) 등에 FSL을 활용한 연구 사례가 나오고 있다.

솔트룩스 네이버블로그 ‘인공지능 인사이트’ 필진으로서 작성한 여섯 번째 정기 원고. 220811 솔트룩스 네이버블로그 포스팅으로 게재됨. 230125 개인 블로그에 원문 비공개로 올림. 230630 공개로 전환.