[기고] 생성 AI, '창작의 고통' 알까요?

세계인이 인공지능(AI)에 관심을 갖게 만든 AI 챗봇 ‘챗GPT’는 인터넷으로 접근할 수 있는 방대한 텍스트 데이터를 이용해 훈련한 AI 모델을 이용하고 있는 것으로 알려져 있습니다. 챗GPT 개발사인 미국 기업 오픈AI는 챗GPT를 출시하기 기반 AI 모델인 ‘GPT’ 시리즈와 훈련 데이터 관련 정보를 공개해 왔는데, 사람처럼 자연스럽게 글을 쓰고 텍스트를 가공하는 능력을 보여 준 ‘GPT-3’를 선보인 이후부터 이 태도를 바꿨어요. 챗GPT 무료 버전은 GPT-3.5 모델을 이용하고 월간 구독형 유료 버전은 GPT-4 모델을 이용하는데, 오픈AI는 이 모델이 어떤 데이터를 얼마나 학습했고 어느 정도의 매개변수를 다루는지에 대해 함구하고 있습니다. 일각에서는 인터넷에 공개된 뉴스, 블로그, 커뮤니티 등 상업적인 웹사이트의 다양한 콘텐츠와 데이터가 무단 도용됐을 것이라고 의심해 왔습니다. 저작권법의 틀 안에서도 창작자, 저작권자의 허락 없이 창작물, 저작물을 제한적으로 이용할 수 있는 방법을 ‘공정 이용(fair use)’이라는 개념으로 보장하고 있는데요. 이 공정 이용은 대체로 저작물 이용 행위가 창작자의 창작에 든 노력과 수고를 무력화하지 않고 그 대가를 창작자가 가져갈 수 있도록 놔 두면서 공공의 이익이 클 때 인정됩니다. 주로 비평을 위한 인용, 학문적 목적의 연구를 위한 발췌 등이죠.

2023년 12월 27일 미국 일간지 뉴욕타임스는 이러한 의구심을 바탕으로 오픈AI에 직접 문제를 제기합니다. 뉴욕타임스는 챗GPT서비스와 그 기반 거대 언어 모델(LLM)을 개발한 오픈AI와 오픈AI가 LLM을 개발하는 데 필요한 막대한 연산 자원을 지원하고 금전적으로도 투자해 오픈AI의 주요 주주에 해당하는 빅테크 기업 마이크로소프트를 상대로 저작권 침해 소송을 걸었지요. 이는 언론사가 LLM 기반 사업을 수행하고 있는 AI 기업을 상대로 제기한 첫 저작권 관련 소송입니다. 미국 뉴욕 남부지방법원에 제출한 소장에서 뉴욕타임스 측은 “피고(마이크로소프트와 오픈AI)가 뉴욕타임스의 저작물을 불법적으로 이용해 자사와 경쟁하는 AI 제품을 만들었다”, “이 AI 제품은 저작권으로 보호되는 뉴욕타임스 뉴스, 심층 조사, 오피니언, 리뷰, 이용자 가이드 등 기사 수백만 건을 복제해 구축한 LLM에 의존한다”고 주장했습니다. 여기서 뉴욕타임스와 경쟁하는 AI 제품이란 오픈AI의 챗GPT와 마이크로소프트의 ‘코파일럿(앞서 빙챗이라는 이름으로 출시된 검색 결합 챗봇 서비스)’을 지칭하고, 뉴욕타임스의 기사 수백만 건을 복제해 구축한 LLM은 오픈AI와 마이크로소프트가 협력해 개발한 GPT-3.5, GPT-4 같은 모델을 가리킵니다.

소장에서 제기된 핵심 주장을 인용해 보면 이렇습니다. 우선 뉴욕타임스는 “피고는 뉴욕타임스의 온라인 콘텐츠를 복사하고 분류하는 마이크로소프트의 빙 검색 색인을 이용해 기존 검색 엔진이 반환하는 것보다 훨씬 길고 상세한 뉴욕타임스 기사의 원문 발췌문과 상세한 요약을 포함한 응답을 생성한다”면서 “피고의 도구는 뉴욕타임스의 승인 없이 뉴욕타임스의 콘텐츠를 제공함으로써 뉴욕타임스와 독자의 관계를 훼손하고 손상시키고 뉴욕타임스의 구독, 라이선스, 광고 및 제휴 수익을 빼앗는다”고 주장했습니다. 그리고 “이러한 방식으로 대가 없이 지식재산을 사용한 것이 피고에게 엄청난 수익을 가져다주었다”면서 “마이크로소프트는 뉴욕타임스의 지식재산을 이용해 훈련한 LLM을 자사 제품군 전반에 걸쳐 배포함으로써 작년에만 시가총액이 1조 달러나 증가했고 오픈AI는 챗GPT를 출시하면서 기업 가치를 900억 달러까지 끌어올렸다”고 지적했습니다.

소장에 따르면 뉴욕타임스와 오픈AI, 마이크로소프트는 적어도 챗GPT 서비스를 위해 개발한 LLM에 뉴욕타임스 같은 서비스의 콘텐츠를 이용했다는 사실을 부정하지 않는 것 같습니다. 쟁점이 되는 지점은 그 이용의 정당성입니다. 뉴욕타임스는 오픈AI, 마이크로소프트와 콘텐츠 이용 관련 협상을 진행했지만 “피고는 저작권이 있는 콘텐츠를 무단 이용해 생성 AI 모델을 훈련하는 행위가 새로운 ‘혁신적’ 목적에 부합하기에 자신들의 행위가 공정 이용으로 보호된다고 주장하고 있다”면서 “그러나 뉴욕타임스의 콘텐츠를 대가 없이 이용해 뉴욕타임스를 대체하는 제품을 만들고 뉴욕타임스로부터 구독자를 빼앗는 행위에는 혁신적이라는 것이 존재하지 않는다”고 비판합니다. 뉴욕타임스는 “피고의 생성 AI 출력물은 모델을 학습하는 데 이용한 입력 자료를 매우 유사하게 모방하므로 이러한 목적을 위해 뉴욕타임스의 작업물을 복제하는 것은 공정 이용에 해당하지 않는다”고 주장합니다. 뉴욕타임스는 피고 측에 자사 저작물을 불법적으로 복제하고 이용한 데 따른 수십억 달러의 손해배상 책임을 묻겠다고 했어요.

오픈AI는 3개월 뒤인 2024년 2월 27일 공식 대응에 나섰습니다. 뉴욕타임스의 소송을 기각해 달라는 요지의 서면을 제출한 것인데요. 해당 서면에서 사람들이 뉴스를 찾고 읽으려는 목적으로 챗GPT나 다른 AI 서비스를 이용하지는 않으며, 저작권법의 틀 안에서 공개적으로 접근 가능한 콘텐츠를 이용해 LLM을 훈련한 것이므로 공정 이용 원칙에 부합한다고 반박했어요. 오픈AI 측은 오히려 뉴욕타임스가 LLM 훈련에 이용한 기사를 복원하게끔 유도하기 위해 챗GPT 프롬프트를 ‘해킹’했는데, 이것이 오픈AI의 챗GPT 이용 약관을 위반한 것이라고도 주장했지요. 마이크로소프트도 2024년 3월 5일 법원에 제출한 서면을 통해 뉴욕타임스의 저작물을 훈련해 만들어진 LLM이 AI의 획기적인 발전으로 사람들이 일하고 생활하는 방식을 개선할 것이라는 점, 새로운 수익원을 만들어 기존 산업의 번영을 도울 것이라는 전망을 내놨습니다. 마이크로소프트는 그러면서 뉴욕타임스가 제기한 소송을 1970년대 할리우드 영화 제작사인 유니버설스튜디오가 비디오 레코더(VCR) 기술을 개발한 소니에 영화 불법 복제 우려를 제기하며 소송을 제기한 사건에 빗댔는데요. 당시 법원은 소니의 VCR을 이용하는 행위는 저작물의 개인적 이용으로 공정 이용의 범주에 해당한다고 봤기 때문에 소니의 손을 들어줬는데, 사람들이 챗GPT를 이용하는 행위도 마찬가지라는 주장이지요. 이에 뉴욕타임스는 당시 VCR 제조사가 제품을 만들기 위해 타인의 저작권을 침해한 적이 없는 반면, 오픈AI와 마이크로소프트의 행위는 LLM을 만드는 과정부터 뉴욕타임스의 기사 수백만 건을 복제한 것이므로 정당화할 수 없다고 반박했습니다.

글로벌 음원 저작권 시장에서도 기술 기업과 저작권자 간 갈등이 벌어지고 있습니다. 일례로 사회관계망서비스(SNS) 틱톡이 숏폼 영상에 쓰이는 UMG 소속 가수들의 음원 이용료에 대해 유니버설뮤직그룹(UMG)과 협상하는 데 실패한 게 최근 사례입니다. UMG는 테일러 스위프트, 아리아나 그란데, BTS, 블랙핑크 등의 저작권을 보유한 세계 1위 음원 유통 업체입니다. 2021년 2월 틱톡과 제휴해 틱톡 이용자들이 앱에서 동영상을 게재할 때 UMG 음원을 쓸 수 있게 했어요. 이 계약은 2024년 1월 31일로 만료됐는데, 틱톡이 UMG와 라이선스 계약 기간을 연장하지 못했습니다. 2월 1일 0시를 기점으로 기존 틱톡 영상에서 유명 가수들의 음원이 삭제됐죠. UMG와 계약 관계인 가수의 음원을 이용해 제작한 동영상을 재생할 때 ‘이 음악은 사용할 수 없다’는 알림을 띄우며 무음으로 재생됩니다. UMG 주장에 따르면 틱톡이 음원 이용료로 UMG에 지불하는 수익은 UMG 전체 매출의 1% 안팎인데, 이는 다른 대형 플랫폼에 비해 너무 적은 비율이라고 합니다. 반면, 틱톡은 숏폼 동영상 특성상 1분 이하의 짤막한 음원만을 이용하는데 음원 이용료를 타 플랫폼과 동등한 비율로 지불할 수 없다는 입장이고요.

하지만 모든 생성 AI 기술 제공 기업이 지식재산권 보유 단체나 저작권자와 갈등을 빚고 있는 것은 아닙니다. UMG는 틱톡과 음원 이용료 계약 연장에 대해 합의하지 않았지만, 2023년 구글과는 신기술을 활용한 음원 저작권 관련 협력을 진행하기로 했거든요. 당시 영국 파이낸셜타임스 등 보도에 따르면 구글과 UMG는 AI로 음악을 만들고 그 저작권 이용료를 소유자에게 지불하는 방안을 논의했습니다. 이들은 구글의 AI가 만든 별개의 음원에 라이선스를 부여하는 방식으로 합법적인 AI 노래 생성 도구를 개발하는 것을 목표로 논의 중이라고 했는데요. 파이낸셜타임스의 익명 소식통에 따르면 UMG뿐 아니라 워너뮤직도 구글과 같은 내용으로 논의하고 있다고 했어요. 구글은 2023년 초에 텍스트를 입력하면 그에 맞는 음악을 만들어낼 수 있는 ‘뮤직LM’을 선보인 바 있습니다. 뮤직LM을 개발하는 데에는 이미 알려진 여러 음악가의 음원이 쓰였을 테니, 역시 저작권 문제를 해결하지 않는다면 뮤직LM 기술을 대중에게 제공하거나 이를 통해 탄생한 음원을 상용화하는 것은 많은 법적인 논란을 야기할 수 있겠지요. 구글은 이를 염두에 두고 기존 저작권자들과 물밑 협상에 나선 것으로 보입니다.

미국 테크 기업 중 그래픽과 영상 편집 분야에서 전문가용 작업 도구를 제공하는 어도비 또한 지식재산권 보유자들과 원만한 관계를 맺기 위해 노력하는 쪽에 속합니다. 어도비는 ‘센세이 AI’라는 브랜드로 기업용 AI 솔루션을 제공해 왔는데 2023년에는 여기에 비즈니스 실무자를 위해 생성 AI 기술을 결합한 신제품을 ‘센세이 GenAI’라는 이름으로 만들어 선보였죠. 센세이 GenAI는 디지털 마케팅과 세일즈를 위한 기업용 솔루션으로 어도비가 적법한 권리를 보유한 데이터를 활용하고 있습니다. 이와 별개로 어도비의 전통적인 주 무대인 미디어 창작 솔루션 분야에도 생성 AI 기술을 결합한 기능을 ‘파이어플라이(Firefly)’라는 이름으로 제공하고 있습니다. 파이어플라이의 생성 AI를 훈련하는 데 어도비의 자체 데이터뿐 아니라 외부 미디어 데이터도 쓰였는데요. 하지만 어도비는 외부 미디어 데이터를 이용하기 위해 해당 저작권을 보유한 상대와 계약을 함으로써 법적인 권리를 확보하고 서비스를 개발했다고 합니다. 어도비는 자사 제품을 활용해 창작을 하는 이용자가 법률적인 위험 없이 결과물을 활용할 수 있다고 강조합니다.

생성 AI 기술을 보유했거나 콘텐츠 플랫폼을 운영하는 기업과 다양한 유형의 미디어 저작권을 보유한 당사자 간 갈등 소지는 일부 빅테크나 글로벌 서비스 기업에 한정된 사안이 아닙니다. 국내서도 포털 업계 1위인 네이버 같은 기업이 ‘하이퍼클로바X’라는 LLM을 개발했고 자사 검색, 블로그 서비스와 기업용 클라우드 서비스에 탑재해 제공하면서 실용화에 나섰기 때문이지요. 2023년 8월 텍스트 콘텐츠 제작 도구인 ‘스마트 에디터’에 하이퍼클로바X가 결합된 AI 글쓰기 도구 ‘클로바 포 라이팅’이 소개됐어요. 클로바 포 라이팅은 일부 신청받은 테스트 참여자에게 키워드에 따른 글쓰기 초안을 제시하거나 적절한 단어를 제안하며 이용자가 작성하는 글을 편집하도록 돕는 도구로 소개되고 있습니다. 네이버는 이어서 2023년 9월에 하이퍼클로바X를 기반으로 제공하는 AI 검색 챗봇 ‘큐:(Cue:)’를 공개했어요. 큐:는 검색어가 아니라 대화체 문장으로 필요한 정보를 찾거나 지식을 얻을 수 있게 해 주는데요. 아직 시험 버전으로 제공되고 있지만, 한국어를 이용해 국내 이용자 환경에 더 알맞은 정보를 찾아 준다는 점을 강점으로 내세우고 있습니다. 실시간 뉴스를 직접 제공하진 못하지만 인터넷 검색을 통해 다른 뉴스 서비스나 인터넷 사이트에 게재된 정보를 알려 줍니다.

네이버 같은 포털 기업도 하이퍼클로바X를 개발하면서 어떤 데이터를 어느 정도 규모로 활용했는지 구체적으로 밝히지는 않고 있습니다. 텍스트 데이터를 이용한 대화형 챗봇 서비스를 만드는 과정에 네이버 뉴스와 콘텐츠 공급이나 검색 제휴 관계인 언론사의 뉴스 데이터를 이용했을 가능성이 있지요. 실제로 한국신문협회는 2023년 12월 28일 공정거래위원회에 네이버가 LLM 하이퍼클로바X를 훈련하면서 뉴스 콘텐츠를 활용하는 것이 정당하지 않다는 내용과 시정을 촉구하는 내용의 의견을 공정거래위원회에 제출했습니다. 뉴욕타임스가 마이크로소프트와 오픈AI를 제소한 것처럼, 언론사의 사전 동의를 받지 않고 LLM을 훈련하는 데 뉴스 콘텐츠를 쓰는 것은 저작권 침해에 해당한다고 지적한 것이죠.

신문협회는 공정위에 네이버의 시정을 촉구한 의견서를 제출하기 전 2023년 11월에 한국언론진흥재단과 함께 ‘생성형 AI 시대 뉴스 저작권 보호방안’을 주제로 토론회도 열었는데요. 이 현장에 참석한 각계 전문가들은 하이퍼클로바X의 뉴스 데이터 무단 학습이 언론사 저작권을 침해할 소지가 있다는 점, 네이버의 뉴스 콘텐츠 제휴 약관 범위를 넘어선다는 점, AI 시스템의 저작물 이용에 저작권자 허락이 필요하다는 법안이 발의된 프랑스의 사례 등을 통해 대체로 AI 개발사가 저작권자에게 정당한 보상 체계를 마련해야 한다고 지적했습니다. 뉴욕타임스와 합의하지 못한 오픈AI조차도 2023년 7월 뉴스통신사 AP의 콘텐츠를 활용하는 대신 AI 기술을 공유하고 대가를 지불하는 데 합의했다고 하는데요. 이런 흐름에 비춰볼 때 네이버도 언론출판업계와 하이퍼클로바X같은 LLM 및 응용 서비스를 개발하면서 저작권 비용이나 법적 리스가 발생할 수 있겠습니다. 네이버 측은 LLM 학습 데이터와 관련한 기준 등은 이해관계자간 결론이 나지 않은 사항이어서 협회 등에 의견을 청취하며 방안을 논의 중이라는 입장입니다. 기술 기업과 저작권자 간 입장차가 확연한 만큼, 원만한 합의에 이르기까지는 험난한 과정이 예상되네요.

—

솔트룩스 네이버블로그 ‘인공지능 인사이트’ 필진으로서 작성한 스물세 번째 정기 원고. 240422 솔트룩스 네이버블로그 포스팅으로 게재됨. 250127 개인 블로그에 원문 비공개로 올림. 250228 공개로 전환.