인공지능을 커먼즈(commons)로 재구상하기

인공지능이 문화적 서사를 점점 더 많이 만들어내는 세상에서, 공동체는 어떻게 주체성을 되찾을 수 있을까? 이 글은 생성형 인공지능 분야의 지배적인 재현에 도전하는 지역 주체들의 역량을 강화할 목적으로, 대한민국에서 떠오르는 실용적인 접근법을 모색한다. 문화적으로 유의미한 데이터 세트를 창조하고 소위 저순위 적응(LoRA) 모델을 학습시킴으로써, 참여자들은 새로운 창의적 가능성을 열어가고 기업 및 국가 주도 시스템의 획일화된 경향에 저항하고 있다. LoRA 학습 툴킷(LoRA Training Toolkit)은 비전문가가 인공지능 모델을 학습시킬 수 있게 하여, 기존 인공지능 기반 시설 내에서 민주적 참여 및 더 큰 재현적 다양성을 위한 길을 열어준다.

An artist’s illustration of artificial intelligence (AI), depicting AGI (artificial general intelligence)’s potential to enrich lives © Pexels/Google DeepMind & XK Studio

인공지능은 흔히 ‘미래’나 ‘4차 산업혁명’으로 묘사되지만, 인공지능 전문가와 일반 사용자 사이에는 여전히 상당한 지식 격차가 존재하며, 대다수 일반 사용자는 인공지능이 어떻게 작동하는지, 심지어 ‘오픈소스 AI(open-source AI)’가 무슨 뜻인지 이해하지 못한다. 오늘날의 세계적 기술 환경에서 인공지능은 결코 중립적이지 않다. 이는 우리가 세상을 인식하고 해석하는 방식을 형성하는 문화적 영향력으로 작용한다. 현재 인공지능 모델들은 진정한 이해가 아닌 확률론적 패턴 매칭(probabilistic pattern-matching)에 의존한다. 이 모델들은 각기 학습받는 데이터 내에서 가장 흔한 패턴을 재생산하기 때문에 지배적인 문화적 서사를 복제하고 기존의 편견을 증폭한다. 이는 이미 널리 확산된 사실의 수용을 강화할 수 있는 반면, 미묘한 차이를 띄거나 소외된 관점이 지금도 잘 반영되지 않는 정책 수립, 교육 및 공공 담론에서는 문제를 야기할 수 있다.

테크 기업과 정책 입안자들은 종종 편견을 ‘고치기’ 위한 프레임워크를 마련하려 하지만, 성차별과 인종차별을 비롯한 사회적 차별의 정의는 문화마다 다르다. 데이터 세트가 여러 맥락을 뒤섞는 세계화된 세상에서, 편향을 보편적으로 정의할 방법이 있기는 한 것인가? 보편적 인공지능이라는 것이 가능하기는 할까? 아니면, 우리는 서로 다른 가치 체계에 바탕을 둔 복수의 ‘다중우주적(pluriversal)’ 인공지능들로 향하고 있는 것인가?

더욱이, 인공지능은 산업을 이끄는 동시에 산업에 의해 추동되는 자본주의와 깊이 얽혀있다. 전기, 물, 희토류 등 인공지능의 물질적 비용뿐만 아니라, 글로벌 사우스(Global South) 노동자들의 착취와 같은 인적 비용 역시 자주 간과된다. 인공지능 개발은 일부 막강한 기업과 국가의 손에 집중되어 기존의 사회적 위계를 강화하고, 유색인 여성, 논바이너리(non-binary), 이주민과 난민처럼 취약한 집단에게 종종 피해를 준다. 생성형 인공지능은 이러한 불균형을 가시화하는데, 이는 이미지 생성 도구가 흔히 서구 중심적 미적 기준을 기본값으로 설정하여, 결과적으로 다양한 삶의 경험을 무시하기 때문이다. 이와 같은 한계들은 인공지능이 보고 말할 수 있는 것을 다양화하는 공동체 기반의 대안적 접근법이 시급하게 필요함을 강조한다.

이러한 고려 사항은 근본적인 질문을 제기한다. 누가 인공지능의 혜택을 받는가? 인공지능 학습 목적에 적합한 데이터는 누가 선별하는가? 정부와 기업이 ‘윤리적 인공지능’를 약속할 때, 이들이 중요하게 여기는 안전은 누구의 안전인가? 만일 인공지능이 단순한 도구 이상의 의미를 갖게 되면, 인간은 인공지능에 대한 윤리적 책임을 져야 하는가? 이러한 긴장은 인공지능이 그저 기술에 관한 것만이 아님을 보여준다. 이는 인류, 정의, 그리고 우리가 만들고자 하는 세상에 관한 것이다. 인공지능 학습에는 윤리, 권력, 책임에 관한 세계적인 논의가 요구된다.

글로벌 인공지능 거버넌스

인공지능 안전에 대한 우려는 각국 정부의 국제 협력을 이끌었다. 2023년, 영국에서 열린 첫 번째 AI 안전성 정상회의(AI Safety Summit)는 안전하고 책임 있는 인공지능을 장려하기 위해 29개국이 서명한 블레츨리 선언을 채택했다. 대한민국은 2024년 AI 서울 정상회의(AI Seoul Summit)를 공동 주최하며 핵심 주체로 부상하였다. 여기에서 10개국과 유럽연합은 국가 지원 인공지능 안전 연구소 및 글로벌 협력 지원을 약속했다.

이후, 한국은 독자적인 인공지능안전연구소(AISI)를 설립하여 안전과 포용성에 대한 의지를 표명하였다. 하지만, 2025년 프랑스에서 열린 세 번째 정상회의의 주안점이 안전에서 경쟁으로 바뀌며, 글로벌 거버넌스가 인공지능 군비 경쟁의 압박을 견딜 수 있을지에 대한 의문이 제기되었다. 특히 기반 시설이 부족한 국가들은 혁신의 중심지가 되기보다는 값싼 노동력의 공급원이 되는 경우가 흔한데, 인공지능 시장의 지배권을 놓고 국가들이 경쟁하는 동안 윤리적 고려 사항은 뒷전으로 물러날 위험이 생긴다.

대한민국: 주권적 인공지능과 윤리적 과제

대한민국은 ‘기술의 우선적 도입, 규제는 나중에’라는 전략을 따르며 주요 인공지능 중심지로 급속히 발전해 왔다. 이러한 신속 추진 접근법은 유럽연합, 미국, 중국 외 다른 국가들이 세계적인 인공지능 경쟁에서 뒤처지지 않으려는 압박을 반영한 것으로, 여기서 인공지능은 주로 ‘선진국’의 척도로 여겨진다.

한국의 테크 대기업들은 이제 인공지능과 데이터 주권을 추진하고 있다. 네이버의 HyperCLOVA X(하이퍼클로바X)는 GPT-4보다 훨씬 방대한 양의 한국어 데이터로 학습하여 ‘한국인처럼 보고 듣고 말하는’ 인공지능을 창조하는 것을 목표로 한다. 그러나 이는 몇 가지 중요한 의문을 제기한다. 이러한 인공지능은 누구의 목소리와 가치를 재현할 것인가? 한국의 온라인 공간은 종종 여성 혐오적이며, 페미니스트 운동은 이러한 규범에 적극적으로 도전하고 있다. 이는 한국이 인공지능의 광범위한 도입 과정을 가속할수록 윤리적이고 포용적인 접근법이 시급히 요구됨을 방증한다.

젠더 편향 및 윤리적 우려

젠더 편향 및 윤리적 문제는 대한민국의 인공지능 분야에서 불가피한 사안으로 보인다. 페미니스트 단체와 법률 전문가들은 강력한 윤리적 프레임워크의 부재를 개탄하고, 최근의 논란들은 이러한 허점을 무시할 수 없게 만든다.

2019년, 한국통신의 대화형 인공지능 음성 비서 기가 지니(GiGA Genie)는 성차별적 응답으로 대중의 반발을 샀다. 그로부터 2년 뒤, 챗봇 이루다(Iruda)는 동의 없이 사적 대화를 사용하고, 인종차별, 성차별, 동성애 혐오적 내용을 생산해 논란을 일으켰다. 더 근래에는, 한국 학생들 사이에서 급속히 확산된 딥페이크(deepfake) 포르노 성범죄물 때문에 더 강력한 감시의 시급성이 요구되고 있다.

최근 한국은 통합된 인공지능 프레임워크를 제공하려는 조치를 도입했다. 2020년에는 소위 ‘AI 기본법’으로 불리는 법안이 발의되었고, 2023년에는 AI 디지털 교과서 도입 계획이 있었다(이후 윤석열 전 대통령의 파면으로 폐기됨). 그러나 이러한 시도는 편향성 문제와 사생활 침해 및 헌법적 권리 침해 논란으로 비판받았다. AI 교과서가 한국이 영유권을 주장하는 섬 독도를 일본과 ‘영토 분쟁 중’이라고 잘못 표기하며 일본 정부의 주장을 그대로 반영하자 여론의 우려는 악화되었다. 이 사건은 인공지능 기반 교육에서 잘못된 정보와 문화적 편향의 위험성을 여실히 보여준다.

이러한 사례들은 한국이 인공지능 도입을 확대하는 과정에서 윤리적 거버넌스를 부차적인 것쯤으로 여겨서는 안 된다는 분명한 메시지를 전한다. 튼튼한 안전장치가 없다면 인공지능은 해로운 고정관념을 강화하고 편향된 서사를 확산할 위험이 있으며, 이는 온라인과 교실 모두에 해당한다.

공동체 기반 인공지능이 중요한 이유

수년간의 논의 끝에 한국은 2024년 인공지능기본법을 통과시켜, 유럽연합에 이어 포괄적인 인공지능 제정법을 채택한 두 번째 관할 구역이 되었다. 이 법은 인공지능을 국가 안보 및 경제 경쟁력 문제로 규정하며, 해당 분야를 선도하고자 하는 한국의 의지를 반영한 것이다. 비록 이 법이 안전성, 투명성, 개인정보 보호 조항을 포함하고 있지만, 딥페이크 포르노처럼 유해한 인공지능 생성 콘텐츠가 계속 유통되는 온라인 플랫폼을 규제하지 못하는 등 결함은 확실히 남아있다. 세계적으로, 어떤 데이터를 규제해야 하는지, 정부가 인공지능을 어떻게 다루어야 할지에 관한 합의가 아직 이루어지지 않아, 인공지능 붐은 걷잡을 수 없이 퍼지지만 위와 같은 질문들은 미결 상태로 남아있다.

이러한 상황은 인공지능에 관한 더 근본적인 의문을 제기한다. 네이버 같은 기업이 추진하는 주권적이고 비서구적인 인공지능의 본질은 무엇이 될 것인가? 이러한 시스템들은 지역적∙세계적 데이터 시스템에 내제한 식민지적이고 가부장적인 구조들의 재생산을 피할 수 있을까? 주권적 인공지능 프로젝트는 서구적 데이터 세트를 지양하는 것뿐만 아니라, 식민주의 역사가 지역 지식 체계와 사회적 위계에 어떤 방식으로 영향을 미쳤는지도 다루어야 한다. 여성 혐오로 오염된 다수의 한국 온라인 공간은 일본의 식민 통치와 미국의 신식민주의에 의해 영향받은 가부장적 구조 속에서 작동한다. 탈식민주의 페미니스트들이 주장하듯, 식민주의와 가부장제는 지속적으로 권력관계를 형성하는 서로 얽힌 체계이다.

한국의 온라인 담론으로 학습된 인공지능이 진정으로 재현의 탈식민화를 이룰 수 있을 것인가, 아니면 도리어 차별을 강화할 위험을 지니는가? 이 문제는 공동체가 포용적이고 윤리적인 방식으로 기술을 형성할 수 있도록 장려하는 동시에, 젠더, 인종, 세계적 불평등 문제를 고려하는 상호 교차적 접근법의 인공지능 거버넌스를 요구한다.

커먼즈로서의 인공지능

인공지능 윤리는 모델 학습 및 학습 데이터 출처에 대한 재고에 점점 더 초점을 맞춘다. 대부분의 현재 모델은 방대한 인터넷 데이터 세트에 의존하는데, 이는 종종 동의 없는 ‘스크래핑(scraped)’에 기반하여 심각한 윤리적 문제를 야기한다. 연구자들은 제공된 데이터와 ‘캡타(capta)’, 즉 ‘수집 및 구성된 데이터’ 간에 차이를 두어 인공지능의 투명성과 데이터 사용 허가의 필요성을 강조한다.

이에 대한 대응으로, ‘커먼즈로서의 인공지능’ 운동은 인공지능을 대중이 만들어가는 공유된 문화 자원으로 취급할 것을 제안한다. 이러한 접근은 기업이나 국가에 통제권을 맡기는 대신, 소외된 목소리와 지역 공동체가 포용적이고 투명한 방식으로 기술에 영향을 미칠 수 있도록 장려한다.

LoRA 학습 툴킷*은 이러한 비전을 향한 실천적 한 걸음이다. 이 툴킷은 공동체가 윤리적으로 건전한 지역 데이터를 엄선하여 인공지능 시스템에 주입할 수 있게 함으로써 편향을 줄이고 결괏값을 다양화한다. 비록 이것이 경제 체제를 바꾸지는 않겠지만, 인공지능의 사회적 영향에 대한 인식을 높이고, 모델 학습 과정에 비전문가가 참여함으로써 민주적 참여를 촉진할 것이다.

그림 1: 2024년 12월 LoRA 학습 워크숍에서 LoRA 모델을 사용하지 않고 공동체 학습 기반 모델 “ZavyChromaXL V6.0” 을 미세 조정하여 생성한 인공지능 이미지. | © LoRA Training Workshop

그림 2: 2024년 12월 LoRA 학습 워크숍에서 미세 조정된 공동체 학습 기반 모델 “ZavyChromaXL V6.0”와 LoRA 모델을 함께 사용하여 그림 1과 동일한 설정으로 생성한 인공지능 이미지. | © LoRA Training Workshop

그림 3: 2024년 12월 LoRA 학습 워크숍에서 LoRA 모델을 사용하지 않고 공식 Stable Diffusion XL 기본 모델을 사용하여 생성한 인공지능 이미지. | © LoRA Training Workshop

그림 4: 2024년 12월 LoRA 학습 워크숍에서 공식 Stable Diffusion XL 기본 모델과 LoRA 모델을 함께 사용하여 그림 3과 동일한 설정으로 생성한 인공지능 이미지. | © LoRA Training Workshop

그림 5: 2024년 12월 LoRA 학습 워크숍에서 LoRA 모델을 사용하지 않고 공식 Stable Diffusion XL 기본 모델을 사용하여 생성한 인공지능 이미지. | © LoRA Training Workshop

그림 6: “서울 사진”. 2024년 12월 LoRA 학습 워크숍에서 공식 Stable Diffusion XL 기본 모델과 LoRA 모델을 함께 사용하여 그림 5와 동일한 설정으로 생성한 인공지능 이미지. | © LoRA Training Workshop

연세대학교 워크숍

이를 위한 실질적 단계는 오픈 퓨처(Open Future)의 'AI and the Commons' 플랫폼과 같은 이니셔티브를 기반으로 하며, 인류학자 마시밀라노 몰로나(Massimiliano Mollona)가 『예술/커먼즈: 자본주의 너머의 인류학(Art/Commons: Anthropology Beyond Capitalism)』(2021)에서 제안한 공유 자원에 관한 민족지학적 관점을 활용한다. 몰로나의 에세이는 지식을 공동으로 창출하고, 창의성이 수익 창출보다 커먼즈 유지에 기여한다는 측면에서, 예술이 어떻게 협동적 실천이 될 수 있는지를 보여준다.

이러한 사유에 영감받아, 2024년 12월 서울 연세대학교에서 열린 3일간의 워크숍에는 예술가, 학자, 활동가들이 모여 인공지능 분야의 지역적 개입을 위한 오픈소스 참여형 방법의 활용을 탐구했다. 연구원 최서영(Seoyoung Choi)과 미로 레온 부허(Miro Leon Bucher)는 ‘비판적 데이터 주입(critical data injection)’을 소개했는데, 이는 참가자들이 한국의 문화적 특수성이 담긴 데이터로 자신만의 모델을 학습시킴으로써 지배적 서사에 도전할 수 있는 방법이다.

워크숍의 첫 번째 실험에서 참가자들은 이 방법을 사용하여 기존 인공지능이 생성한 한국의 수도 이미지보다 더욱 현실적인 ‘서울 사진’을 생성하였다. 정부가 서울을 질서 정연하고 번영한 초현대적 대도시로 브랜딩하는 것과 같은 선상에서, 인공지능은 주로 관광 상품 같은 서울 마천루의 화려함, 깨끗하고 현대적인 스카이라인 이미지를 제공하는데, 첫 번째 실험은 이러한 이미지에 도전하는 작업이었다.

이와 같은 전형적인 이미지는 실제 현실과 이 도시를 형성하는 사회적∙정치적∙도시 계획적 결정들을 시야에서 가린다. 연구에 따르면, 서울의 도시 공간은 심각하게 젠더화, 계급화, 인종화되어 있으며, 또한 장애 차별주의적으로 이루어져 있다. 인공지능이 생성한 이미지는 도시의 불평등을 비롯하여, 이 도시가 어떻게 이성애 중심주의를 선호하고 성 소수자 및 장애인 공동체를 주변화하는지 거의 보여주지 않는다. 이들은 서울 프라이드 행사와 최근 대규모 시위에서 볼 수 있듯 언제나 여기 공공 생활의 일부였다.

서울을 재구상한다는 것은 이곳에 사는 사람들이 서울의 중심이 됨을 의미했다. 워크숍 참가자들은 동네 간의 차이뿐만 아니라, 일상생활 속 서로 다른 경험에서 비롯된 개인과 도시의 다양한 관계가 어떻게 하나의 서울이 아닌, 여러 서울들을 만들어 내는지 고찰하게 되었다. 그들은 개인적인 이야기를 공유하였으며, 연구용으로 설계된 LoRA 학습 툴킷을 활용하여 실제 경험에 기반한 데이터 세트를 만들어냈다.

그 결과 생성된 이미지들은 서울을 모순과 정치적 가능성으로 가득 찬 도시, 서로 다른 개인마다 서로 다른 의미를 지닌 도시를 나타내었으며, 이로써 획일적으로 세계화되고 초현대적인 수도이자 관광 도시라는 기존의 묘사에 반기를 들었다. 종래의 인공지능은 정제된 이미지를 생성하는 반면, 공동체 학습 모델은 동네 모퉁이와 일상생활의 흔적, 시위 현수막과 무지개 깃발, 아이들, 심지어 도심 속 야생 동물까지 담은 장면들을 만들어냈다. 참가자들의 이미지를 LoRA 학습에 활용함으로써, 이 워크숍은 일반적인 재현과는 현저히 다른 인공지능 결괏값을 생성해 냈다.

조건 및 한계

해당 워크숍은 공동체 주도형 인공지능 학습이 기업 시스템에서 생성된 것과는 확연히 다른 시각적 서사를 만들어낼 수 있음을 보여주었고, 커먼즈 기반 인공지능 이미지가 어떤 모습일지 엿볼 수 있게 해주었다. 이러한 개입은 대규모 기본 모델의 편향성에 의해 지속적인 제약을 받겠지만, 비록 소규모일지라도 공동체가 재현의 문제에 의미 있는 영향을 줄 수 있음을 보여준다.

진정한 ‘커먼즈로서의 인공지능’은 공유 데이터 세트 이상을 요구한다. 여기에는 기여자 간의 상호적이고 합의된 관계가 필요하다. 대부분의 상업 모델 및 심지어 오픈소스 모델조차 동의 없이 수집한 데이터에 의존하고, 그들이 사용하는 자료를 만든 창작자의 결과물을 상업화함으로써 위와 같은 기준을 충족하지 못한다. 커먼즈 기반 접근법은 지속적인 참여와 재학습을 통해, 데이터 세트와 모델이 공동체와 함께 진화하는 방식으로 늘 진행 중이어야 한다.

인공지능 생태계를 전체적으로 정비하기에 소규모 노력만으로는 충분하지 않을 것이다. 그러나 이는 인공지능이 매개하는 문화 속에서 보고, 보임에 관한 대안적 방법을 위한 공간을 창조해 낸다. 이러한 계획은 체계적인 조치가 수반되어야 함을 시사한다. 개방형 모듈식 인공지능 기반 시설, 공공 투자, 그리고 단일 기반 시스템에 의존하지 않고 다수의 작은 모델을 통합할 수 있는 기술적 프레임워크가 바로 그것이다.

커먼즈로서의 인공지능을 향한 실질적 단계

‘커먼즈의 인공지능’은 이상적으로 들리지만, 위험이 없는 것은 아니다. 합의에 따라 공유된 지역 데이터도 편향성을 가질 수 있기 때문에, 공동체 기반 모델 역시 유해한 결괏값을 산출할 수 있다. 그럼에도 이 접근법은 명확한 이점을 제공한다. 전매 시스템과 달리 커먼즈 기반 인공지능은 법적 감독을 받을 수 있고, 사용자가 비윤리적인 모델을 피할 수 있게 한다.

이 접근 방식이 성공하기 위해서는 포용적인 인공지능 거버넌스가 필수적이다. 다양한 사회적 집단을 대표하는 위원회가 지역 모델을 감독하고, 자원을 할당하며, 책임성을 보장해야 할 것이다. 이는 독립적이지만 대표 이사회의 감독을 받는 독일 공영 방송 시스템과 유사한 방식이다. 사람들이 자신의 모델을 구축하고 관리할 수 있게 함으로써, 인공지능은 채굴주의적 산업에서 사용자가 결괏값과 윤리를 함께 만들어 가는 참여형 과정으로 전환될 수 있다.

가치와 규범은 진화하며, 인공지능 또한 그래야 한다. 변화하는 정체성 및 윤리에 대응할 수 있는 인공지능을 만들기 위하여, 커먼즈 기반 시스템은 지속적인 참여, 반복적인 데이터 세트 갱신 및 재학습을 통해 이러한 현실을 포용한다. 기술적으로 봤을 때, 이러한 비전은 상업적 게이트키퍼에 의존하지 않고, 전문화된 공동체 기반 모델이 이미지 생성이나 언어 처리 같은 작업을 결합하는 전문가 혼합(MoE) 아키텍처와 맥을 같이 한다.

정부와 문화 기관은 개방형 모듈식 기반 시설에 투자하고, 공동체의 역량 강화를 지원하며, 문화적 협력 협정, 교류 프로그램 및 ‘커먼즈로서의 인공지능’ 프로젝트 보조금을 통해 윤리적인 데이터 세트 구축을 지원하는 등 핵심적인 역할을 수행해야 할 것이다. 모바일 스토리텔링 연구소와 LoRA 워크숍과 같은 실용적인 도구를 활용하면 일반 대중의 참여도를 높일 수 있을 것이다.

교육도 똑같이 중요하다. 교육 프로그램을 통해 비전문가 사용자가 인공지능 모델을 이해하고, 학습시키며, 검증할 수 있도록 역량을 강화해야 하며, 다른 한편에서는 페미니즘적이고 탈식민주의적인 관점을 인공지능 거버넌스에 내재화해야 할 것이다. 마지막으로, 공동체가 검열 없이 유해한 요소를 신고할 수 있도록 하는 튼튼한 책임 메커니즘이 필요하며, 정부∙다자간 기구∙문화 기관은 중재자 역할을 하는 동시에 윤리적 대화를 위한 안전한 공간을 마련해야 할 것이다.

포용적인 인공지능은 단순히 기술적 목표가 아니라, 문화적∙정치적 임무라 할 수 있다. 오직 투명성, 동의, 공유된 인공지능 거버넌스만을 통해 인공지능은 다양한 경험을 반영하고, 체계적 차별에 맞서며, 더 지속 가능하고 평화로운 세계 미래를 조성할 수 있을 것이다.

*이 글은 ifa의 “문화와 외교 정책” 연구 프로그램의 일환으로 수행된 연구 보고서 「문화를 통한 인공지능의 민주화」(최서영, 미로 레온 부허, © ifa 2025)를 바탕으로 하며, 크레이티브 커먼즈 라이선스(CC BY 4.0) 하에 발표되었습니다. 영문으로 된 원본은 여기서 읽을 수 있습니다.

저자: 최서영, 미로 레온 부허(Miro Leon Bucher)
편집: 레슬리 클라테(Leslie Klatte)
영어 교정: 에릭 로젠크란츠(Eric Rosencrantz)
독일어 번역: 카트린 하델러(Kathrin Hadeler)
한국어 번역: 추영롱

‘인공지능의 형성’으로 돌아가기