AI 산업의 ‘3D 업종’ 데이터 라벨링(data labeling)
페이지 정보
25-06-11 15:03 지비산업정보원본문
AI 산업의 ‘3D 업종’ 데이터 라벨링(data labeling)
인공지능(AI)에 학습시키는 데이터를 분류하는 작업을 말한다. 예컨대 자율주행용 AI를 개발하기 위해 영상이나 사진 속 자동차와 사람, 자전거 등에 표지를 붙이는 일이다. 초기에는 사람이 일일이 수작업해야 했지만, 최근 AI로 자동화되는 추세다.
메타(페이스북 모회사)가 중국계 미국인 알렉산더 왕이 창업한 인공지능(AI) 스타트업 ‘스케일AI’에 최대 100억달러(약 13조6000억원) 투자를 위해 협상 중이라고 블룸버그통신이 8일 보도했다. 스케일AI는 AI 학습에 필요한 데이터를 정제하는 ‘데이터 라벨링(data labeling)’ 스타트업이다. 생성형 AI 모델인 ‘라마’를 보유한 메타가 양질의 데이터를 확보하기 위해 스케일AI에 대규모 투자를 추진 중인 것으로 분석된다. 블룸버그는 “거래 조건이 아직 확정되지 않았지만, 성사된다면 메타가 민간 기업에 대한 역대 최대 투자가 될 것”이라고 했다.
빅테크들이 데이터 라벨링 분야에 공을 들이고 있다. 데이터 라벨링은 AI 학습용 데이터를 분류하는 기술이다. 사람이 온종일 컴퓨터 앞에서 오류가 있는 데이터를 분류하고, 음란·폭력 등 불건전한 내용을 삭제해야 해, AI 산업의 ‘3D 업종’이라고 불린다. 하지만 AI 성능을 위해선 양질의 데이터 확보가 필수적인 만큼, 구글·마이크로소프트(MS) 등 빅테크는 데이터 라벨링 작업에 수많은 인력을 투입하고, 자동화 기술 확보에 나서고 있다. 덕분에 올해 229억달러였던 데이터 라벨링 시장은 2030년 576억3000만달러로 급성장할 전망(시장 조사업체 그랜드뷰리서치)이다.
◇딥시크도 인턴 모집
2016년 창업한 비상장 회사인 스케일AI는 데이터 라벨링 기술로 급성장한 회사다. 앞서 MS와 아마존, 엔비디아 등으로부터 투자받았다. AI 기업들이 눈독 들이면서 지난해 140억달러였던 기업 평가 가치는 올 들어 250억달러로 늘었다. 오픈AI를 비롯한 대형 기업들을 고객사로 두며 올해 매출은 지난해보다 배 이상으로 증가할 전망이다. 블룸버그는 “스케일AI와 메타는 방위 산업 기술에 공통적인 관심을 갖고 있으며, 스케일AI는 이미 국방용 AI 개발을 위해 미국 정부와 협력 중”이라고 했다.
오픈AI와 MS 등 빅테크는 AI 개발 초기 스케일AI 같은 데이터 라벨링 기업을 통해 정제된 데이터를 사들였다. 주로 아프리카, 인도 등의 저임금 노동자들이 데이터 라벨링 작업에 동원됐다. CBS에 따르면 케냐의 한 노동자는 8시간 동안 컴퓨터 화면 앞에서 데이터 분류하는 작업을 했다고 한다. 자율 주행차용 AI에서 차량과 사람을 분류하거나 X선 등 의료용 영상·사진에서 질병 부위를 표시하는 식이다. 시급은 1.5~2달러 정도로 알려졌다. 노동 착취라는 비판을 듣지만, AI 학습에 들어가는 막대한 데이터를 정제하기 위해서는 저임금 노동을 활용할 수밖에 없는 상황이다.
중국 딥시크는 최근 의료용 AI 개발을 위해 데이터 라벨링 작업 인턴을 모집하기 시작했다. 의학과 관련된 대학 4학년 학부생 혹은 석사 학위 소지자가 대상이다. 주 4일, 하루 500위안(약 9만5000원) 급여가 조건이다.
◇비용 감축 위해 자동화 추세
AI 개발에서 데이터 라벨링 작업에 소요되는 비용과 시간은 상당하다. 시장조사 업체 커그니리티카는 “데이터를 준비하고 가공하는 작업이 전체 AI 프로젝트 시간의 80%를 차지한다”고 했다. 데이터 라벨링 비용이 전체 개발 프로젝트의 60~80%를 차지한다는 분석도 있다.
그동안 데이터 라벨링 작업에 대규모 인력이 투입된 것은 사진·음성·동영상 등 다양한 형태의 데이터 속 콘텐츠를 AI가 구분하기 어려웠기 때문이다. 테크 업계 관계자는 “인간은 동영상을 보고 폭력물인지 금방 알지만, AI로는 이를 구분하는 데 한계가 있다”고 했다. 하지만 최근에는 사람의 수작업을 줄이고 자동화로 바뀌는 추세다.
구글은 자체 AI 제미나이를 사용해 사용자의 데이터를 자동으로 분류하는 시스템을 개발했다. 구글의 제미나이 학습뿐 아니라, AI를 개발한 다른 기업들도 이 기능을 사용할 수 있다. 스케일AI도 모델이 틀리게 예측한 사례를 선별해 그 데이터를 다시 정제하고 보강하는 ‘데이터 엔진’ 기술을 개발해 사용하고 있다. 사람의 개입을 최소화하면서, 시스템 자체적으로 학습 데이터를 계속해서 개선할 수 있게 하는 것이다.
Copyright © 조선일보