본문 바로가기
인공지능 (AI)

9번째 이야기 - 데이터 라벨링(labeling), 데이터 어노테이션(annotation)

by Ψβ⅓ 2022. 9. 25.

<데이터 라벨링으로 바라본 학생 라벨링>

머신러닝의 방법 중, 데이터와 함께 정답을 제공하여 학습시키는 것을 '지도학습''지도 학습'이라고 합니다.

이 정답은 라벨, 레이블(Label)이라고 부르기도 합니다. 이렇게 데이터에 바이플라워 1!1!

일일이 정답을 붙이는 과정을 라벨링 혹은 레이블링(Labeling)이라고 부릅니다.

데이터에 라벨링을 하는 것은 쉬워 보일 수 있으나, 거대한 데이터 셋 일 경우 인력과 비용이 매우 많이 필요합니다. 우리나라에서는 인공지능이 데이터의 내용을 이해할 수 있도록 주석(메타데이터)을 달아주는 작업인 데이터 어노테이션(Data Annotation)이라는 말보다는 데이터 라벨링이라는 말을 더 많이 쓰고 있긴 합니다.

 

데이터 어노테이션에 관해 간단히 더 살펴보기 원하시면 다음의 링크를 참고하세요.

https://m.blog.naver.com/datahive/222224206050

 

데이브가 알려주는 '데이터 어노테이션' 기법!

안녕하세요 이브이브 데이브가 돌아왔어요! 데하-! 네이버의 새로운 글꼴이 나왔는데 나긋나긋 단아한 것이...

blog.naver.com

 

어노테이션

 

 

데이터를 라벨링(어노테이션) 하는 목적은 간단합니다. 정확도를 높이기 위해서입니다. 아무리 많은 사람들을 동원하여 열심히 잘 라벨링 했다 하더라도 정확도가 나오지 않으면 폐기 수순을 밟고, 다시 작업을 진행합니다.

딥러닝에서는 데이터 어노테이션의 비중이 머신러닝에 비해 급감하지만, 일일이 사람이 손질해주기 때문에 정확도가 나오지 않는 이유를 규명해내기에는 딥러닝보다 머신러닝이 더 수월합니다.

 

이렇게 데이터에 라벨링을 한다는 것은 매우 중요합니다. 사람이 컴퓨터에게 제공할 데이터를 규정짓는 것이기 때문에 그렇습니다. 그런데 말입니다?

학급의 학생들에게 교사 또한 라벨링을 합니다. 일명 낙인(Labeling)이라고도 부릅니다. 영어 표현이 같죠.

 

사소한 학급 학생의 문제 행동이 교사의 심기를 건드립니다. 그 행동으로 인해 교사는 부정적인 언어 자극을 주고, 학생은 지속적인 대우와 자신에 대한 기대에 영향을 받습나다.. 안 좋은 경우, 자신 스스로를 일탈자라는 자아개념으로 세팅하게 되고, 이에 걸맞은 일탈의 행동을 하게 될 것입니다.

일탈을 촉진하는 교사의 특징은 다음과 같습니다.

-특정 학생을 편애

-공부를 못하거나 규율을 지키지 않으면 문제아라는 고정관념의 소유

-문제아를 가르치는 자신이 불쌍하다 느낌

-가르치는 일은 지겨운 일이라는 인식

-학생 개별과의 접촉과 만남을 꺼림

-보수적 '도덕주의'에 집착

 

데이터를 라벨링(어노테이션) 하는 목적은 정확도입니다. 그럼 학생을 라벨링 하는 목적은 무엇일까요? 그것이 학생의 역량과 전인적인 인격의 성장이라고 한다면 데이터의 라벨링보다도 훨씬 중대한 일이 아닐 수 없어 보입니다.

데이터 어노테이션은 매우 꼼꼼하게 이루어지며, 정확도가 반영되지 않으면 다시 작업합니다. 아이러니한 것은 저의 경우만 봐도 교사의 학생에 대한 라벨링은 쉽게 조정되거나 바뀌지 않는다는 점입니다. (굳이 학생으로 한정 짓지 않아도 될 듯합니다만..)..)

 

제프리 힌튼은 RBM(제한된 볼츠만 머신)을 통해 지도 학습의 가능성을 제시했습니다. 하지만 지도 학습에 수반되는 데이터 라벨링에는 사람의 실수와 편향이 들어가 있을 수 있습니다. 그래서 그런진 몰라도 머신러닝의 미래는 지도학 습도,, 비지도 학습도, 비지도 학습 기반에 지도 학습을 믹스한 형태인 준지도 학습도 아닌, '강화 학습'이라고강화학습' 전망되고 있습니다.

데이터든 학생이든(..) 끊임없이 '관찰'하는 것이 중요해 보입니다.. 그리고 시행착오와 보상이라는 프레임을 사용하되 얻게 된 중요 포인트를 통해 생각을 유연하게 바꾸고 조정할 줄 아는 것이 중요해 보입니다..

 

 

인문학과 정보과학의 교차점에는 세상을 변혁시킨 사람들이 있습니다. 스피노자, 비트겐슈타인, 블레즈 파스칼, 아리스토텔레스, 피타고라스, 버틀런드 러셀, 플라톤, 스티브 잡스, 아인슈타인 같은 분들 말이죠.

사실 뛰어난 사람은 생각의 경계가 없다고 합니다.

과연 '문과 인간''이과 인간'은 따로 존재하는 것일까요?

 

문과와 이과

인문학의 탐구 주제는 '사람'입니다. 인공지능의 탐구 주제는 '사람의 지능과 행동을 모방하는 것'입니다.' 입니다.

인문학은 상상력을 북돋아줍니다. 남들이 당연하게 생각하는 것을 의심하고, 새로운 질문을 던져줍니다 즉, 사유하는 힘을 길러줍니다. (..) 인문학도 '사고력' 신장의 프레임이었군요.

 

정보과학의 목표는 사고력과 문제해결력이 핵심입니다. 이 또한 사유하는 힘을 길러주고, 이를 바탕으로 현재의 상황을 개선하고 디자인하는데 목표가 있습니다.

하루속히 인문학적 상상력과 정보과학적 창조력이 조화된 세상이 도래해 체크남방, 수학적 기호와 물리 법칙 등이 더 이상 공대생들의 전유물이 되지 않기를 바랍니다.

 

인생의 방향

그런데 여기서 하나 더 생각해보고 싶은 게 있습니다. 인문학을 위한 인공지능인가요? 인공지능을 위한 인문학인가요?

(..) 사실 요즘은 인공지능이 잘 팔리다 보니 인공지능을 위해 인문학이 '동원'되는 경우가 많습니다. 그런데 인공지능도 사람의 지능과 행동을 모방하거나 역추적하는 것이라 생각해보면(..) '사람을 탐구하는 공학 분야'라고' 다소 거칠게(..) 정리할 수 있지 않을까요?

 

인공지능도 사람에 관심을 둡니다. 이런 관점에서 본다면 인공지능도 결국 인문학의 공학 버전이라 할 수 있습니다. 용어의 측면에서 머신러닝과 딥러닝의 관계가 현재 인문학과 인공지능의 관계와 비슷해 보이기도 합니다.

 

어쨌든 결론을 내봅시다. 이러면 된 거 아닐까요?

문과 선생님: 인문학에 관심 갖다 보니 인공지능에도 관심이 생겼어요.

이과 선생님: 인공지능에 관심 갖다가 인문학에도 관심이 생겼어요.

댓글