<데이터 라벨링으로 바라본 학생 라벨링>
● 머신러닝의 방법 중, 데이터와 함께 정답을 제공하여 학습시키는 것을 '지도학습''지도 학습'이라고 합니다.
● 이 정답은 라벨, 레이블(Label)이라고 부르기도 합니다. 이렇게 데이터에 바이플라워 1!1!
일일이 정답을 붙이는 과정을 라벨링 혹은 레이블링(Labeling)이라고 부릅니다.
● 데이터에 라벨링을 하는 것은 쉬워 보일 수 있으나, 거대한 데이터 셋 일 경우 인력과 비용이 매우 많이 필요합니다. 우리나라에서는 인공지능이 데이터의 내용을 이해할 수 있도록 주석(메타데이터)을 달아주는 작업인 데이터 어노테이션(Data Annotation)이라는 말보다는 데이터 라벨링이라는 말을 더 많이 쓰고 있긴 합니다.
● 데이터 어노테이션에 관해 간단히 더 살펴보기 원하시면 다음의 링크를 참고하세요.
https://m.blog.naver.com/datahive/222224206050
데이브가 알려주는 '데이터 어노테이션' 기법!
안녕하세요 이브이브 데이브가 돌아왔어요! 데하-! 네이버의 새로운 글꼴이 나왔는데 나긋나긋 단아한 것이...
blog.naver.com
● 데이터를 라벨링(어노테이션) 하는 목적은 간단합니다. 정확도를 높이기 위해서입니다. 아무리 많은 사람들을 동원하여 열심히 잘 라벨링 했다 하더라도 정확도가 나오지 않으면 폐기 수순을 밟고, 다시 작업을 진행합니다.
● 딥러닝에서는 데이터 어노테이션의 비중이 머신러닝에 비해 급감하지만, 일일이 사람이 손질해주기 때문에 정확도가 나오지 않는 이유를 규명해내기에는 딥러닝보다 머신러닝이 더 수월합니다.
● 이렇게 데이터에 라벨링을 한다는 것은 매우 중요합니다. 사람이 컴퓨터에게 제공할 데이터를 규정짓는 것이기 때문에 그렇습니다. 그런데 말입니다?
● 학급의 학생들에게 교사 또한 라벨링을 합니다. 일명 낙인(Labeling)이라고도 부릅니다. 영어 표현이 같죠.
● 사소한 학급 학생의 문제 행동이 교사의 심기를 건드립니다. 그 행동으로 인해 교사는 부정적인 언어 자극을 주고, 학생은 지속적인 대우와 자신에 대한 기대에 영향을 받습나다.. 안 좋은 경우, 자신 스스로를 일탈자라는 자아개념으로 세팅하게 되고, 이에 걸맞은 일탈의 행동을 하게 될 것입니다.
● 일탈을 촉진하는 교사의 특징은 다음과 같습니다.
-특정 학생을 편애
-공부를 못하거나 규율을 지키지 않으면 문제아라는 고정관념의 소유
-문제아를 가르치는 자신이 불쌍하다 느낌
-가르치는 일은 지겨운 일이라는 인식
-학생 개별과의 접촉과 만남을 꺼림
-보수적 '도덕주의'에 집착
● 데이터를 라벨링(어노테이션) 하는 목적은 정확도입니다. 그럼 학생을 라벨링 하는 목적은 무엇일까요? 그것이 학생의 역량과 전인적인 인격의 성장이라고 한다면 데이터의 라벨링보다도 훨씬 중대한 일이 아닐 수 없어 보입니다.
● 데이터 어노테이션은 매우 꼼꼼하게 이루어지며, 정확도가 반영되지 않으면 다시 작업합니다. 아이러니한 것은 저의 경우만 봐도 교사의 학생에 대한 라벨링은 쉽게 조정되거나 바뀌지 않는다는 점입니다. (굳이 학생으로 한정 짓지 않아도 될 듯합니다만..)..)
● 제프리 힌튼은 RBM(제한된 볼츠만 머신)을 통해 지도 학습의 가능성을 제시했습니다. 하지만 지도 학습에 수반되는 데이터 라벨링에는 사람의 실수와 편향이 들어가 있을 수 있습니다. 그래서 그런진 몰라도 머신러닝의 미래는 지도학 습도,, 비지도 학습도, 비지도 학습 기반에 지도 학습을 믹스한 형태인 준지도 학습도 아닌, '강화 학습'이라고강화학습' 전망되고 있습니다.
● 데이터든 학생이든(..) 끊임없이 '관찰'하는 것이 중요해 보입니다.. 그리고 시행착오와 보상이라는 프레임을 사용하되 얻게 된 중요 포인트를 통해 생각을 유연하게 바꾸고 조정할 줄 아는 것이 중요해 보입니다..
● 인문학과 정보과학의 교차점에는 세상을 변혁시킨 사람들이 있습니다. 스피노자, 비트겐슈타인, 블레즈 파스칼, 아리스토텔레스, 피타고라스, 버틀런드 러셀, 플라톤, 스티브 잡스, 아인슈타인 같은 분들 말이죠.
● 사실 뛰어난 사람은 생각의 경계가 없다고 합니다.
● 과연 '문과 인간'과 '이과 인간'은 따로 존재하는 것일까요?
● 인문학의 탐구 주제는 '사람'입니다. 인공지능의 탐구 주제는 '사람의 지능과 행동을 모방하는 것'입니다.' 입니다.
● 인문학은 상상력을 북돋아줍니다. 남들이 당연하게 생각하는 것을 의심하고, 새로운 질문을 던져줍니다 즉, 사유하는 힘을 길러줍니다. 아(..) 인문학도 '사고력' 신장의 프레임이었군요.
● 정보과학의 목표는 사고력과 문제해결력이 핵심입니다. 이 또한 사유하는 힘을 길러주고, 이를 바탕으로 현재의 상황을 개선하고 디자인하는데 목표가 있습니다.
● 하루속히 인문학적 상상력과 정보과학적 창조력이 조화된 세상이 도래해 체크남방, 수학적 기호와 물리 법칙 등이 더 이상 공대생들의 전유물이 되지 않기를 바랍니다.
● 그런데 여기서 하나 더 생각해보고 싶은 게 있습니다. 인문학을 위한 인공지능인가요? 인공지능을 위한 인문학인가요?
● 음(..) 사실 요즘은 인공지능이 잘 팔리다 보니 인공지능을 위해 인문학이 '동원'되는 경우가 많습니다. 그런데 인공지능도 사람의 지능과 행동을 모방하거나 역추적하는 것이라 생각해보면(..) '사람을 탐구하는 공학 분야'라고' 다소 거칠게(..) 정리할 수 있지 않을까요?
● 인공지능도 사람에 관심을 둡니다. 이런 관점에서 본다면 인공지능도 결국 인문학의 공학 버전이라 할 수 있습니다. 용어의 측면에서 머신러닝과 딥러닝의 관계가 현재 인문학과 인공지능의 관계와 비슷해 보이기도 합니다.
● 어쨌든 결론을 내봅시다. 이러면 된 거 아닐까요?
문과 선생님: 인문학에 관심 갖다 보니 인공지능에도 관심이 생겼어요.
이과 선생님: 인공지능에 관심 갖다가 인문학에도 관심이 생겼어요.
'인공지능 (AI)' 카테고리의 다른 글
11번째 이야기 - 언어모델, 트랜스 포머(Transformer), 어텐션 벡터(Attention vector) (0) | 2022.09.25 |
---|---|
10번째 이야기 - 인공지능 스피커(AI Assistant), STT(Speech to text) (0) | 2022.09.25 |
8번째 이야기 - SW, AI 교육 시수, 손실 함수, 옵티마이저 (0) | 2022.08.04 |
7번째 이야기 - 기호주의, 연결주의, 퍼셉트론, 인공신경망, 딥러닝 (0) | 2022.08.04 |
6번째 이야기 - Text to Image, 범용기계(General machine) (0) | 2022.08.04 |
댓글