● 인공지능, 머신러닝, 딥러닝의 차이는 뭘까요?
● 인공지능은 컴퓨터에 지능이라 불릴만한 것을 사람이 인위적으로 만든 것을 뜻합니다.
● 머신러닝은 인공지능을 만들기 위한 방법으로 지도학습(정답+데이터제공), 비지도학습(데이터만제공), 강화학습(보상으로 특정행동 강화)등이 있습니다.
● 딥러닝은 머신러닝 방법중 신경망을 깊게 쌓은 심층신경망을 뜻하며, 지도학습, 비지도학습, 강화학습에 모두 쓰일수 있습니다.
● 머신러닝은 컴퓨터를 학습시킬때 이런 특징들을 더 유의해서 학습시켜야 해와 같은 특징량을 제공합니다. 사람의 사전 손질을 매우 중요하게 여기죠.
● 그러나 딥러닝은 특징량없이 모델만 구성해주면 스스로 데이터의 특징을 잡아 학습합니다.
● 이럼에도 딥러닝의 성능이 머신러닝보다 높아 당시 충격이 대단했습니다.
● 딥러닝이 머신러닝보다 상위의 레벨인것 처럼 보일수있지만, 사실 머신러닝이 딥러닝보다 손이 많이 가고, 난이도도 어렵습니다.
● 딥러닝의 층이 깊어질수록 왜 이렇게 학습했고 이런 결과를 내었는지 이유를 알기 어렵습니다. 블랙박스인 셈이죠.
● 인공지능의 신뢰성을 담보하기 위해 XAI라고 하는 설명가능한 인공지능을 개발하기 위한 시도가 17년 미 국방성 산하 Darpa를 시작으로 꾸준히 진행중입니다.
● 데이터가 많다고 다 좋은건 아니라면서요?
● 실세계에 존재하는 데이터들은 머신러닝에 쓰기 좋은 형태로 되어있지 않을 확률이 99% 입니다.
● 머신러닝은 정형데이터, 즉 예쁘게 표의 형태로 정리된 데이터를 선호합니다.
● R을 만드신 데이터 시각화의 장인 해들리 위컴은 이런 데이터를 tidy data라고 표현하기도 했습니다.
● 물론 딥러닝은 비정형데이터, 즉 음성, 이미지 등도 곧잘 소화시키긴 합니다.
● 데이터는 손질과 가공이 필수입니다. 필요에 따라 표를 합치기도하고 따로 떼어내기도 해야하죠.
● 눈에 띄는 이상한 값인 이상치와 빠져있는 데이터인 결측치에 대한 처리도 해줘야 합니다.
● 여러모로 데이터 손질에 신경쓸게 많군요.
● 이러한 과정을 통틀어 데이터 전처리라고 하며, 업계용어로 NGD 즉, 노가다라고 부릅니다(..)
● 전처리는 전처리스럽습니다.
● 모델 중심의 AI VS 데이터 중심의 AI
● 인공지능 성능이 안좋아 개선하려합니다.
● 정확하고 일관성있게 라벨링 하는 것과 500개의 새로운 데이터를 찾는 것. 이 2가지 방법 중 어느 것이 더 효율적일까요?
● 데이터 중심 관점에서는 새로운 질 좋은 데이터를 500개 찾는 것보다 문제가 있는 60개의 데이터를 개선하는 것이 훨씬 효율적이고 쉽습니다.
● 한때 알고리즘과 모델 개선에 많은 관심과 신경을 쓰고, 데이터의 질 향상에는 크게 관심을 두지 않았습니다.
● 코세라 강의로 인공지능 대중화에 기여한 앤드류 응 교수는 제조업 스타트업을 시작한후, 모델중심의 AI에서 데이터 중심의 AI로 선회했습니다.
● 현실이라는 똥밭에서 구르고 데어본 깨달음일 것 같습니다.
● 알고리즘이 아무리 좋지 않아도 방향만 맞다면 시간이 지나면 어느정도의 성능을 냅니다.
● 그러나 데이터가 일관되지 않고 질이 떨어진다면 한계에 부딪혀 성능향상을 기대하기 어렵습니다.
● 빅데이터의 허상을 깨고, 스몰데이터의 질을 향상하려는 노력이 현실적으로 중요합니다.
'인공지능 (AI)' 카테고리의 다른 글
7번째 이야기 - 기호주의, 연결주의, 퍼셉트론, 인공신경망, 딥러닝 (0) | 2022.08.04 |
---|---|
6번째 이야기 - Text to Image, 범용기계(General machine) (0) | 2022.08.04 |
4번째 이야기 - Learning about AI와 Learning with AI (0) | 2022.08.04 |
3번째 이야기 - 마인드 핑퐁, 원숭이, 퀴즈 마스터 인공지능, AI, 테슬라 (0) | 2022.08.04 |
2번째 이야기 - 빅데이터, 창의 융합형 인재 (0) | 2022.08.04 |
댓글