본문 바로가기
인공지능 (AI)

5번째 이야기 - 인공지능, 머신러닝, 딥러닝 , Darpa

by Ψβ⅓ 2022. 8. 4.

인공지능, 머신러닝, 딥러닝의 차이는 뭘까요?

인공지능은 컴퓨터에 지능이라 불릴만한 것을 사람이 인위적으로 만든 것을 뜻합니다.

머신러닝은 인공지능을 만들기 위한 방법으로 지도학습(정답+데이터제공), 비지도학습(데이터만제공), 강화학습(보상으로 특정행동 강화)등이 있습니다.

딥러닝은 머신러닝 방법중 신경망을 깊게 쌓은 심층신경망을 뜻하며, 지도학습, 비지도학습, 강화학습에 모두 쓰일수 있습니다.

머신러닝은 컴퓨터를 학습시킬때 이런 특징들을 더 유의해서 학습시켜야 해와 같은 특징량을 제공합니다. 사람의 사전 손질을 매우 중요하게 여기죠.

그러나 딥러닝은 특징량없이 모델만 구성해주면 스스로 데이터의 특징을 잡아 학습합니다.

이럼에도 딥러닝의 성능이 머신러닝보다 높아 당시 충격이 대단했습니다.

딥러닝이 머신러닝보다 상위의 레벨인것 처럼 보일수있지만, 사실 머신러닝이 딥러닝보다 손이 많이 가고, 난이도도 어렵습니다.

딥러닝의 층이 깊어질수록 왜 이렇게 학습했고 이런 결과를 내었는지 이유를 알기 어렵습니다. 블랙박스인 셈이죠.

인공지능의 신뢰성을 담보하기 위해 XAI라고 하는 설명가능한 인공지능을 개발하기 위한 시도가 17년 미 국방성 산하 Darpa를 시작으로 꾸준히 진행중입니다.

 

 

데이터가 많다고 다 좋은건 아니라면서요?

실세계에 존재하는 데이터들은 머신러닝에 쓰기 좋은 형태로 되어있지 않을 확률이 99% 입니다.

머신러닝은 정형데이터, 즉 예쁘게 표의 형태로 정리된 데이터를 선호합니다.

R을 만드신 데이터 시각화의 장인 해들리 위컴은 이런 데이터를 tidy data라고 표현하기도 했습니다.

물론 딥러닝은 비정형데이터, 즉 음성, 이미지 등도 곧잘 소화시키긴 합니다.

데이터는 손질과 가공이 필수입니다. 필요에 따라 표를 합치기도하고 따로 떼어내기도 해야하죠.

눈에 띄는 이상한 값인 이상치와 빠져있는 데이터인 결측치에 대한 처리도 해줘야 합니다.

여러모로 데이터 손질에 신경쓸게 많군요.

이러한 과정을 통틀어 데이터 전처리라고 하며, 업계용어로 NGD , 노가다라고 부릅니다(..)

전처리는 전처리스럽습니다.

 

모델 중심의 AI VS 데이터 중심의 AI

인공지능 성능이 안좋아 개선하려합니다.

정확하고 일관성있게 라벨링 하는 것과 500개의 새로운 데이터를 찾는 것. 2가지 방법 중 어느 것이 더 효율적일까요?

데이터 중심 관점에서는 새로운 질 좋은 데이터를 500개 찾는 것보다 문제가 있는 60개의 데이터를 개선하는 것이 훨씬 효율적이고 쉽습니다.

한때 알고리즘과 모델 개선에 많은 관심과 신경을 쓰고, 데이터의 질 향상에는 크게 관심을 두지 않았습니다.

코세라 강의로 인공지능 대중화에 기여한 앤드류 응 교수는 제조업 스타트업을 시작한후, 모델중심의 AI에서 데이터 중심의 AI로 선회했습니다.

현실이라는 똥밭에서 구르고 데어본 깨달음일 것 같습니다.

알고리즘이 아무리 좋지 않아도 방향만 맞다면 시간이 지나면 어느정도의 성능을 냅니다.

그러나 데이터가 일관되지 않고 질이 떨어진다면 한계에 부딪혀 성능향상을 기대하기 어렵습니다.

빅데이터의 허상을 깨고, 스몰데이터의 질을 향상하려는 노력이 현실적으로 중요합니다.

 

머신러닝 4대 천왕

 

댓글