● 하지만 연결주의의 아이디어는 너무나 멋지고 매력적입니다. 뭔가 언더독을 응원하는 심정과 비슷하다고나 할까요?
● 여러 개의 퍼셉트론을 갖춘 신경망을 만들 수만 있다면(..) 그렇습니다.
● 이것만 가능하다면 연결주의는 죽지 않고 살아날 거라는 확신을 가진 사람들이 있었습니다.
● 그중에서도 대표되는 사람이 데이비드 럼멜 하트입니다..
● 럼멜하트는 1986년 본인의 저서에서 진정한 인간의 뇌를 닮은 기계가 되기 위해서는 병렬, 분산된 처리를 해야 함을 말했습니다. 즉, 지금으로치자면 인공신경망(딥러닝) 방식인 것이죠.
● 여러 개의 퍼셉트론을 여러 층으로 이은 형태인 다층 퍼셉트론은 병렬, 분산된 처리를 하면서 여러 개의 퍼셉트론을 갖춘 구조물이었습니다. 다층 퍼셉트론에는 입력층과 출력층 사이의 은닉층이 추가되었습니다.
● 퍼셉트론이 하나의 뉴런을 갖는다 하였을 때, 다층 퍼셉트론은 퍼셉트론의 개수만큼 직선을 가질 수 있습니다. 음(..) 직선 2개만 그으면 해결할 수 있는 XOR 문제는 다층 퍼셉트론에서는 너무나 쉽게 풀릴 수 있는 문제였던 것입니다.
● 그러나 여기까지 오는데 17년이라는 시간이 걸렸습니다.
● 은닉층은 특징이 실제로 학습되는 곳입니다.
● 은닉층이 2개 이상인 신경망은 심층 신경망(DNN)이라고 부릅니다.
● 어찌됐든 XOR 문제도 해결되었으니, 이제 다 끝났다... 고... 생각했지만 미끄러져 내립니다.
● 바로 '학습'이 문제였습니다.
● 다층 퍼셉트론에서 손실 함수를 통해 발생한 오차를 줄이기 위해 가중치를 어떻게 줄일지에 대한 아이디어가 없었습니다.
● '학습'이 안되면 말짱 꽝인데 말이죠(..)
● 그러나 문제는 극복하라고 있는 겁니다.
● 다음 글에서는 이 문제의 극복이 어떻게 이루어졌는지 살펴보도록 하죠.
● 다층퍼셉트론에서의 학습은 어떻게 가능해졌을까요?
● 수학적으로 말씀드리기 어렵지만 대략 개념적으로 설명드리자면
● 럼멜하트와 제프리 힌튼은 체인 룰과 편미분으로 백 프로퍼게이션(오차( 역전파) 알고리즘을 완성하고, 다층 퍼셉트론의 학습이 가능하게끔 합니다.
● 백 프로퍼게이션 아이디어는 럼멜 하트의 것이고, 힌튼은 뛰어난 수학 실력으로 이 아이디어를 수식으로 구현해낸 것입니다.
● 퍼셉트론이 엄청나게 많아지면서 뉴런의 수도 증가합니다.
● 은닉층에 엄청나게 많은 뉴런들이 자리하게 되면서 심층 신경망을 구성하였을 경우, 층이 깊어지니까 학습이 또 잘 안되는 현상이 벌어지게 됩니다.
● 이 문제를 '기울기 소실' 문제라고 부릅니다.
● 하지만, 이 또한 활성화 함수를 시그모이드 함수에서 ReLU 함수로 바꾸니 해결할 수 있게 되었습니다.
● 렐루함수는 왜 통했던 것일까요??
● 기존에 주로 쓰이던 s자곡선, 즉 시그모이드 함수는 선형 함수와 지수함수의 중간 형태로 현실세계를 곧잘 표현한다는 평가를 받아왔습니다.
● 아르키메데스가 유레카를 외치던 순간, 제국의 흥망성쇠, 운동실력의 증가와 정체 등 역사와 인생의 순간마다 시그모이드함수는 현실세계를 잘 대변하는 마법의 곡선이었던 것이죠.
● 그런데 이곡선이 문제였던 것입니다. x값이 음과 양으로 커질수록 y값은 0과 1로 직선에 가깝게 수렴합니다.
● 즉 선형함수가 되어버리는 사태가 벌어집니다.
● 그중에서도 기울기가 0으로 수렴해버리죠. 그래서 기울기소실이라 불렀던 것입니다..
● 렐루함수는 x값이 0보다 작으면 y값은 0으로 발화하지 않습니다. 즉, 별로 중요하지 않은 신호에 대해서는 신경을 꺼버리는 효과를 지닙니다.
● 그러나 x값이 0보다 커지면 y값은 y=x 즉, x값과 같은 항등 함수 형태의 선형 함수가 됩니다.
● 기울기는 1을 유지한 채로 기울기 소실이 될 염려가 없습니다. 의미있는 x값의 신호를 기울기의 소실 없이 충실하게 반영하므로 학습이 잘되게 하는 효과를 가져오는 것입니다..
● 무시할 신호는 철저히 무시, 신경 써야 하는 신호는 철저히 집중하는 인사이트가 렐루 함수에 있었던 겁니다.
● 바로 ReLU함수를 도입해서 이미지 인식 대회에서 압도적인 무공을 선보인 팀이 위의 그림에서 보시는 토론토 대학의 슈퍼비전 팀이었습니다. 그중에서도 가운데에 있는 엔지니어였던 알렉스 크리체프스키의 공이 가장 컸다고 전해집니다.
● 이제 퍼셉트론으로 시작한 인공신경망은 딥러닝이라는 용어로 새롭게 불려지게 되고, 2012년을 기점으로 컴퓨터 비전 쪽에서 인간을 뛰어넘는 성능을 보이면서 월드 클래스로 변모하게 됩니다.
'인공지능 (AI)' 카테고리의 다른 글
29번째 이야기 - 머신러닝, 기계학습, 준지도학습, 자기주도학습 (0) | 2022.11.21 |
---|---|
28번째 이야기 - 비선형 데이터, 신경망의 구조, 마스터 알고리즘, (0) | 2022.11.04 |
26번째 이야기 - 순방향 계산, 손실함수, 오차에 대한 가중치, 기호주의 (0) | 2022.11.04 |
25번째 이야기 - 퍼셉트론, 가중치, 가중합, 바이어스, 활성화 함수 (0) | 2022.11.04 |
24번째 이야기 - 수학적 모델링, 맥컬록-피츠 네트워크, 촘스키 (0) | 2022.11.04 |
댓글