<언어 모델은의 출현 이후, 급속히 발전하고 있습니다.>
● 최근 급속도로 발전하고 있는 언어 모델이 정교해지는 데 있어 결정적인 계기는 2017년 구글에서 발표한 트랜스포머(Transformer) 모델의 발표였습니다.
● 언어 모델은 트랜스포머의 전과 후로 나뉜다해도 과언이 아니니까요. 그렇다면 왜 그럴까요?
● 기존의 언어모델은 영어 문장을 순서대로 한 단어씩 읽고 학습합니다. 그러다보니 속도가 매우 느립니다. 또 아까 읽은 단어와 현재 읽고 있는 단어 간의 관계를 기억하는데 약점이 있습니다. 그러다보니 긴 문장이 들어오면 성능이 급속히 저하됩니다. 우리가 챗봇이나 인공지능 스피커와 대화하다 보면 길게 말하지 않게 되는 이유입니다.
● 이를 해결하기 위해 트랜스포머가 등장합니다. 트랜스포머의 특징은 단어마다 번호를 매겨서 순서를 기억합니다. 그래서 한번에 많은 단어를 읽어도 순서가 엇갈리지 않습니다. 또한 병렬로 처리가 가능해지기 때문에 학습 속도도 발전하게 됩니다. 이전과 비교했을 때, 어마어마한 발전인 것이죠.
● 여기서 가장 핵심 이슈를 짚고 넘어가겠습니다. 단어에 번호를 매겨 순서를 기억하게 한다.. 좋은 아이디어입니다. 그런데 문제가 있습니다. 바로 단어들 사이 사이의 의미를 어떻게 기억하게 하느냐 하는 것입니다.
● 결국 언어 모델도 컴퓨터 프로그램입니다. 숫자로 표시해야 컴퓨터가 처리 가능하죠. 결국 단어 사이사이의 의미도 숫자로 표시합니다.
● 예를 들어 40개의 단어로 이루어진 문장이 있다고 합시다. 그렇다면 각 단어마다 숫자를 부여해 번호를 매깁니다. 여기서 그치지 않고, 단어 사이의 의미를 갖게 하는 숫자도 40개를 부여해줍니다. 이렇게 되면 40개 * 40개 = 1,600개의 숫자가 존재하게 되겠죠. 이 1,600개의 숫자는 하나의 세트로 묶는데, 이 세트의 이름을 '어텐션 벡터(Attention vector)'라고 합니다.
● 이 어텐션 벡터를 이용해 단어 사이사이의 의미를 그대로 보존하고 기억하게 된 것입니다. 여기에 속도의 문제까지 개선했으니 트랜스포머는 가히 언어 모델 계의 혁명이자 센세이션이었습니다.
● 언어모델의 성능을 겨루는 테스트인 BLUE에서 트랜스포머는 다른 언어 모델의 성능을 압도적으로 뛰어넘습니다. 인공지능 테스트에서 1등을 의미하는 쏘타(SOTA: State of the art)를 찍은 것은 자연스러운 수순이었죠.
● 그럼 트랜스포머에 힘입어 추후 등장한 언어 모델은 어떻게 발전해갔을까요? 다음 시간에는 그걸 파헤쳐보도록 하겠습니다.
<트랜스포머 이후는요?>
● 트랜스포머 이후는요? 네, 트랜스포머 이후 언어모델은 급속하게 발전합니다.
● 2018년 구글의 BERT, 오픈 AI의 GPT가 출시됩니다.
● BERT 모델은 구글의 애자일 스타일과 맞물려서 그런지 몰라도 점차적으로 개선된 버전이 꾸준히 출시됩니다. ALBERT는 BERT 경량화 버전, RoBERTa는 페이스북이 만든 업그레이드 버전, 영어 뿐 아니라 각 나라 말로 번역할 수 있는 Multilingual BERT가 그 예입니다.
● 우리나라에도 SKT가 만든 코버트(KoBERT)와 ERTI가 개발한 KorBERT(한국어 버트)가 있습니다. BERT만 해도 상당히 다양하군요(..)
● 그런데 말입니다(?) 트랜스포머의 등장과 맞먹는 센세이셔널한 일이 또 벌어집니다.
● 그것은 바로 2020년 오픈 AI의 GPT-3의 출시였죠.
● 대체 GPT-3의 어떠한 점 때문에 이런 일이 가능했던 것일까요?
● GPT-3는 기존 모델의 100배 이상 크기이며, 학습 문서의 수도 100배가 넘었습니다. 결과는 굉장히 놀라웠습니다.
● 대화 내용이 궁금하시거나 직접 GPT-3 모델의 답변을 보고 싶으신 분은 다음의 링크를 참고해보세요.
철학하는 인공지능(AI), GPT-3와 대화해보았습니다.
AI 커뮤니티를 둘러보던 중, 요즘 핫한 자연어 처리 모델 GPT-3로 구현된 철학자 AI가 있기에 간단히 몇 가지 문답을 나눠보았습니다. 철학에 관련된 질문이나 단어를 던지면, GPT-3가 거기에 맞게
skyil.tistory.com
● 사실 알파고는 인공지능 쇼크를 세상에 선사했습니다. 알파고 급으로 사람들을 놀라게 한 모델이 GPT-3이며 현존하는 최고의 AI로 평가되고 있습니다.
● GPT-3 이후로 다음과 같은 변화들이 감지, 관찰되고 있습니다.
● 첫째, 초거대형 모델을 만들기 위해 세계 굴지의 대기업들의 경쟁이 가속화되었습니다. 파라미터(가중치, 편향 등의 매개변수)의 개수만 2조개에 육박하는 모델들이 속속들이 등장하게 될 것입니다.
● 둘째, 인공지능이 스스로 코드를 작성하는 도구가 개발됩니다. 오픈 AI의 코덱스(Codex), 마이크로소프트 깃허브의 코 파일럿(Copilot)(Copilot) 같은 것들이 예입니다.
● 세번째로, 컴퓨터 비전 분야에서 혁신이 가능해지게 되었습니다. DALL-E는 말할 것도 없도, 구글의 비전 트랜스포머는 기존 CNN 기반의 컴퓨터 비전 모델을 훨씬 상회하는 성능을 보입니다.
● 마지막으로 챗봇의 성능이 향상되었다는 점이죠. 구글의 미나는 사람에 근접한 자연스러운 대화 성능을 보입니다.
● 하지만 언어 모델이 넘어야 할 산은 성능뿐이 아닙니다. 바로 윤리의 문제를 해결해낼 수 있어야 합니다. 편견없는 데이터 얘기를 많이 하지만, 데이터에 편견이 없을 수 있을까요? 편견 없는 인공지능이 과연 가능한가?를 묻지 않을 수 없습니다. 게다가 그것이 가능하다 해도,, 편견 없는 데이터 확보의 실행은 어마어마한 인력과 비용을 필요로 합니다. 이 말은 곧, 시간이 필요하다는 이야기입니다.
● 결론을 내려봅니다. 언어 모델은 발전하고 있지만, 아직 한계는 분명합니다. 그럼에도 불구하고, 챗봇과 인공지능 스피커 기술은 계속해서 향상될 겁니다. 이 글에서 살펴본 인공지능 언어 모델의 발전과 함께요.
'인공지능 (AI)' 카테고리의 다른 글
13번째 이야기 - 딥러닝, 머신러닝, 이미지 데이터 전처리 기법 (1) | 2022.09.25 |
---|---|
12번째 이야기 - 파이프라인, 정규화 데이터, 표준화 데이터 (0) | 2022.09.25 |
10번째 이야기 - 인공지능 스피커(AI Assistant), STT(Speech to text) (0) | 2022.09.25 |
9번째 이야기 - 데이터 라벨링(labeling), 데이터 어노테이션(annotation) (1) | 2022.09.25 |
8번째 이야기 - SW, AI 교육 시수, 손실 함수, 옵티마이저 (0) | 2022.08.04 |
댓글