<제목: 인공지능 스피커는 어떻게 작동하는 건가요?>
● 우리는 인공지능 스피커를 곧 잘 접하며 사용합니다. 인공지능 스피커에 사용되는 기술을 AI Assistant라고 합니다. 예를 들어 애플의 시리, 구글 어시스턴트, 마이크로소프트 코타나, 아마존 알렉사, 삼성의 빅스비 등이 있습니다.
● 그런데 이들에게 사람과 똑같은 수준의 대화를 기대하기는 아직 어렵습니다. 한 번에 말을 알아듣지 못해 2~3번 스피커에게 말을 걸고 무안해했던 경험을 떠올리면 금세 이해가 됩니다.
● 과연 인공지능 스피커는 어떻게 작동하는 것일까요? 그 원리에 대해 알아봅시다.
● 먼저, 사람이 정해진 인사말(예: 헤이 클로바!)을 외칩니다. 음성을 인식하는데, 배경과 말하는 사람의 목소리를 분리하는 작업이 필요합니다. 그리고 사람의 목소리를 글자로 바꾸는 STT(Speech to text) 기술을 활용합니다. 소리에서 글자를 추출하는 것이죠.
● 이후에는 자연어 처리(NLP)를 거칩니다. 이 때에는 주어, 서술어, 목적어 등으로 문장을 분리하고 쪼갭니다. 그런 다음 스피커에게 말을 건 사람의 의도가 무엇인지 '의도 분석'을 합니다. 사실 '의도분석'이 인공지능 스피커의 핵심적인 기술이라 할 수 있을 것입니다. 왜 그런 걸까요??
● 사람에게는 상식, 배경지식 등이 있지만 인공지능은 그렇지 못합니다. 즉, 이 모든 것을 학습시켜야만 합니다. 누군가 "불"이라고 외쳤을 경우에 불이 나서 외치는 것인지, 끄라는 것인지, 방의 형광등을 켜라는 것인지 사람은 상황을 보고, 파악할 수 있으나 인공지능 스피커는 그 의도를 파악하지 못합니다. 상식이 없으므로 그 의도를 제대로 파악하지 못하는 것이죠. 결국 스피커의 한계가 여기서 드러나는 것입니다.
● 의도까지 제대로 이해했다 하면 여기서 끝이 아닙니다. 대화의 앞 뒤 맥락을 이해하는 '맥락 분석'을 실시합니다. 그 사람의 말하는 태도나 분위기, 그 전의 대화 내용 등이 있어야 맥락 분석이 가능하지만 현재의 인공지능 기술은 여기에 취약점이 있습니다.
● 의도 분석과 맥락 분석이 끝나면 답변을 만들게 되는데 인터넷을 검색해 답변을 추출하기도 하고, 협력사와 연결해 피자 주문이나 병원으로 호출 등이 가능하게끔 할 수도 있습니다. 이 답변은 TTS(Text to speech) 기술을 활용하여 음성 화하여 출력됩니다.
● 사실 챗봇과 인공지능 스피커의 원리는 이렇듯 거의 같습니다. STT와 TTS의 과정만 제외하고 말이죠.
● 이렇게 간단히 인공지능 스피커의 작동원리에 대해 살펴보았습니다. 다음에는 인공지능 스피커에 대해 좀 더 살펴보고, 유명한 언어 모델들에 조금 친숙해져 보는 시간을 가져보도록 하죠.
https://labs.openai.com/s/fXovhTpVELFrud4iIz5tGegA
JinKwan × DALL·E | Little Prince Looking at Large Maple Leaves Shining Red in the Autumn Sky, oil painting
Created with DALL·E, an AI system by OpenAI
labs.openai.com
● 사람이 인공지능 스피커와 대화하는 이유는 다음과 같습니다. 첫번째첫 번째, '불 켜줘'와 같이 어떤 특정한 목적을 위해 대화합니다. 두 번째, 특정 사실을 묻는 질의응답을 위해 대화합니다. 세 번째, 공감을 위한 일상적인 대화를 위해서입니다.
● 사람은 이 세 가지 목적의 대화를 마구 섞어 가며 대화를 시도합니다. 사람도 때론 말하는 사람의 의도를 명확히 이해하지 못해 오해하는 일이 비일비재합니다. 사람도 어려울진대, 인공지능 스피커 입장에서도 화자의 의도를 분석하고 맥락을 이해하는 것이 참 어려울 것 같긴 합니다.
● 결정적으로 기계와 인간의 사이에는 '모라벡의 역설'이 존재합니다. 즉, 사람에게 어려운 것이 컴퓨터에게 쉽고, 사람에게 쉬운 것이 컴퓨터에게 어렵다는 이 명제가 인공지능 스피커에게도 고스란히 적용됩니다. 또 장기기억의 부재는 실질적인 사람의 문제를 해결해주는 것이나 진정한 의미에서의 공감 및 상담을 어렵게 하는 요소로 꼽히고 있습니다.
● 한글은 자연어 처리를 하기에 더욱 까다로운 언어로 꼽힙니다. 단순히 어순뿐 아니라 조사, 접미사 등 형태소가 문법적으로 중요하기 때문에 이들을 분석하는 작업이 추가되어야 합니다. 결국, 우리나라 대기업들도 GPT-3와 같은 초대형 한글 언어 모델을 개발 중에 있습니다. 아마존의 한글 알렉사와 곧 경쟁을 하기 위해서는 피할 수 없는 선택이라 보입니다.
● 챗봇과 인공지능 스피커의 성능을 결정하는 것은 결국 그 안에 내장된 인공지능 언어 모델의 성능입니다. 최근 언어 모델은 컴퓨터 비전 정도는 아니지만 급속하게 발전하고 있습니다.
● 언어 모델은 단어나 문장을 말하면 그럴듯한 답변을 골라내어 출력하는 기능을 합니다. 그럴듯한 답변을 내기 위해서는 사람의 의도와 맥락을 분석하여 알아챌 수 있어야 함을 지난 글에서 말씀드렸습니다.
● 언어 모델의 정교함이 스무스한 사람과의 의사소통을 가능하게 합니다. 그렇다면 최근 급속도로 발전하고 있는 언어 모델이 정교해지는 데 있어 결정적인 계기는 언제, 무엇이었을까요?
● 그것은 2017년 구글에서 발표한 트랜스포머(Transformer) 모델의 발표일 겁니다.. 언어 모델은 트랜스포머의 전과 후로 나뉜다 해도 과언이 아닙니다. 왜 그럴까요?
'인공지능 (AI)' 카테고리의 다른 글
12번째 이야기 - 파이프라인, 정규화 데이터, 표준화 데이터 (0) | 2022.09.25 |
---|---|
11번째 이야기 - 언어모델, 트랜스 포머(Transformer), 어텐션 벡터(Attention vector) (0) | 2022.09.25 |
9번째 이야기 - 데이터 라벨링(labeling), 데이터 어노테이션(annotation) (1) | 2022.09.25 |
8번째 이야기 - SW, AI 교육 시수, 손실 함수, 옵티마이저 (0) | 2022.08.04 |
7번째 이야기 - 기호주의, 연결주의, 퍼셉트론, 인공신경망, 딥러닝 (0) | 2022.08.04 |
댓글