본문 바로가기
인공지능 (AI)

10번째 이야기 - 인공지능 스피커(AI Assistant), STT(Speech to text)

by Ψβ⅓ 2022. 9. 25.

<제목: 인공지능 스피커는 어떻게 작동하는 건가요?>

우리는 인공지능 스피커를 곧 잘 접하며 사용합니다. 인공지능 스피커에 사용되는 기술을 AI Assistant라고 합니다. 예를 들어 애플의 시리, 구글 어시스턴트, 마이크로소프트 코타나, 아마존 알렉사, 삼성의 빅스비 등이 있습니다.

그런데 이들에게 사람과 똑같은 수준의 대화를 기대하기는 아직 어렵습니다. 한 번에 말을 알아듣지 못해 2~3번 스피커에게 말을 걸고 무안해했던 경험을 떠올리면 금세 이해가 됩니다.

 

과연 인공지능 스피커는 어떻게 작동하는 것일까요? 그 원리에 대해 알아봅시다.

먼저, 사람이 정해진 인사말(: 헤이 클로바!)을 외칩니다. 음성을 인식하는데, 배경과 말하는 사람의 목소리를 분리하는 작업이 필요합니다. 그리고 사람의 목소리를 글자로 바꾸는 STT(Speech to text) 기술을 활용합니다. 소리에서 글자를 추출하는 것이죠.

이후에는 자연어 처리(NLP)를 거칩니다. 이 때에는 주어, 서술어, 목적어 등으로 문장을 분리하고 쪼갭니다. 그런 다음 스피커에게 말을 건 사람의 의도가 무엇인지 '의도 분석'을 합니다. 사실 '의도분석'이 인공지능 스피커의 핵심적인 기술이라 할 수 있을 것입니다. 왜 그런 걸까요??

 

사람에게는 상식, 배경지식 등이 있지만 인공지능은 그렇지 못합니다. , 이 모든 것을 학습시켜야만 합니다. 누군가 ""이라고 외쳤을 경우에 불이 나서 외치는 것인지, 끄라는 것인지, 방의 형광등을 켜라는 것인지 사람은 상황을 보고, 파악할 수 있으나 인공지능 스피커는 그 의도를 파악하지 못합니다. 상식이 없으므로 그 의도를 제대로 파악하지 못하는 것이죠. 결국 스피커의 한계가 여기서 드러나는 것입니다.

의도까지 제대로 이해했다 하면 여기서 끝이 아닙니다. 대화의 앞 뒤 맥락을 이해하는 '맥락 분석'을 실시합니다. 그 사람의 말하는 태도나 분위기, 그 전의 대화 내용 등이 있어야 맥락 분석이 가능하지만 현재의 인공지능 기술은 여기에 취약점이 있습니다.

의도 분석과 맥락 분석이 끝나면 답변을 만들게 되는데 인터넷을 검색해 답변을 추출하기도 하고, 협력사와 연결해 피자 주문이나 병원으로 호출 등이 가능하게끔 할 수도 있습니다. 이 답변은 TTS(Text to speech) 기술을 활용하여 음성 화하여 출력됩니다.

 

 

STT

사실 챗봇과 인공지능 스피커의 원리는 이렇듯 거의 같습니다. STTTTS의 과정만 제외하고 말이죠.

이렇게 간단히 인공지능 스피커의 작동원리에 대해 살펴보았습니다. 다음에는 인공지능 스피커에 대해 좀 더 살펴보고, 유명한 언어 모델들에 조금 친숙해져 보는 시간을 가져보도록 하죠.

https://labs.openai.com/s/fXovhTpVELFrud4iIz5tGegA

 

JinKwan × DALL·E | Little Prince Looking at Large Maple Leaves Shining Red in the Autumn Sky, oil painting

Created with DALL·E, an AI system by OpenAI

labs.openai.com

 

 

사람이 인공지능 스피커와 대화하는 이유는 다음과 같습니다. 첫번째첫 번째, '불 켜줘'와 같이 어떤 특정한 목적을 위해 대화합니다. 두 번째, 특정 사실을 묻는 질의응답을 위해 대화합니다. 세 번째, 공감을 위한 일상적인 대화를 위해서입니다.

사람은 이 세 가지 목적의 대화를 마구 섞어 가며 대화를 시도합니다. 사람도 때론 말하는 사람의 의도를 명확히 이해하지 못해 오해하는 일이 비일비재합니다. 사람도 어려울진대, 인공지능 스피커 입장에서도 화자의 의도를 분석하고 맥락을 이해하는 것이 참 어려울 것 같긴 합니다.

결정적으로 기계와 인간의 사이에는 '모라벡의 역설'이 존재합니다. , 사람에게 어려운 것이 컴퓨터에게 쉽고, 사람에게 쉬운 것이 컴퓨터에게 어렵다는 이 명제가 인공지능 스피커에게도 고스란히 적용됩니다. 또 장기기억의 부재는 실질적인 사람의 문제를 해결해주는 것이나 진정한 의미에서의 공감 및 상담을 어렵게 하는 요소로 꼽히고 있습니다.

모라벨의 역설

한글은 자연어 처리를 하기에 더욱 까다로운 언어로 꼽힙니다. 단순히 어순뿐 아니라 조사, 접미사 등 형태소가 문법적으로 중요하기 때문에 이들을 분석하는 작업이 추가되어야 합니다. 결국, 우리나라 대기업들도 GPT-3와 같은 초대형 한글 언어 모델을 개발 중에 있습니다. 아마존의 한글 알렉사와 곧 경쟁을 하기 위해서는 피할 수 없는 선택이라 보입니다.

챗봇과 인공지능 스피커의 성능을 결정하는 것은 결국 그 안에 내장된 인공지능 언어 모델의 성능입니다. 최근 언어 모델은 컴퓨터 비전 정도는 아니지만 급속하게 발전하고 있습니다.

언어 모델은 단어나 문장을 말하면 그럴듯한 답변을 골라내어 출력하는 기능을 합니다. 그럴듯한 답변을 내기 위해서는 사람의 의도와 맥락을 분석하여 알아챌 수 있어야 함을 지난 글에서 말씀드렸습니다.

언어 모델의 정교함이 스무스한 사람과의 의사소통을 가능하게 합니다. 그렇다면 최근 급속도로 발전하고 있는 언어 모델이 정교해지는 데 있어 결정적인 계기는 언제, 무엇이었을까요?

그것은 2017년 구글에서 발표한 트랜스포머(Transformer) 모델의 발표일 겁니다.. 언어 모델은 트랜스포머의 전과 후로 나뉜다 해도 과언이 아닙니다. 왜 그럴까요?

 

댓글