커리어리포터 Kukers
[대학원 졸업생 만남] 정석영 (삼성전자 스피치 AI 파트장)
2024.11.08 Views 276
“내가 이 것을 정말 좋아하는가에 대한 물음에‘확고한 대답’을 가져야 해요.”

정석영 (삼성전자 MX 사업부 랭귀지 AI 개발그룹 스피치 AI 파트장)
정석영 파트장(일반대학원 영상정보처리협동과정 박사 · 01학번)을 만난 곳은 경기도 수원시 광교에 위치한 작은 스튜디오다. 조붓한 공간에 마주한 그가 하는 일은 삼성전자의 AI 기술 가운데 ‘언어와 음성에 관한 핵심(Core) 기술’을 연구하고 개발하는 일이다. 음성 비서(빅스비)에서 통역 대화-듣기(16개 언어) 등 우리가 접하는 삼성 휴대폰의 음성 인식 기술들이 그의 파트를 거친다. 그는 엔지니어다. 다만, 공학자의 명민함에 더해 소년처럼 맑은 미소와 선한 눈매는 대화내내 더 세심하게 귀를 기울이게 만들었다.
컴퓨터가 내 말을 알아 들었으면, 10년의 꿈 …‘텀 프로젝트’도전
- ‘영상정보처리협동과정’ 박사 전공에, ‘지능신호처리연구실’에서 ‘음성인식’을 세부 전공 했다. 01학번이면 당시로는 ‘선견적인 분야’ 같은데 선택에 어떤 계기가 있었나.
“어렸을 때부터 뭐 공상과학 영화나 만화 같은 것을 좋아했다. 학부 때 소프트웨어 엔지니어링이라는 과목의 ‘텀 프로젝트’에서 원하는 소프트웨어 설계를 할 수 있었다. 그 때 ‘막연하게 컴퓨터가 사람의 말을 알아 들을 수 있으면 너무 좋을 것 같다.’ 라는 생각에 프로젝트의 기획에서 어떻게 제품으로 되어가는지를 ‘나름 완결된 형태’로 진행해 본 경험이 생겼다. 막상 해 보니 관심이 커졌고, 그 때부터 유관된 문헌과 세미나, 연구실을 기회가 있을 때마다 찾아다니며 관심을 표했다.”
- 지도교수와는. 처음부터 취업을 염두했나.
“랩에서는 이미 음성인식과 관련해 학문적으로도 좋은 선배들과 논문들이 많이 나오고 있었고, 특별히 지도교수로 계셨던 고한석 교수께서 전문 경영인과 당시 벤처를 준비하고 있었다. 이 과정에서 음성인식이 제품화되는 내용들을 지켜보며 연구를 상품으로 구현하는 취업 쪽에 관심이 생겼다. 음성 인식이란 것을 늦게 알게 되다보니 이 기술이 공부해야 할 것도 많고, 학부만 마친 후 취업을 하게 됐을 때엔 경쟁력이 클 것 같지 않았다. 그래서 고민없이 박사 공부를 이어가기로 선택했다.”

정석영 (삼성전자 MX 사업부 랭귀지 AI 개발그룹 스피치 AI 파트장)
컴퓨터가 내 말을 알아 들었으면, 10년의 꿈 …‘텀 프로젝트’도전
- ‘영상정보처리협동과정’ 박사 전공에, ‘지능신호처리연구실’에서 ‘음성인식’을 세부 전공 했다. 01학번이면 당시로는 ‘선견적인 분야’ 같은데 선택에 어떤 계기가 있었나.
“어렸을 때부터 뭐 공상과학 영화나 만화 같은 것을 좋아했다. 학부 때 소프트웨어 엔지니어링이라는 과목의 ‘텀 프로젝트’에서 원하는 소프트웨어 설계를 할 수 있었다. 그 때 ‘막연하게 컴퓨터가 사람의 말을 알아 들을 수 있으면 너무 좋을 것 같다.’ 라는 생각에 프로젝트의 기획에서 어떻게 제품으로 되어가는지를 ‘나름 완결된 형태’로 진행해 본 경험이 생겼다. 막상 해 보니 관심이 커졌고, 그 때부터 유관된 문헌과 세미나, 연구실을 기회가 있을 때마다 찾아다니며 관심을 표했다.”
- 지도교수와는. 처음부터 취업을 염두했나.
“랩에서는 이미 음성인식과 관련해 학문적으로도 좋은 선배들과 논문들이 많이 나오고 있었고, 특별히 지도교수로 계셨던 고한석 교수께서 전문 경영인과 당시 벤처를 준비하고 있었다. 이 과정에서 음성인식이 제품화되는 내용들을 지켜보며 연구를 상품으로 구현하는 취업 쪽에 관심이 생겼다. 음성 인식이란 것을 늦게 알게 되다보니 이 기술이 공부해야 할 것도 많고, 학부만 마친 후 취업을 하게 됐을 때엔 경쟁력이 클 것 같지 않았다. 그래서 고민없이 박사 공부를 이어가기로 선택했다.”
- 대학원에서 랩(특히 공대 쪽은 더더욱)은 중요한 선택 중 하나로 보인다. 진학을 생각하는 학부생들에게는 무엇에 '방점'을 두라고 권하겠는가.
“지나고 보니 랩은 교수-선배 그리고 랩만의 문화 등 미세한 차이는 있지만 비슷한 것 같다. 결국 ‘내가 얼마나 좋아하는 관심 분야인가’가 핵심이다. 방학 중에 오픈 랩도 많이 열린다. 추천하기로, 랩은 우수한 후배 모집을 위해 ‘학부생 대상 세미나’에 공을 아주 많이 들인다. 최대한 좋은 정보와 정수를 전달하려 하기 때문에 이런 자리에는 꼭 참석을 권한다.”
“지능신호처리연구실은 실생활에 존재하는 수많은 신호 중 ‘디지털화 된 음성과 영상 신호의 처리’를 전담한다. ‘음성신호’는 마이크를 통해 ‘집음’ 되고 디지털화 과정을 통해 0과1의 신호로 바뀐 데이터들을 인식하고 진폭-세기 등을 분석해 ‘어떤 텍스트가 어떻게 음성으로 바뀌었는지’를 조사한다. 나는 음성 신호가 들어올 때 ‘어디서부터 말이고 어디서부터 잡음인지’를 분별해 내며, 잡음을 제거하거나, 음성의 구간을 검출하거나, 여러 형태의 마이크를 설치해 특정 사람의 음성 만을 잘 집음하고 주변 배경 소리는 제거해 내는 다양한 음성신호처리를 연구하는 업무를 했다.
또한, ‘영상신호’ 의 처리는 카메라로 들어오는 디지털화 된 비전 신호를 예컨대 자동차라면, 이 물체가 어떤 것이고, 번호판이 어떤 것인지 등 다양한 영상 신호를 갖고 응용 분야를 넓혀가는 연구를 한다. 자율주행 영역이 이 범주에 포함된다.”
정 파트장은 인상적인 프로젝트로 현대자동차의 전장(차 앞에 들어간 전자기기)을 전담하는 ‘현대오토넷(후 현대모비스 합병)’과의 ‘실전(연구-개발-납품)’ 을 꼽았다.
“지금도 그렇지만 당시 음성 인식이라는 게 굉장히 많은 연산에 대한 리소스가 필요해 서버 밖에선 운영이 안됐다. 헌데 의뢰사는 음성인식기술을 차량의 전장 시스템에 적용토록 하는 과제를 던졌다. 이 프로젝트는 처음 과제를 셋업부터 납품까지 거치면서 수많은 테스트와 회사가 요구하는 기술을 상용화하는 과정에 이론적 알고리즘 기술을 어떻게 제품화하고 ‘그 작은 기계(차량용 전장시스템)’에 최적화 시킬 수 있는지, 실제 사람들이 쓸 수 있을 만큼 실시간으로 빠르고 정확하게 음성 인식이 되는지, 또한 소음을 어떻게 추적-통제하는 지를 알게된 것 같다. 이런 경험들은 실제 회사에 와서도 굉장히 많은 도움이 된 것 같다.”
“학부 때 소프트웨어를 전공했다. 프로그래밍에 관심이 많았었는데 전공을 바꿔 대학원에 오니 굉장히 많은 수학적 백그라운드가 필요했다. 신호처리로 가면서 수학을 굉장히 잘해야 하고, 단순히 문제 푸는 게 아닌 문제가 나왔을 때 어떻게 도출하는지 수식으로 모두 설명하고, 그 수식이 어떤 의미를 가지고 있고, 또 새로운 수식을 붙여야 하는 ‘일련의 과정’이 무척 어려웠다. 성적도 별로 좋지 않았고 고생도 많이 했었던 거 같다. 다만 당시 선후배의 도움을 많이 받았다. 연구실의 장점 중 하나는 세미나가 많다. 신입생들이 오면 중요한 세미나를 ‘굉장히 반복해서 많이 시키는데’ 나 역시 처음 들었을 때는 무슨 말이지 싶었던 것도 그 다음 학기에 또 듣고 또 듣고 하다 보면 몰랐던 부분도 알게 되고, 후배들을 대상으로 세미나를 시키면서 ‘이런 것도 몰라’ 라며 핀잔도 주면서도 그 순간 나도 다시 깨달으며 ‘아 이게 이런 내용이었구나’ 하는 과정을 거치면서 선배 노릇반에 질의 반을 섞어 반복해가며 어려움을 버텨낸 기억이 있다.”
“처음의 동기 그대로 였다. (PC가 사람 말을 알아들으면 좋겠다던) 음성 인식이 그냥 좋아 보였다. 사실 그 하단에 얼마나 난제들이 있는지 몰랐지만 그냥 다가갔다. 영상이나 텍스트에 비해 음성은 말을 해서 이 것을 인식할 때 조건에 따라서 인식률이 수없이 바뀐다. 입력되는 신호가 정해지지 않은, 시간에 따라 변할 수 있는 신호이다보니 지금 생각해도 쉽지 않은 분야를 선택한 듯 하다.”
‘업(業)의 본질’… 삼성이 꿈꾸는 AI 제품화의 미래
“AI의 챌린지는 여러 사이클을 겪어 왔지만, 지금은 좀 흔한 말로 ‘찐’인 것 같다. ChatGPT가 나온 후 이 것이 정말 많은 가능성이 열려 있는 기술이구나 하는 생각이 든다. 회사 내부에서는 일반 전화기가 스마트폰으로 대체됐을 때 나타난 혁신적인 기술 발전과 업계의 시장 양상을 바꾸었던 경험에 비추어, AI가 산업 판도를 바꾸는 기점이 되지 않을까 조망하고 있다. 회사 내부에서도 긴장을 하고 있다. 우리 개발그룹과 파트는 AI 기술 중 언어와 음성에 관련된 핵심 기술들은 모두 관장하고 있다. 파트의 특성상 누구보다도 먼저 AI의 가능성과 기술을 제품에 접목시키는 것에 ‘가속’이 붙고 있는 것 같다.”
- ‘실시간 번역 시스템’이 큰 화제를 모았다. 해당 기술에서 가장 주안점을 둔 부분은.
“첫 번째는 어떻게 하면 자연스러운 발성에 대해 음성 인식을 잘 하도록 만드느냐가 관건이었다. 예컨대, ‘빅스비’ 같은 음성 비서를 사용할 때 이용자는 ‘누구에게 전화해줘, 일정을 등록해 줘’처럼 굉장히 또박또박 명료하게 잘 얘기를 한다. 반면에 어려운 것은 사람과 사람 사이에 대화할 때는 말이 굉장히 자연스러워 진다. 내 말을 대충 얘기해도 저 사람이 이해할 것 같다는 믿음이 있기 때문에 기계에다 하는 것보다는 더 자연스럽게 얘기를 하게 된다. 문제는 그 것을 어떻게 잘 인식시킬 수 있느냐가 현업자로서는 가장 큰 문제였다. 두 번째는 ‘갤럭시 AI’ 제품을 출시할 때 가급적이면 많은 지역의 나라 사람들이 썼으면 좋겠다고 하여 단기간내에 많은 언어를 개발해야 되는 과업이 상당히 어려운 부분이었다,”
“맞다. 문제는 ‘자연성’을 얼마나 잘 인식하게 하는가이다. 영화 ‘허(Her)’를 보면 항상상의 주머니에 ‘단말기’를 넣고 다니잖는가. 또한 사용자는 평소에 사람에게 하듯 자연스럽게 AI에게 대화를 한다. 아울러 AI는 이 사람이 무슨 얘기를 하고 있는지, 지금 어디를 바라보고 있는지 등 다양한 정보의 ‘맥락’을 통해 상황을 파악한다, 삼성의 서비스에서도 가장 중요한 것이 이처럼 ‘맥락을 이해한 후, 자연성에 근간해 반응하는 AI’다. 지금 현재로서는 우리에게도 큰 도전이고 제일 집중하고 있는 분야이기도 하다.”
‘투박해도’… 스스로 연구 문제의 실질적인 고민과 직면해야
헌데 정작, 그 실험을 왜 했고, 그 실험을 통해 얻는 게 뭐고, 그 실험을 할 때 주안점이 뭔지를 치열하게 자문한 과정이 보이지 않으면 아쉽다. 어떤 학생들을 보면 ‘굉장히 기계적으로 잘은 했는데’ 맥락도 없고 중심도 빠져있는 느낌이 드는 반면, 다른 이는 ‘좀 투박하더라도’ 혼자 애를 쓴 흔적들이 보이는, 그래서 ‘아! 이 친구는 이런 도움과 인사이트를 받았겠구나’ 라는 것이 느껴지는 인재를 보면, 입사 후 ‘도움이 될 것’이란 생각을 갖는다.
또 하나는 현업에 오겠다면 오픈된 AI 기술의 풀(pool)과 툴(tool) 그리고 다양한 데이터베이스를 활용해 실험을 많이 돌려보고 그 과정에서 도출된 문제들에 대한 ‘나름의 해법들’을 쌓으면 좋다. 삼성전자에 오는 ‘소위 좋은 학력적 배경을 가진 이들’ 중에도 모델링을 해보지 않아 AI 이론만 들고 현장에서 너무 많은 시간을 소비할 때가 있다.
나는 이런 ‘시행착오’를 공부할 때 더 많이 겪어보라고 권한다. 그래서 ‘어떤 툴이 내겐 더 맞고, 어떤 데이터베이스는 뭐가-어디에 있고, 내가 실험 환경을 꾸밀 때 이런 식으로 하면 더 효율적이더라’라는 경험치들이 많다면 삼성전자는, 파트장은 이런 이들이 오길 희망하고 있다. 그들은 현업에서 바로 일할 수 있는 사람들이다.”
- 박사급 연구자이자 팀을 이끄는 파트장이란 리더로서, MZ 세대들에게 큰 조직에서 ‘연구원’으로 적응하는데 필요한 덕목을 제안한다면.
“아 쉽지 않다. 세대로 특징을 구분을 짓기는 어렵지만 ‘트랜드’는 있는 것 같다.
신입자들과 일을 하다 보면 실력도 좋고 경험도 있는데 협업 특히 ‘팀워크’에 대해 강조하고 싶을 때가 있다. 특히 본인의 생각에 ‘이게 맞는 것 같다’라고 ‘결정’을 한 후 독자적으로 진도를 뺐는데 결과적으론 조직이 원치 않은 방향으로 가버린 때가 있다.
그럴 때면 ‘누구에게 좀 물어보지 그랬어요.’라고 답하기도 한다. 회사이고, 혼자 일하는 곳이 아니며, 일을 나누어 시켰을 땐 다 그만한 생각도, 선행된 시행착오까지 고려해 요청한 것이기에 그대로만 했으면 참 좋았을 텐데라는 생각이 들기도 한다. 아무래도 조직 내에서는 팀워크가 제일 중요하기 때문에 뭘 하더라도 같이 얘기하고 같이 묻고 누가 뭘 했고 내가 모르는 건 뭐고 그럼 뭘 물어봐야 하고 이런 것들에 대해서 좀 ‘열려 있는 마음’을 갖고 함께 일을 했으면 하는 게 좀 바람이다. 아울러, 서로 경쟁자가 아니라 같이 협력해서 도움을 줄 수 있는 사람인데 너무 좀 ‘날이 서 있는’ 느낌을 가질 때가 있다. 안다. 지금 얼마나 많은 경쟁과 그 힘든 과정을 겪고 여기까지 왔는지 충분히 이해하는데 세상이 그렇게 삭막하지는 않다. 다 같이 사람들이 일하는 거고 그렇기 때문에 같이 협력할 수 있는 팀워크에 대해서 생각을 많이 하면 좋을 거 같다.”
“일단 확신할 수 있는 말은 고려대학교의 교수와 대학원 선후배들은 너무도 훌륭한 이들이다. 나름 정말 오랜 시간 한국 내 주요 기술의 중요한 변곡점들을 경험한 이들이자 기술의 발전에도 기여한 자들이기에 ‘고려대에 대한 고민’은 없었으면 한다. 다만, 가장 먼저는 ‘나에 대한 성찰’, 다시 말해 ‘내가 이걸 정말 좋아하는가’에 대한 물음에 확고한 대답을 갖는 것이 필요하다. 사실 조급해질 때가 있다. ‘내가 이걸 이렇게 했는데, 왜 사람들이 못 알아주지, 왜 성과가 잘 안 나지. 내 길이 아닌가’ 라며 ‘너무 빠른 판정’을 하는 이들도 있는 것 같다. 무슨 일이건 처음에는 빛이 나오지 않고 한동안 몸에 익숙해지기 전까지 시간이 필요하다. 내가 지금 늦은 나이에 수영을 배우고 있는데 이게 동영상 보는 것처럼 빨리 늘지 않더라. 여러 번 연습을 하고 몸에 익고 물 먹어가면서 뭐가 문제인지를 계속 깨달으면서 한동안 해보니 ‘아 이제 좀 물에 뜨네. 이제 좀 앞으로 나가네’ 의 단계를 경험케 된다.
대학원의 연구도 분명히 ‘그 절대적인 시간’이 필요한 것 같다. 나도 너무 힘든 시기가 있었고 음성 인식이라는 분야가 이렇게 어려운 줄 미리 알았으면 어쩌면 선택하지 않았을 수도 있다. 하지만 연구와 현업을 하면서 어려운 데로 묵묵히 견뎌낸 것 같다. 또 하다 보니까 내가 했던 게 의외로 좋은 경험이 되어 나를 더 돋보일 수 있게 만드는 기회도 생기니까 힘을 내시라. 지금의 노력은 절대 여러분을 실망시키지 않을 것이다.”
인터뷰를 끝내기 전 그에게 이런 말을 건넸다. ‘와인과 장은 좋은 오크통과 장독에서 ‘숙성’의 과정을 거칠수록 그 향도 맛도 익어 가는 것 같다. ㅡ 배움, 그것도 ‘긴 여정의 공부(대학원)’ 또한 ‘그런 시간’이 필요한 것 같다.’고. 막히는 경부고속도로 상행선에서 플레이리스트를 켰다. 아이유의 노랠 뉴진스가 부른다. 곡명 “셀러브리티(Celebrity)”.
/문범식 (미디어학 석사과정)·홍세인 (미디어학 박사과정)
* 인터뷰영상 바로가기: https://youtu.be/FfKgqoUiEMY?feature=shared
- '지능신호처리연구실’은 어떤 랩이고 어떤 연구를 했나. 특별히 현업에 오기까지 ‘양약’이 되었던 프로젝트가 있나.
“지능신호처리연구실은 실생활에 존재하는 수많은 신호 중 ‘디지털화 된 음성과 영상 신호의 처리’를 전담한다. ‘음성신호’는 마이크를 통해 ‘집음’ 되고 디지털화 과정을 통해 0과1의 신호로 바뀐 데이터들을 인식하고 진폭-세기 등을 분석해 ‘어떤 텍스트가 어떻게 음성으로 바뀌었는지’를 조사한다. 나는 음성 신호가 들어올 때 ‘어디서부터 말이고 어디서부터 잡음인지’를 분별해 내며, 잡음을 제거하거나, 음성의 구간을 검출하거나, 여러 형태의 마이크를 설치해 특정 사람의 음성 만을 잘 집음하고 주변 배경 소리는 제거해 내는 다양한 음성신호처리를 연구하는 업무를 했다.
또한, ‘영상신호’ 의 처리는 카메라로 들어오는 디지털화 된 비전 신호를 예컨대 자동차라면, 이 물체가 어떤 것이고, 번호판이 어떤 것인지 등 다양한 영상 신호를 갖고 응용 분야를 넓혀가는 연구를 한다. 자율주행 영역이 이 범주에 포함된다.”
정 파트장은 인상적인 프로젝트로 현대자동차의 전장(차 앞에 들어간 전자기기)을 전담하는 ‘현대오토넷(후 현대모비스 합병)’과의 ‘실전(연구-개발-납품)’ 을 꼽았다.
“지금도 그렇지만 당시 음성 인식이라는 게 굉장히 많은 연산에 대한 리소스가 필요해 서버 밖에선 운영이 안됐다. 헌데 의뢰사는 음성인식기술을 차량의 전장 시스템에 적용토록 하는 과제를 던졌다. 이 프로젝트는 처음 과제를 셋업부터 납품까지 거치면서 수많은 테스트와 회사가 요구하는 기술을 상용화하는 과정에 이론적 알고리즘 기술을 어떻게 제품화하고 ‘그 작은 기계(차량용 전장시스템)’에 최적화 시킬 수 있는지, 실제 사람들이 쓸 수 있을 만큼 실시간으로 빠르고 정확하게 음성 인식이 되는지, 또한 소음을 어떻게 추적-통제하는 지를 알게된 것 같다. 이런 경험들은 실제 회사에 와서도 굉장히 많은 도움이 된 것 같다.”
- 학교 때 좀 힘들었던 시기는. ‘전공-랩-현업까지의 여정’은 순탄했나.
- 데이터 태깅의 어려움을 순서로 보면 텍스트-음성-영상 순이라고 한다. 당시 ‘음성 부문’을 ‘고도화’ 시켜보겠다고 결심한 계기가 있나.
“처음의 동기 그대로 였다. (PC가 사람 말을 알아들으면 좋겠다던) 음성 인식이 그냥 좋아 보였다. 사실 그 하단에 얼마나 난제들이 있는지 몰랐지만 그냥 다가갔다. 영상이나 텍스트에 비해 음성은 말을 해서 이 것을 인식할 때 조건에 따라서 인식률이 수없이 바뀐다. 입력되는 신호가 정해지지 않은, 시간에 따라 변할 수 있는 신호이다보니 지금 생각해도 쉽지 않은 분야를 선택한 듯 하다.”
‘업(業)의 본질’… 삼성이 꿈꾸는 AI 제품화의 미래
- 올해 노벨물리학과 화학상 분야에서 이례적으로 AI의 개발, 응용 분야에 ‘구루’라는 이들이 대거 포함됐다. 산업 전반이 AI로 수렴되는 듯한 기세인데. 삼성전자의 '스피치 AI' 분야는 어디까지 확장될 것 같은가.
“AI의 챌린지는 여러 사이클을 겪어 왔지만, 지금은 좀 흔한 말로 ‘찐’인 것 같다. ChatGPT가 나온 후 이 것이 정말 많은 가능성이 열려 있는 기술이구나 하는 생각이 든다. 회사 내부에서는 일반 전화기가 스마트폰으로 대체됐을 때 나타난 혁신적인 기술 발전과 업계의 시장 양상을 바꾸었던 경험에 비추어, AI가 산업 판도를 바꾸는 기점이 되지 않을까 조망하고 있다. 회사 내부에서도 긴장을 하고 있다. 우리 개발그룹과 파트는 AI 기술 중 언어와 음성에 관련된 핵심 기술들은 모두 관장하고 있다. 파트의 특성상 누구보다도 먼저 AI의 가능성과 기술을 제품에 접목시키는 것에 ‘가속’이 붙고 있는 것 같다.”
- AI는 통신사나 플랫폼 회사 등의 데이터 기반 수익 모델에도 많이 사용된다. 삼성전자 자체로도 집약적인 형태의 기술을 갖고 있겠지만 본질은 '디바이스'를 만드는 회사다. 삼성전자는 왜 제품 속에 AI를 접목시키려 애를 쓰는가.
“내부적으로도 아주 많이 하는 고민 같다. 결국 삼성전자의 ‘업의 본질’은 제조업이다. 좋은 제품을 만들어 소비자에게 전달하는 게 목표인데. ‘좋은 제품’이 가지고 있는 여러 요소 중엔 ‘세상에 나오는 좋은 기술’ 이 있다. 이 것을 제품에 담아내지 못하면 소비자는 관심이 사라진다. 네이버나 카카오, 구글, 메타 등은 기술의 코어로 많은 데이터 기반의 서비스를 하는데 그 서비스의 위치는 사실상 서버다. 서버라는 것은 한 곳에 집중되어 있고 사용자들이 이용을 위해서는 본인의 데이터가 서버로 올라가야 된다는 제약사항이 있다. 삼성은 개인의 정보가 원치않게 갔을 때에 소비자가 받을 수 있는 불이익, 서버의 불안정성, 네트워크 장애로 인한 딜레이 등 여러 형태의 레이턴시(대기 시간·Latency)나 안정성 문제에 주목했다. 따라서 우리는 제품이 충분히 좋아지면 굳이 서버로 가지 않고도 이 제품안에서 AI 기능들을 다 표현할 수 있지 않을까 하는 생각을 했다. 우리가 집중하는 것은 모든 기기에 AI를 접목시키자, 제품마다 수준의 차이는 있겠지만 어느정도 최적화가 될 수 있다면 어떻게 해서든 기기 안에 AI 기술들을 접목을 시켜보겠다고 한 것이다. 구체적으론 ‘갤럭시 S24’ 출시 시점에 ‘갤럭시 AI’라는 브랜드가 나오긴 했지만 많은 부분들이 오랫동안 연구해 온 분야였다. 서버에 있는 굉장히 커다란 모델을 어떻게 이 작은 단말기에 담아 최적화 시킬 수 있느냐가 회사의 가장 큰 고민 사항이자 지향점이었던 것 같다. 다만, 삼성전자의 강점은 이런 기술을 잘 알고 있으면서 제품에 최적화 할 수 있는 이들이 많다는 것에 있는 듯 하다.”- ‘실시간 번역 시스템’이 큰 화제를 모았다. 해당 기술에서 가장 주안점을 둔 부분은.
“첫 번째는 어떻게 하면 자연스러운 발성에 대해 음성 인식을 잘 하도록 만드느냐가 관건이었다. 예컨대, ‘빅스비’ 같은 음성 비서를 사용할 때 이용자는 ‘누구에게 전화해줘, 일정을 등록해 줘’처럼 굉장히 또박또박 명료하게 잘 얘기를 한다. 반면에 어려운 것은 사람과 사람 사이에 대화할 때는 말이 굉장히 자연스러워 진다. 내 말을 대충 얘기해도 저 사람이 이해할 것 같다는 믿음이 있기 때문에 기계에다 하는 것보다는 더 자연스럽게 얘기를 하게 된다. 문제는 그 것을 어떻게 잘 인식시킬 수 있느냐가 현업자로서는 가장 큰 문제였다. 두 번째는 ‘갤럭시 AI’ 제품을 출시할 때 가급적이면 많은 지역의 나라 사람들이 썼으면 좋겠다고 하여 단기간내에 많은 언어를 개발해야 되는 과업이 상당히 어려운 부분이었다,”
- 스피치 AI의 정점은 어디쯤일까. 영화 ‘허(Her)’의 연인 사만다나 ‘아이언맨’의 비서 자비스 같은 것까지 상상할 수 있을까. 혹자는 '멀티 모달 생성형 AI(Multimodal Generative AI)' 기술까지 갈 것이란 전망을 하던데.
“맞다. 문제는 ‘자연성’을 얼마나 잘 인식하게 하는가이다. 영화 ‘허(Her)’를 보면 항상상의 주머니에 ‘단말기’를 넣고 다니잖는가. 또한 사용자는 평소에 사람에게 하듯 자연스럽게 AI에게 대화를 한다. 아울러 AI는 이 사람이 무슨 얘기를 하고 있는지, 지금 어디를 바라보고 있는지 등 다양한 정보의 ‘맥락’을 통해 상황을 파악한다, 삼성의 서비스에서도 가장 중요한 것이 이처럼 ‘맥락을 이해한 후, 자연성에 근간해 반응하는 AI’다. 지금 현재로서는 우리에게도 큰 도전이고 제일 집중하고 있는 분야이기도 하다.”
‘투박해도’… 스스로 연구 문제의 실질적인 고민과 직면해야

- AI 기술의 발전 속도가 학계에서 업계를 따라잡기 벅찰 만큼 보폭의 차이를 보이기도 한다. 현업에서 필요로 하는 '잘 준비된 인재의 모델상'이 있다면.
“해당 분야에 오래 있다 보니 다양한 학생-학교에서 온 이들을 면접케 된다. 현업 파트장으로서 나는 ‘이들이 얼마나 많은 실질적인 고민을 했는지’가 궁금하다. 아울러 중요하다. 대부분 대학원에 올라가면 그냥 교수나 선배들이 지도해 주는 대로 커리큘럼 따라가고, 과제하고, 논문 작성하고, 실험하고, 결과 내고, 졸업하는 수순을 밟곤 한다.헌데 정작, 그 실험을 왜 했고, 그 실험을 통해 얻는 게 뭐고, 그 실험을 할 때 주안점이 뭔지를 치열하게 자문한 과정이 보이지 않으면 아쉽다. 어떤 학생들을 보면 ‘굉장히 기계적으로 잘은 했는데’ 맥락도 없고 중심도 빠져있는 느낌이 드는 반면, 다른 이는 ‘좀 투박하더라도’ 혼자 애를 쓴 흔적들이 보이는, 그래서 ‘아! 이 친구는 이런 도움과 인사이트를 받았겠구나’ 라는 것이 느껴지는 인재를 보면, 입사 후 ‘도움이 될 것’이란 생각을 갖는다.
또 하나는 현업에 오겠다면 오픈된 AI 기술의 풀(pool)과 툴(tool) 그리고 다양한 데이터베이스를 활용해 실험을 많이 돌려보고 그 과정에서 도출된 문제들에 대한 ‘나름의 해법들’을 쌓으면 좋다. 삼성전자에 오는 ‘소위 좋은 학력적 배경을 가진 이들’ 중에도 모델링을 해보지 않아 AI 이론만 들고 현장에서 너무 많은 시간을 소비할 때가 있다.
나는 이런 ‘시행착오’를 공부할 때 더 많이 겪어보라고 권한다. 그래서 ‘어떤 툴이 내겐 더 맞고, 어떤 데이터베이스는 뭐가-어디에 있고, 내가 실험 환경을 꾸밀 때 이런 식으로 하면 더 효율적이더라’라는 경험치들이 많다면 삼성전자는, 파트장은 이런 이들이 오길 희망하고 있다. 그들은 현업에서 바로 일할 수 있는 사람들이다.”
- 박사급 연구자이자 팀을 이끄는 파트장이란 리더로서, MZ 세대들에게 큰 조직에서 ‘연구원’으로 적응하는데 필요한 덕목을 제안한다면.
“아 쉽지 않다. 세대로 특징을 구분을 짓기는 어렵지만 ‘트랜드’는 있는 것 같다.
신입자들과 일을 하다 보면 실력도 좋고 경험도 있는데 협업 특히 ‘팀워크’에 대해 강조하고 싶을 때가 있다. 특히 본인의 생각에 ‘이게 맞는 것 같다’라고 ‘결정’을 한 후 독자적으로 진도를 뺐는데 결과적으론 조직이 원치 않은 방향으로 가버린 때가 있다.
그럴 때면 ‘누구에게 좀 물어보지 그랬어요.’라고 답하기도 한다. 회사이고, 혼자 일하는 곳이 아니며, 일을 나누어 시켰을 땐 다 그만한 생각도, 선행된 시행착오까지 고려해 요청한 것이기에 그대로만 했으면 참 좋았을 텐데라는 생각이 들기도 한다. 아무래도 조직 내에서는 팀워크가 제일 중요하기 때문에 뭘 하더라도 같이 얘기하고 같이 묻고 누가 뭘 했고 내가 모르는 건 뭐고 그럼 뭘 물어봐야 하고 이런 것들에 대해서 좀 ‘열려 있는 마음’을 갖고 함께 일을 했으면 하는 게 좀 바람이다. 아울러, 서로 경쟁자가 아니라 같이 협력해서 도움을 줄 수 있는 사람인데 너무 좀 ‘날이 서 있는’ 느낌을 가질 때가 있다. 안다. 지금 얼마나 많은 경쟁과 그 힘든 과정을 겪고 여기까지 왔는지 충분히 이해하는데 세상이 그렇게 삭막하지는 않다. 다 같이 사람들이 일하는 거고 그렇기 때문에 같이 협력할 수 있는 팀워크에 대해서 생각을 많이 하면 좋을 거 같다.”
- 대학원에 오는 학생의 상당 부분은 생계는 물론이지만, 바라기는 본인의 연구와 랩에서 투자한 프로젝트 등이 업계에서도 '소용이 닿는 일'로 이어지길 희원한다. 먼저 이 길을 간 선배로서 오늘도 날밤을 지새우는 랩의 후배, 혹은 고려대를 희망하는 예비 대학원생들에게 어떤 조언을 주고 싶은가.
“일단 확신할 수 있는 말은 고려대학교의 교수와 대학원 선후배들은 너무도 훌륭한 이들이다. 나름 정말 오랜 시간 한국 내 주요 기술의 중요한 변곡점들을 경험한 이들이자 기술의 발전에도 기여한 자들이기에 ‘고려대에 대한 고민’은 없었으면 한다. 다만, 가장 먼저는 ‘나에 대한 성찰’, 다시 말해 ‘내가 이걸 정말 좋아하는가’에 대한 물음에 확고한 대답을 갖는 것이 필요하다. 사실 조급해질 때가 있다. ‘내가 이걸 이렇게 했는데, 왜 사람들이 못 알아주지, 왜 성과가 잘 안 나지. 내 길이 아닌가’ 라며 ‘너무 빠른 판정’을 하는 이들도 있는 것 같다. 무슨 일이건 처음에는 빛이 나오지 않고 한동안 몸에 익숙해지기 전까지 시간이 필요하다. 내가 지금 늦은 나이에 수영을 배우고 있는데 이게 동영상 보는 것처럼 빨리 늘지 않더라. 여러 번 연습을 하고 몸에 익고 물 먹어가면서 뭐가 문제인지를 계속 깨달으면서 한동안 해보니 ‘아 이제 좀 물에 뜨네. 이제 좀 앞으로 나가네’ 의 단계를 경험케 된다.
대학원의 연구도 분명히 ‘그 절대적인 시간’이 필요한 것 같다. 나도 너무 힘든 시기가 있었고 음성 인식이라는 분야가 이렇게 어려운 줄 미리 알았으면 어쩌면 선택하지 않았을 수도 있다. 하지만 연구와 현업을 하면서 어려운 데로 묵묵히 견뎌낸 것 같다. 또 하다 보니까 내가 했던 게 의외로 좋은 경험이 되어 나를 더 돋보일 수 있게 만드는 기회도 생기니까 힘을 내시라. 지금의 노력은 절대 여러분을 실망시키지 않을 것이다.”
인터뷰를 끝내기 전 그에게 이런 말을 건넸다. ‘와인과 장은 좋은 오크통과 장독에서 ‘숙성’의 과정을 거칠수록 그 향도 맛도 익어 가는 것 같다. ㅡ 배움, 그것도 ‘긴 여정의 공부(대학원)’ 또한 ‘그런 시간’이 필요한 것 같다.’고. 막히는 경부고속도로 상행선에서 플레이리스트를 켰다. 아이유의 노랠 뉴진스가 부른다. 곡명 “셀러브리티(Celebrity)”.
/문범식 (미디어학 석사과정)·홍세인 (미디어학 박사과정)
* 인터뷰영상 바로가기: https://youtu.be/FfKgqoUiEMY?feature=shared
file