아기 울음소리 딥러닝 분석하는 ‘디플리’
  • 인쇄
  • |
  • 목록
  • |
  • 복사하기
  • 페이스북
  • 트위터
  • 밴드

밤에 아기가 조금만 울어도 부모는 금방 잠에서 깬다. 지쳐 곯아떨어져도 아기 울음소리를 놓치는 법이 거의 없다. 아기 울음소리엔 우리가 모르는 비밀스러운 힘이 있다. 최근 연구결과에 따르면 아기 울음소리는 잘 들릴 수밖에 없는 주파수대역을 갖고 있다고 한다. 2000~4000㎐에 주로 분포하는데 사람의 귀가 가장 민감한 대역대와 일치해 부모에게 효율적으로 전달될 수 있다는 것이다.

이수지 디플리 대표(아래 가운데)가 3월 30일 서울 동작구 사무실 인근에서 직원들과 함께 사진 촬영을 하고 있다. / 이준헌 기자

이수지 디플리 대표(아래 가운데)가 3월 30일 서울 동작구 사무실 인근에서 직원들과 함께 사진 촬영을 하고 있다. / 이준헌 기자

아기 울음소리도 통역이 되나요

아이가 잠을 깼지만 왜 우는지는 알기 어렵다. 배고파서일 수도, 기저귀를 갈아달라는 요구일 수도 있다. 아기 울음을 설명하는 가설로 ‘던스턴 아기 언어’가 있다. 호주의 성악가인 프리실라 던스턴이 창안한 가설인데 아기가 5가지 뜻을 조금씩 다른 방식의 울음으로 표현한다는 것이다. 배고플 때, 졸릴 때, 트림할 때, 똥을 쌀 때, 신체적으로 불편함을 느낄 때이다. 그에 따르면 배고프면 크고 강하게 울고, 기저귀를 갈아줄 필요가 있을 땐 간헐적이고 작게 우는 특징이 있다고 한다.

던스턴 가설과는 별개로 인공지능(AI)을 이용하면 아기 울음소리를 비교적 정확하게 해석할 수 있다. 2017년 7월 창업한 음성 분석 인공지능 전문기업 ‘디플리(DEEPLY)’는 이를 특화기술로 내세운다. 지난 3월 30일 서울 동작구 소재 여성창업공간 ‘스페이스 살림’에서 만난 이수지 대표(32)는 “숙련된 베이비시터라면 울음소리로 아기의 상태를 알 수도 있겠지만 대부분의 초보 부모는 학습시간이 필요하다”면서 “이들이 아기를 안전하고 편안하게 키울 수 있도록 돕고 싶었다”고 말했다.

디플리는 인공지능 학습 방법의 하나인 ‘딥러닝’을 이용해 아기 울음소리를 분석한다. 이를 위해 먼저 학습 데이터를 확보했다. 디플리는 1600여명의 가정을 방문해 5만시간 이상의 데이터를 수집했다. 기저귀를 갈아주거나 젖을 주니 울음을 그쳤다와 같이 ‘울음’과 ‘대처방안’을 알 수 있는 데이터이다.

울음소리 분석이 필요한 경우는 대개 만 한 살 이하의 신생아다. 대부분 집 안에서 시간을 보내기 때문에 일일이 가정과 병원, 산후조리원을 찾아다니면서 울음소리를 녹음했다. 이 대표는 “아기가 어떤 순간에 우는지, 어떻게 대처했더니 울음을 그쳤는지를 연결짓는 과정”이라면서 “나중에는 스스로 아기 울음소리 데이터를 제공하려는 사람들에게서 크라우드 소싱 방법을 사용해 모았다”고 말했다.

디플리의 인공지능은 학습 과정에서 아기 울음소리와 고양이 울음소리를 가장 헷갈려 했다. 높은 톤의 여성의 웃음소리와도 혼동했다. 하지만 데이터 학습량을 늘리면서 정확도가 높아졌다. 지금은 업체 자체 평가로 90% 수준의 정확도를 보인다. 숙련된 전문가의 직관을 인공지능으로 구현한 것이다.

하지만 인공지능을 이용해도 아기 울음이 상황에 따라 어떤 특성을 띠는지는 정확히 알 수 없다. 이 대표는 “원인과 결과는 알 수 있지만, 그 사이에서 굉장히 복합적인 요소가 작용해 결과에 이르는 과정을 파악하기는 어렵다”고 말했다. 인공지능은 블랙박스와 같은 한계가 있다는 것이다.

디플리는 이 인공지능을 이용한 앱 ‘바뱌(BABBA)’와 ‘와(WAAH)’를 서비스하고 있다. 바뱌는 아기 울음소리를 현장에서 분석해주는 것이고, 와는 아기와 떨어져 있는 상황에서 아기 상황을 스마트폰으로 확인할 수 있게 한 서비스다. 주력하는 서비스는 바뱌다. 아기가 울 때 바뱌 앱을 켜고 5초간 울음소리를 녹음하면 아기가 왜 우는지 알려준다. 매일 3번 무료 분석을 해주고, 그 이상은 유료 결제를 하는 방식으로 수익을 얻는다. 이 서비스는 특히 소리를 듣지 못하는 청각장애인 부모에게 도움이 된다. 이 대표는 “여러 소음 속에서 아기 소리를 구분해내는 서비스도 개발하고 있다”면서 “청각장애인 부모가 혼자 집에서 설거지하거나 청소를 하는 중에 아기가 울면 알아차리기 굉장히 어려운데 이들에게 유용할 것이라고 기대한다”고 말했다.

아기 울음소리는 전 세계 공통어라고 할 수 있다. 생후 5개월이 지나 부모의 언어를 학습하고 옹알거리며 따라하기 전까지는 전 세계 아이들이 인종과 국적 구별 없이 똑같이 운다. 디플리의 바뱌가 영어권에서도 서비스할 수 있는 이유다. 이 대표는 “현재의 정확도에 만족하지 않고 계속 데이터를 모아 정확도를 높이는 피드백 과정을 거치고 있다”면서 “미국에서도 서비스하고 있는데 혼자 아이를 키우는 분들이 도움을 많이 받고 있다는 평가를 듣고 있다”고 말했다.

이수지 디플리 대표 / 이준헌 기자

이수지 디플리 대표 / 이준헌 기자

비명소리 등 위험 감지, 감정도 인식

“세상 모든 소리에 의미를 더하다. 세상의 모든 소리를 해석하는 AI.” 디플리가 개발하는 인공지능을 한마디로 설명하는 말이다. 그 뜻대로 디플리는 아기 울음소리 외에도 다양한 소리에 담긴 의미를 인공지능으로 분석한다. 공장의 기계 소리를 분석해 고장 여부를 파악하고, 비명소리를 인식해 위험 상황을 알릴 수도 있다. 지난해 디플리는 여성이 비명을 지르는 소리를 자동으로 잡아내는 알고리즘을 개발했다. 코이카와 협력해 이 알고리즘을 탑재한 위험 감지 시스템을 지난해부터 인도 방갈로르와 뉴델리 지역을 중심으로 보급하고 있다.

최근에는 고려대 의대 병원, 각 지역 지자체와 협업한 환경음 프로젝트도 진행하고 있다. 혼자 사는 노인들의 기침소리나 신음소리를 파악해 위험 상황을 감지하면 의료진이나 담당 공무원에게 알려주는 사업이다. 향후 웨어러블 센서를 결합해 움직임을 감지하는 기능을 더할 수도 있다.

이 대표는 “최근에는 다양한 화자와 사람들의 목소리를 분류하는 일을 많이 하고 있다”면서 “예를 들어 우울증이 있는 사람이나 치매, 뇌졸중이 있는 사람의 경우 말이 어눌해지는 경우가 있는데 그 상태를 분석하면 의료 부분에서 의미 있는 서비스를 만들 수 있다”고 설명했다.

디플리의 음성 인공지능은 화자의 말소리에서 감정을 파악할 수도 있다. LG CNS와 협업해 개발한 기술로 대화에서 부정적인 감정을 5초 이내에 검출할 수 있다. 이 기술을 콜센터에 적용하면 고객이 상담에 만족했는지, 화가 나진 않았는지 알 수 있다. 자연어처리(NLP) 엔진이나 음성인식(STT) 엔진을 사용하고 있다면, 감정 인식 기술과 연동해 정확도를 높일 수 있다. 이 대표는 “사람의 귀는 굉장히 민감해 상대방이 즐거운지 슬픈지를 눈을 감고 소리만 들어도 잘 알 수 있다”면서 “여러 개발자가 인간의 감정을 분류하는 알고리즘을 서로 경쟁적으로 개발하고 공개하고 있지만, 아직 인공지능은 인간 수준에 미치지 못한다”고 말했다.

디플리가 내세우는 또 하나의 핵심 기술은 ‘화자 분리’ 기술이다. 여러명이 대화할 때 특정인의 목소리를 구분해내는 능력이다. 사람들은 각자 목소리의 특색이 있는데 그 사람이 가진 목소리의 특색을 처음 10초 정도 학습시켜주면 그 이후 여러 사람이 섞여 대화해도 누가 말하는지 분리할 수 있다. 여기에 말을 자동으로 글자로 써주는 기술을 더하면 자동으로 회의록을 만들 수도 있다.

새로운 시작에 재미 느낀다면 창업 도전

이수지 대표는 카이스트에서 전기·전자 학사, 서울대에서 뇌파 생체신호 분석으로 석사 학위를 받았다. 그후 3년 동안 우울증 치료 기기로 유명한 ‘와이브레인’에서 일한 경험이 있다. 창업을 결심한 이유를 묻자 “자기가 만든 기술이 직접 현장에서 쓰이는 걸 보고 싶었기 때문”이라고 답했다. 어릴 때부터 만드는 걸 좋아했던 그는 회사를 창업하고 나서도 여러 ‘사이드 프로젝트’를 진행했다. 그중에는 ‘웃음소리 감지기(디텍터)’도 있다. 그는 “사무실에서 얼마나 사람들이 웃으면서 일하는지를 알고 싶어 만들었다. 웃음소리가 얼마나 컸는지, 얼마나 계속 감지가 되는지를 월별로 나타내주는 장치다. 그런데 우리가 우울한 걸 정말 잘 반영했다”며 웃었다. 그렇게 재미로 몇가지 사이드 프로젝트를 진행하면서 정말 사람들에게 필요한 것이 뭘까 고민하던 끝에 나온 것이 아기 울음소리 분석 서비스였다.

그는 스타트업 창업 환경은 좋아지고 있지만 규제 분야의 회색 존을 줄이는 노력을 더하면 좋겠다고 말했다. 가령 아기 우는 소리를 부모의 허가만 있으면 모을 수 있는지도 명확하지 않아 여러 변호사의 자문을 거쳤다. 최근 인공지능을 이용한 서비스의 개인정보 침해 우려가 커지는 것에 대해서는 아기 울음소리만 수집하고 나머진 모두 잘라내 저장하지 않는 방식으로 보안장치를 두고 있다고 설명했다.

음성 분석 인공지능은 이미지 분석 인공지능보다 구현하기가 어렵다. 영상이나 이미지와 달리 소리는 어떤 공간에 있는지, 얼마나 거리를 두고 있는지 등에 따라 달라지기 때문이다. 인공지능만이 아니라 오디오와 관련한 전문 지식도 필요하다. 산 하나를 넘으면 또 다른 산이 보이는 여러 난관이 있지만 그래도 이 일이 너무나 즐겁다고 말했다. 그는 “새로운 것에서 재미를 느끼는 사람이라면 망설이지 말고 창업에 나서면 좋겠다. 당연히 어렵고 너무 힘들지만, 창업하면 내가 왜 이 일을 해야 하는지 더 뚜렷해지는 것 같다”고 말했다.

<주영재 기자 jyj@kyunghyang.com>

우리는 스타트업이다바로가기

이미지