시리에 대하여

시리(SIRI)에 대하여

국내 판매를 개시한 아이폰4S가 사용자들의 손에 들어가기 시작하자, 이 기종을 가장 unique하게 만든 SIRI가 관심의 초점을 모으고 있다.

시리를 처음 만든 건 애플이 아니다. 시리는 Siri Inc.에서 처음 만들어졌고, 이 회사는 2010년 4월 28일 애플에 합병되었을 뿐이다.

즉, 시리는 SRI International venture group이 투자한 Siri Inc.에서 만들어진 프로그램인데, 여기서 SRI는 Stanford Research Institute를 의미한다. 또한 시리가 만들어지기까지는 미국방연구소가 큰 역할을 했다.

미(美)국방연구소는 CALO (Cognitive Assistant that Learns and Organizes)라는 인공지능개발 프로젝트를 지난 40여 년간 지속적으로 추진해왔고, SRI는 이 프로젝트를 리드해왔다. 시리는 CALO프로젝트의 일환으로 지난 2003년부터 약 8년간 300여명의 연구자와 수백만 달러의 투자로 만들어진 것이다.

즉, 시리는 어느 날 갑자기 하늘에서 떨어진 것이 아니며, 미국 정부가 개입한 대대적인 투자와 오랜 시간에 걸쳐 만들어진 산물인 것이다.

시리는 아이폰4S가 발표되기 전에 이미 앱 형태로 사용되어왔는데, 애플에 합병되면서 이 앱은 앱 스토어에서 사라졌다.

시리를 처음 사용해 본 이들의 반응은, 단지 '흥미롭다'가 아니라, '두렵다'였는데, 그 두려움 즉 공포는 19세기 사람이 현대로 날아와 full HD TV를 처음 보는 것과 같은 일종의 ‘문화적 충격’이며, 시리를 경험하고 본능적으로 알아차리게 되는 ‘미지(未知)의 미래에 대한 불확실성’에 기인한다고 할 수 있다.

사실 스티븐 잡스를 잡스답게 하는 특별한 장점은 새로운 기술을 개발하거나 새로운 물건을 발명해 내는 것에 있지 않다. 그의 탁월한 천재성은 이미 개발 중이거나 개발되어 알려지기 시작한 제품이나 기술에 대해 전혀 새로운 가능성을 읽어 내는 혜안(慧眼)에 있는 것이다.

이를테면, 초창기 형태의 8비트 애플 컴퓨터는 이미 그 당시 괴짜들을 위한 마이크로프로세서와 RAM을 조립할 수 있는 키트를 응용하여, 이를 잡스만의 철학으로 전혀 다른 형태의 애플 컴퓨터로 만들어내 것이고, 지금은 가장 널리 사용되는 맥킨토시의 OS와 윈도우즈와 같은 그래픽 유저 인터페이스(GUI) 역시 애플이 처음 발명(invent)했다기보다는 제록스 사(社)의 연구소인 파크(Xerox PARC)가 만든 ALTO라는 컴퓨터의 GUI를 보고 모방한 것이다, 또한 마우스 역시 이미 1968년 바로 시리를 만들어낸 SRI 즉, 스탠포드 연구소에서 만든 것이었다.

이렇게 (이미 있었지만) 전혀 새로운 입력(入力) 장치인 마우스와 (또한 이미 있었지만) 전혀 새로운 형태의 출력(出力) 장치인 GUI를 결합해 만든 최초의 컴퓨터가 바로 첫 번째 맥킨토시인 LISA(84년)이다. (LISA는 잡스와 그의 동거녀 사이에서 태어난 딸의 이름이었는데, 잡스는 그 딸을 성인이 되기까지 자신의 자식으로 인정하지 않았다.)

Xerox PARC가 만든 최초의 GUI. 후에 Xerox Star라는

이름의 기종에 탑재되었다.

게다가 마이크로소프트의 빌 게이트 역시 스티븐 잡스의 맥OS GUI를 보고 윈도우즈를 만들어 냈으니 그들의 천재성은 모방을 통한 새로운 창조로 규정할 수 있다. (심지어 마이크로소프트의 MS-DOS 역시 빌 게이트가 만든 것이 아니다. 시애틀 컴퓨터 사(社)(Seattle computer produts)가 만든 QDOS를 라이센싱한 것이다. 빌 게이트는 단 돈 5만 달러에 이를 구입해 세계 제일의 거부가 되었는지 모르지만, 이 QDOS의 오리진은 유닉스(UNIX)라고 할 수 있기 때문에 전 세계 사용자들은 매우 까다롭고 불편한 PC용 OS를 사용할 수밖에 없었다.)

잡스는 또한 이미 시장에 나와 있는 mp3 플레이어를 응용하여 아이팟을 만들어냈고, 이를 기반으로 전혀 새로운 형태의 셀룰러 폰 즉, 아이폰을 창조했다. 아이패드 역시 이미 존재하고 있던 타블렛 PC의 한 형태이지만, 8비트 애플컴퓨터에서부터 아이패드에 이르기까지 스티븐 잡스는 전혀 새로운 가능성을 열고 이를 계기로 역시 전혀 새로운 시장(市場), 이른바 생태계를 창조해 내는 천재성을 발휘한 것이다.

애플컴퓨터가 정보화 시대를 태동시킨 혁명의 단초가 되었다면, 아이폰은 스마트 시대를 연 장본인이 되었으며 그 뒤에는 스티븐 잡스라는 천재가 자리하고 있었던 것이다.

그런데 이제 우리 눈앞에 또 (이미 존재하고 있었지만) 전혀 새로운 기술과 이를 통해 새로운 시대가 펼쳐지려고 하고 있다. 그것이 바로 시리인 것이다.

어찌 보면 시리는 단순한 음성인식 프로그램이다. 음성인식 프로그램은 이미 있었으며 또 지금도 사용된다. 구글 역시 음성인식을 지원하고, 심지어 음성인식 자동번역 어플리케이션도 보급하고 있다.

http://itunes.apple.com/app/google-translate/id414706506?mt=8

그러나 시리가 다른 음성인식 프로그램과 다른 점은 음성을 문자나 단어로 인식한다는 것이 아니라, 사용자가 말한 문장의 맥락을 이해한다는 것이다.

문장의 맥락을 이해란다는 것은 예를 들면 이런 것이다. 사람들 간의 대화중에 우리는 주어나 동사, 목적어 등을 정확하게 문법에 맞추어 이야기하지 않는다. 그래도 상대방의 대화를 이해하는 것에 어려움이 별로 없다. 왜냐면 몇 가지 단어만으로도 그가 말하고자 하는 것의 의미를 알아차리기 때문인데, 이는 순전히 경험에 의해서이다. 예를 들어 응급실 간호사가 '140에 90이요.'라고 하는 것은 혈압의 수치라는 것을 의사라면 누구나 이해하는 것과 같다. 주어 동사 없이 몇 개의 단어만으로도 문장 전체를 이해하는 것이다.

시리에게 서울의 날씨가 춥냐고 물어본 후 "부산은?"이라고 물으면, 시리는 전의 질문이 날씨에 대한 질문인 것을 인식하고 부산의 날씨를 알려준다. 이것이 바로 문맥을 이해하는 것이다.

그런데 프로그램에서 이게 어떻게 가능할까?

좀 전문적 용어로 말하자면, 프로그램으로 하여금 사람의 언어를 이해하도록 하기 위해서는 구문 분석, 의미 분석 그리고 담화 분석의 순서로 개발되게 되는데, 네이버나 구글의 경우 음성인식은 구문 분석의 수준일 뿐, 음성의 의미를 분석하지는 않는다. 그러나 시리는 문맥을 이해하고 대화중임을 인식할 수 있는 상용화된 최초의 음성인식프로그램인 것이다.

시리의 기능 구동에 대한 자료가 없어 이것의 정확한 알고리즘을 이해할 수는 없지만, 아마도 사용자가 말한 음성의 중요 단어들을 인식하고 이를 서로 연결하여 문장 전체의 맥락을 추정해내는 것이 아닐까 생각한다.

이것이 가능하려면 프로그램을 만들고, 그 프로그램을 훈련시켜야 하는데, 그것은 가능한 많은 문장(음성)을 축적하도록 하는 것이다. 이것은 마치 어린아이에게 말을 가르치는 것과도 흡사하다. 즉, 많은 문장을 데이터베이스에 축적하면 할수록 사용자가 말하는 문장의 의미에 좀 더 쉽게 접근해 추론해낼 수 있게 되는 것이다.

뒤집어 말하자면, 더 많은 사용자들이, 더 많은 음성을 입력할수록 더 확실하게 문장의 의미를 이해해 낼 것이라는 것이다.

사용자의 음성을 이해하는 것은 그렇다 치고, 답은 어떻게 하는 것일까?

현재 시리는 문자(text message)를 보내거나, 일정을 정하거나, 주소록을 검색하거나, 메일을 확인 하는데 사용할 수 있다.

이런 기능의 사용은 별도의 검색 엔진이 없어도 가능하다. 시리는 아이폰에 저장되어 있는 주소록의 이름과 연락처를 이미 알고 있다.

또 날씨를 알아보거나, 자신이 있는 지역 혹은 다른 지역의 정보를 검색할 수도 있는데 이것은 간단한 검색을 통해 알아낼 수 있다. 이를테면, "이 주변에 추천할만한 이태리 레스토랑은?"과 같은 질문을 받으면, 시리는 사용자의 아이폰에 내장된 GPS를 통해 사용자의 위치를 추적하고, 검색 엔진을 통해 주변의 이태리 레스토랑을 찾아 주는 식이다. 시리가 사용자의 위치를 알고 있다는 것에 주목할 필요가 있다.

그러나 좀 더 구체적이고 복잡한 검색이 필요한 경우 보다 확장된 방식의 검색이 필요하다. 이를테면 "인생의 의미는 무엇이냐?(What is the meaning of the life?"라는 식이다.

시리가 어떤 답을 했는지 알아보기 전에, 과연 시리는 이 질문에 대한 답을 만들기 위해 어떻게 검색을 할까, 즉, 어떤 검색엔진을 사용하는 것인지 부터 알아보자.

현존하는 최고의 검색엔진은 뭐라 해도 구글(www.google.com)이다. 구글의 검색 엔진은 너무 강력해서 심지어는 주민등록번호나 계좌번호와 같은 개인정보까지 검색되어 버리기도 한다. 그렇지만 구글의 검색엔진은 여전히 사용자가 입력한 문자를 인식하고 이 문자가 들어있는 웹문서를 찾아 줄 뿐이다. 혹은 다른 사용자들이 입력하여 둔 질문에 대한 답을 찾아 볼 수가 있다. 예를 들어, 네이버의 지식IN이나 위키피디아 같은 것이 그러한데 이는 인공지능이 아닌 사람들의 지식이 쌓이는 집단지식 저장소의 역할을 한다.

실제 구글에서 "What is the meaning of the life?"라는 문장으로 검색하면, 제일 먼저, 위키피디아에서 "meaning of the life"를 찾아가도록 해 주고, 그 외에 이와 관련한 사이트와 이미지, 블로그 등을 찾아 준다.

이 웹 연결을 따라 위키피디아에 들어가면, 인생의 의미에 대하여 무려 189개의 참고자료를 주석으로 하는 방대한 분량의 철학(哲學)에 관한 자료들이 펼쳐진다. 구글이나 위키피디아는 자료를 제공할 뿐 그것을 읽고, 이해하고 답을 구하는 것은 여전히 사용자의 몫이다. 이것이 구글의 한계인 것이다. 구글은 웹문서를 검색하도록 만들어진 검색엔진이기 때문이다.

그러나, 시리가 답하는 것은 전혀 다르다.

시리에게 인생의 의미가 무엇이냐고 물었더니 "Life, the condition that distinguishes animals and plants from inorganic matter, including the capacity for growth, reproduction, functional activity, and continual change preceding death (생활, 성장, 재생, 기능 활동, 그리고 죽음을 앞에 지속적인 변화를 위한 능력을 포함한 무기 물질에서 동물과 식물을 구분하는 조건)"이라고 답을 했다.

시리가 이런 답변을 할 수 있는 것은 구글과는 전혀 다른 개념의 검색 엔진을 사용하기 때문이다. 현재 시리는 "WolframAlpha"라는 검색엔진과 연동하고 있는 것으로 알려져 있는데, 울프럼알파는 수학연산프로그램인 매스매티카의 개발자인 물리학자 스티븐 울프럼이 만든 검색엔진이다. 이 엔진은 무려 1만개의 CPU로 구동되는 슈퍼컴퓨터를 사용하는 인공지능 프로그램으로 웹상에 존재한 정보를 가공하고 새로운 지식으로 재구성하여 "답"을 내 놓는다.

즉, 단순히 웹문서를 검색하여 정보를 제공하는 것이 아니란 것이다.

울프럼 박사는 ‘울프럼은 전통적 검색엔진이 아니라 연산능력을 갖춘 지식엔진’이라고 말 한바 있다. 실제, 울프럼알파의 가장 탁월한 기능은 수학 연산에 관한 것인데, lim(x->0) x/sin x 라고 입력하면, 1 이라고 답을 내놓는다. 수학적 알고리즘으로 만들어진 울프럼알파의 인공지능 프로그램에게 있어 수리적이며 논리적인 답을 하는 것은 쉬운 일이다. 그러나 아무리 훌륭한 인공지능 슈퍼컴퓨터라고 할지라도 추상적이거나 철학적인 답을 하기론 여전히 쉽지 않을 것이다.

만일 울프람알파에게 시리에게 질문한 "What is the meaning of the life?"이라고 묻는다면 어떤 답을 할까? 이 같은 구문 형태의 질문을 하면, 울프람알파는 이 문장을 분석하고 답을 내리는데, 그 답은 아래의 그림과 같다.

재미있는 것은 위의 질문을 하고 정량적 답을 원하면 42란 숫자를 답으로 내놓는다는 것이다.

즉, "What is the meaning of life?"란 질문을 "Answer to the Ultimate Question of Life, the Universe, and Everything."로 분석해내고 그 답을 내놓는데, 이는 더글라스 아담스의 "은하수를 여행하는 히치하이커를 위한 안내서"를 토대로 만들어진 답이다. 이 책 속에 등장하는 쥐들은 ‘인생의 의미’에 관한 궁극적인 질문의 답을 구하기 위해 슈퍼컴퓨터를 만들어 답을 구한다. 그리고 엄청난 시간 뒤에 나온 답이 바로 42였다.

이 답은 시리가 같은 내용의 질문을 하였을 때 내놓은 답이기도 하다. 처음 42란 답을 들은 사람들은 시리가 오류를 범했다고 생각했지만, 그것이 소설 속에 나온 답과 같다는 것을 알아차리는 데에는 그리 시간이 오래 걸리지 않았다.

아무튼 울트럼알파라는 인공지능검색 엔진은 구글을 위협하는 차세대 검색 툴이 될 것으로 보인다.

그럼, 구글은 손 놓고 당하고 있을까? 그렇지는 않다. 이미 전 세계 최대 최강의 IT업체답게 미래 세상을 만들어나갈 연구를 하고 있다. 미 캘리포니아에는 '구글 X'라고 불리는 미래연구소가 있으며, 여기에서는 미래를 바꿀 아이디어 100개를 선정, 집중적인 연구를 하고 있다는 것이다.

다시, 시리로 돌아가자.

이미 아이폰4S가 출시되기는 했지만, 어지간한 한국인이 미국 영어를 구사하며 시리를 사용하기란 쉽지 않은 일이다. 왜냐면, 시리는 미국식 영어와 영국식 영어, 그리고 호주식 영어 등을 구분할 뿐 아니라, 수십 개의 방언까지도 세분하여 인식하기 때문이다. 한국어의 경우 2012년부터 서비스를 시작한다고 한다.

그래서 한국어 시리 서비스가 시작하게 되면 또 한바탕 새로운 문화에 대한 충격이 강타할지 모른다. 어쩌면 그 때 쯤에는 현재 아이폰4S에 한정되어 사용할 수 있는 시리가 그 이전 기종 즉, 3GS나, 아이폰4에서도 사용 가능하게 될지 모른다.

이렇게 추정하는 이유는, 시리의 구동이 고성능의 하드웨어 사양을 요구하는 것이 아니며, 이미 앱 형태로 3GS에 사용된 바 있고, 일부 해커들이 해킹을 통해 하위 기종에 시리를 탑재하여 사용하는데 성공했기 때문이다.

즉, 하드웨어의 성능으로 시리를 사용할 수 없는 것은 아니며, 4S로 사용을 제한하고 있는 것은 4S 차별화라는 영업적 이유 때문이라 추정된다.

그런데 이 영업적 이유에도 불구하고 사용 제한을 푼다면, 그건 하위 기종 사용자들의 불만을 해소하기 위한 이유도 있겠지만, 애플이 노리는 전혀 다른 차원의 비즈니스 모델 때문일 가능성도 있는 것이다.

앞서 시리는 보다 많은 사용자들이 더 다양한 형태의 질문을 던지면서 지능을 쌓아가게 될 것이라고 한 바 있다. 즉, 사용을 많이 할수록 시리는 더욱 성숙해진다는 것이다. 이는 시리를 지원하는 울프람알파의 인공지능 역시 그러하다.

또한 시리의 기능을 사용하는 사용자들이 많아지면, 즉, 시리를 통해 원하는 식당이나 장소를 검색하고, 주변의 교통 상황을 물어보고, 특정 지역의 날씨를 찾는 등의 '질문'이 늘어나게 되면 이 질문들은 그대로 방대한 데이터베이스에 축적되게 되는데, 이를 가공함으로써, 사람들의 관심사, 선호하는 식당, 지역, 아이폰 사용자들의 위치 등등을 알 수 있게 된다. 심지어는 시리를 사용하는 자들의 이동 경로, 시간별, 요일별 밀집 형태까지도 알 수 있으며, 이는 전체 인구의 이동과 동향 파악으로 확대되고 이런 정보들은 모두 물류, 광고, 교통 통제와 나아가 사회 정책 수립에까지 광범히 하게 활용할 수 있는 수단이 된다.

게다가 우리는 시리를 통해 문자(text message)를 보내거나, 일정을 정하거나, 주소록을 검색하거나, 전화를 걸거나 메일을 확인하는데 사용할 수 있는데, 시리에게 음성으로 내리는 명령이나 질문은 우리가 원하지 않아도 데이터베이스 서버를 통해 ‘답’으로 돌아오게 된다. 아이폰에는 시리를 위한 작은 프로그램만 있을 뿐이라는 것을 잊어서는 안 된다. 즉, 모든 처리 음성 인식, 검색, 답변을 위한 프로세싱은 애플사가 가지고 있는 서버에서 처리할 뿐이다.

이는 내 문자나 이메일, 주소록, 일정, 전화번호 등등이 모두 애플사의 컴퓨터에 저장될 수 있음을 의미한다. 이미 IOS 5.0으로 업그레이드되면서, 아이클라우드라는 형태로 주소록, 일정, 메모와 최근에 찍은 사진까지 내가 자고 있는 사이에 업로드 되고 있다. (아이폰이 전원에 연결되어 있고, 슬립모드이며, 와이파이가 잡히고 있을 때 이 정보들은 자동으로 아이클라우드로 백업된다.)

이런 사실은 작게는 개인별 맞춤형 광고를 제공할 수 있는 수단이 생기게 된다는 의미도 있겠지만, 한편으로는 개인 정보의 유출 혹은 넓은 의미의 악용이 가능해진다는 의미도 될 수 있다. 이미 굳이 스마트폰이 아니더라도 셀룰러 폰을 가지고 있다는 것만으로도 그 사용자의 위치를 추적할 수 있다는 것은 새삼스러운 일도 아니다.

우리나라의 경우 개인정보보호법이 있으므로 이 법 테두리 안에서 서비스가 제공되지 않는다면, 시리를 한국인은 사용할 수 없을지도 모른다. 법은 개인의 동의가 있을 경우 개인정보의 수집을 허용하고 있으나, 그 정보는 최소한의 것이어야 한다고 규정하고 있으며, 그것이 최소한의 것인지에 대한 입증 책임을 개인정보처리자 즉, 시리의 경우 애플이 지도록 하고 있다. 또 개인정보처리자는 정보 주체인 사용자가 개인정보 수입에 동의하지 않는다고 서비스의 제공을 거절하지 못하도록 하고 있다.

그런데, 시리를 통해 사용되는 거의 모든 서비스는 개인정보를 수집하지 않고는 서비스 제공이 불가능하므로, 시리 사용자로부터 개인정보수집에 대한 동의를 받아야 하는데, 이를 동의하지 않을 경우 서비스를 제공할 수 있는 방법이란 없다는 문제가 있는 것이다. 그러니 애플로서는 한국어 인식 기술의 문제가 아니라, 법적 회피에 대한 문제로 더욱 고민하고 있을 것이다. 한국어 인식 기술은 이미 충분히 축적되어 있으며, 앱에서 제공하고 있는 Dragon Dictation을 사용해보면, 매우 충분히 음성을 문서로 전환하고 있음을 알 수 있다.

시리와 같은 기술이 다른 OS를 사용하는 스마트폰에도 적용될까? 위에서 언급한 바, 시리의 원천 기술을 가진 회사는 애플에 흡수되었으므로, 시리라는 이름으로 이 서비스가 안드로이드 폰이나 윈도우즈폰(망고폰) 등 다른 OS를 사용하는 스마트폰에서 서비스 될 가능성은 없다.

시리와 같은 personal assistant service는 상당한 기술 기반을 필요로 하기도 하고 막대한 투자가 전제되어야 하므로, 소규모 벤쳐 회사가 시리를 대신한 앱을 만들어 안드로이드 폰 등을 대상으로 서비스하는 것 또한 쉬운 일이 아니다.

기대해 볼 곳은 구글 정도일 것이다. 바라기는 삼성이 이 분야를 선도했으면 하는 것이지만, 삼성의 경우 긍정적 측면과 부정적 측면을 모두 가지고 있다. 부정적으로는 삼성은 기본적으로 반도체와 컴퓨터를 중심으로 하는 제조업의 한계를 벗어나지 못하고 있다는 것이다. 삼성은 (아이폰을 모방했던 아니던) 매우 빠른 속도로 스마트폰 개발에 집중하여 현재 아이폰의 판매 댓수를 훨씬 넘겨 전세계적으로 가장 많이 팔리는 스마트폰을 가진 회사가 되었지만, 여전히 제조업을 하는 회사일 뿐이다.

삼성은 애플처럼 애플OS를 만들어 본 적도 없고, 잡스처럼 남의 기술을 차용하고 모방했던 아니던 시장의 판도를 바꾸고 새로운 문화 아이콘을 만들어 낼 수 있는 회사가 아닌 것이다. 2차 산업인 제조업을 하는 회사가 서비스라는 3차 산업의 scheme을 그리는 것은 쉬운 일이 아니다.

그런데 이런 부정적 측면에도 불구하고 삼성에게 희망을 걸어보는 것은 삼성이기 때문이 아니라 한국의 삼성이기 때문인데, 한국인의 속성에는 남의 문화를 가져와 그것을 극대화(maximize)하는 재주가 있기 때문이다. 우리는 노동집약적이고, 기술집약적인 것에 강하다. 급한 성격만큼 한번 해보자는 분위가 성숙하면 또 미친(?)듯이 해버리는 재주가 있다. (한편, 일본은 남의 문화를 가져와 철저히 일본화 시키는데 재주가 있다. 돈가스니 가라오케니 하는 것 또한 일본화의 잔재이다. 한때 일본화시킨 것은 세계적인 것이었으나 그것에 안주하고 있는 동안 일본은 서서히 침몰하여 갔다.)

우리는 ICT에 대한 인프라도 충분하고, 소프트웨어를 개발할 인력도 충분하며, 새로운 기술에 투자할 자본력 또한 적지 않다. 필요한 것은 새로운 패러다임에 대한 혜안과 이해, 미지(未知)의 미래에 대한 공포를 떨쳐내고 그것에대한 희망을 갖는 일이다.

아직 시리는 베타 버전 수준이고, 아이폰4S를 사용하는 사용자 수가 많지 않아 시리에 가져다 줄 충격의 실체를 알아차리기란 쉽지 않다. 그러나 시리의 사용자가 늘어감에 따라 이것이 미칠 사회적, 문화적 영향은 상상이상이 될 것이 분명하다.

2011-11-15

스티븐 잡스의 서거를 애도하며....