오디오 시대의 도래, GUI의 몰락

by Yun

✱ 나는 디자인 관련한 전공이나 직업을 가져본 적이 없으며 이 글에서 주장하는 내용은 전문적 지식이 결여된 개인적 의견이다.

최근 UXCampSeoul 5회를 준비하면서 한 디자인 대학 교수님과 이야기를 할 기회가 있었다. 교수님께서는 IoT에 많은 관심을 갖고 계셨고, 나는 교수님께 얼마 전에 읽은 Craig Hockenberry의 “Wearing Apple” 글에 대한 이야기를 소개해 드렸다.

“Wearing Apple”의 맥락은 사람들이 이미 주머니 속에 컴퓨터를 갖고 있는데 굳이 시계라는 형태로 또 다른 컴퓨터를 손목에 올려놓을 필요가 있겠느냐는 질문이다. 그와 더불어 Craig Hockenberry가 던진 것은 애플의 다음 제품이 반지나 목걸이와 같은 악세사리일 것이라는 생각이다. 만일 반지가 된다면 갖게 될 주요한 특징은:

  • Limited display — A discreet way to provide notifications—just an LED or two that indicate what’s happening on your iPhone. Maybe even a small, flexible E Ink display for high contrast text.
  • Tactile — A way for your finger to sense a notification. It’s easy to miss audio cues in a noisy room or a vibration in your pocket.
  • Small & light — A hallmark of Apple design. Simplicity in form and function.

정말로 반지와 같은 형태의 제품이 나올지는 알 수 없다. 하지만 Hockenberry의 글이 흥미로운 이유는 지금까지 우리가 생각해온 기기, 디스플레이를 갖고 스마트폰에 준하는 하드웨어 성능을 가진 제품이 나올 것이라는 기대를 호소력 있게 부숴버리기 때문이다.

교수님께서는 이 이야기를 듣더니 이제 탈(脫)스크린화가 진행될 것이라고 이야기하셨다. 즉, IoT가 발전함에 따라 더 많은 사물과 상호작용이 가능해지지만, 그렇다고 모든 개별 기기에 스크린이 있을 필요가 없다는 이야기다. 스크린이 필요 없다는 생각은 영화 “Her”에서 묘사된 미래를 연상케 했고 이 생각을 발전시켜 보았다.



시각 채널의 장점은 많은 양의 정보를 빠르게 전달할 수 있다는 점이다. 같은 시간 동안 사진이나 이미지를 흘끗 보는 것만으로 텍스트를 읽는 것보다 풍부한 맥락을 파악할 수 있다. 이러한 시각 채널을 사용하기 위해서는 스크린이 필요하다. 일반적으로 스크린의 크기가 클수록 전달할 수 있는 정보의 양이 많아지지만, 그만큼 휴대성을 희생해야 하고[1] 사용자 이외의 다른 사람에게 정보가 노출될 염려도 있다.

시각 채널 이외에 정보를 입력하거나 받아들이는 방법 중 지속해서 부상하고 있는 것이 음성채널이다. 우리는 이미 Siri나 Google Glass를 통해 음성 채널의 가능성을 경험하고 있다. 영화 “Her”에서 주인공 시어도르는 스마트폰을 (혹은 그 비슷한 것을) 항상 들고 다니지만, 그것을 열고 스크린을 보는 경우는 별로 없고, 코르크 마개처럼 생긴 블루투스 이어폰을 통해 OS와 대화한다. 공공장소에서 타인을 불편하게 하지 않으면서 개인이 네트워크에 사적으로 연결될 수 있는 이상적인 방법이다:

letting [your OS] speak in public through the speakers on his device would be annoying (or worse) to bystanders.

“Her”에서 등장하는 수준으로 기술이 발전한다면 스크린이 필요한 경우가 많이 사라질 것이다. 뉴스와 이메일은 모두 읽어줄 것이다. 구글의 “I’m Feeling Lucky”와 같은 메커니즘의 정확도가 상승하면 굳이 화면을 보면서 키워드 검색을 하지 않아도 될 것이다. 네비게이션 역시 지오테깅의 정확도가 높아짐에 따라 음성만으로도 정확한 안내가 가능할 것이다.[2][3]

여기에 Hockenberry가 이야기한 반지와 같은 보조적인 역할을 하는 디바이스가 있다면 오디오 인터페이스 사용이 더욱 편리해질 것이다. 반지의 표면이 촉각을 인지할 수 있는 입력장치라고 생각하면 스와이프나 탭의 조합으로 방향성이나 엔터, 취소 등 기본적으로 필요한 대부분의 리모콘 기능을 충당할 수 있다. 다음 곡, 이전 메일, 삭제, 취소 정도만 있어도 “Her”에서 묘사된 것처럼 공공장소에서 허공에 대고 나불거리는 일을 많이 줄일 수 있을 것이다.[4]

반지가 센서의 역할도 하게 된다면 요새 범람하는 FitBit이나 Fuelband, Reporter 앱 따위는 전부 날려버릴 것이다. Hockenberry가 묘사한 것처럼 촉각 정보를 전달할 경우 이어폰을 끼고 있지 않을 때 오디오보다 덜 공격적인 방법으로 푸시를 보내는 것도 가능할 것이다.

이러한 방식으로 서서히 오디오 채널이 사물과의 주요한 인터렉션 방법이 된다면 스크린을 보는 경우가 점차 적어질 것이다. 스크린은 일상생활에서 보조적인 역할로 격하될 것이고 스크린의 크기 자체도 작아질 것이다(Her에서 등장하는 스마트폰의 크기도 상당히 작다.). 그리고 이는 우리의 일상생활에서 GUI 디자인의 많은 부분을 걷어낼 것이다.

텍스트 정보 전달을 주로 하는 뉴스 사이트나 블로그 등의 웹페이지는 대부분 Audio-First 디자인의 관점에서 설계될 것이다. 요새 이야기되는 Mobile-First 디자인이 오디오 채널로 변하는 것이다. 스크린을 통해서 접근하는 빈도가 줄어들수록 웹페이지 레이아웃이나 가독성 등의 중요도가 낮아질 것이고, 아예 시각적 웹페이지를 제공하지 않는 사이트가 생길지도 모른다.[5] 아니, 웹페이지(webpage)나 사이트(site)와 같은 단어가 webpod, webchannel 등으로 바뀔 수도 있다.

수많은 어플리케이션/프로그램이 GUI가 제거되거나 최소한의 텍스트, 인디케이터만을 시각적으로 노출할 것이다.[6] 버튼 없이 안읽은 메일의 개수만 보여주는 이메일 클라이언트, Start New Game이나 Load Game 등의 텍스트 버튼 없이 타이틀 제목과 그래픽만 보여주는 게임 등을 생각할 수 있다. Siri가 처음 소개되었을 때 이야기되었던 검색 엔진의 종말이 현실화되면 목적 정보에 도달하기까지 거치는 모든 여정(journal) 자체가 사라질 것이다.

사운드 아이덴티티가 중요해질 것이다. 여러 서비스는 각 서비스를 대표하는 징글로 기억될 것이고, 각 프로그램이나 서비스가 작동할 때 들려주는 소리 — 트위터의 경우 트윗을 발송할 때 나는 새가 지저귀는 소리 — 가 중요한 맥락 정보를 제공하는 인터페이스가 될 것이다.

마지막으로, 다른 두 상위(相違)의 인터페이스가 교차하는 지점을 다듬는 것이 사용자 경험의 핵심이 될 것이다. “Her”의 초반부에 주인공 시어도르가 지하철에서 이어폰을 통해 뉴스를 읽는, 아니 듣는 장면이 있다. 지루한 정치 및 경제 뉴스는 전부 넘기다가 섹시 스타가 화보를 공개했다는 이야기에 비로소 폰을 열어 사진을 본다. 폰을 열자마자 어떠한 버튼이나 조작 없이 사진이 나왔다. 이처럼 음성 인터페이스와 그래픽 인터페이스가 깔끔하게 교차하는 경험을 제공하는 것이 중요해질 것이다. 오디오를 통해 정보를 듣다가 더 풍부한 맥락의 파악을 위해 사진이나 영상 등을 시청할 때, 오디오 채널을 통해서 조작하던 중 더 정교한 인풋이 필요해서 GUI를 사용해야 할 때 지저분한 경계선 없이 직관적으로 이어져야 한다.



물론 이 생각은 아주 러프한 것이며 생각해보아야 할 점이 많다.

당장 떠오르는 생각은 오디오 중심의 웹사이트(혹은 웹채널)이 일반화된 세상이라면 인터넷 광고 시장 자체가 지금과 전혀 다른 모습일 것이라는 것이다.
주요 인터페이스가 오디오로 변함에 따라 생기는 오디오 광고, 그 몇 초를 견디는 것이 엄청나게 짜증이 나는 일이 될 것이다.[7] 낚시성 뉴스 사이트는 이어폰을 통해 자극적인 목소리로 야한 제목을 들려주는 기교를 만들 수도 있다. 아니, 그 전에 GUI의 시대가 끝나면 페이지뷰(pageview)라는 광고 시장의 측정 지표가 사라질 수도 있다.

스크린이 완전히 사라지는 일은 없을 것이다.[8] 위에서 상상한 미래는 일상생활을 하는 데에 스크린이 필요한 경우가 비약적으로 줄어들 것이라는 것이다. 그래프나 표처럼 데이터를 시각화하는 것은 청각 신호로는 따라갈 수 없을 정도로 빨리 큰 맥락의 정보를 전달할 수 있을 뿐만 아니라, 전체 맥락을 조감하는 기능을 제공한다. 엔터테인먼트의 측면 — 게임, 영화, 이미지 역시 스크린이 절대 사라지지 않을 이유다.

✱ UPDATE: 인터넷을 검색하다가 비슷한 생각을 적어둔 재밌는 사이트를 찾았다. 이텔릭 표시는 원문 그대로 가져왔다.

AudioUserInterface.org:

  • A simple tactile control input with rich audio feedback to replace most functions on mobile device and computer. No visual display needed. User can operate device in Eyes-Free fashion.
  • Audio Browser in AudioOS as Audio Net Terminal (ANT) to browse an Audio Space on Internet. The Audio Space is described by AudioXML and manipulated by JavaScript and PHP using existing Web/HTTP infrastructure. The Audio Space will replace the concept of Web page which was design for visual UI.

A simple tactile control을 사용한 다는 것이 매우 유사하다. Audio Space라는 오디오 정보 기반의 인터넷이 존재한다는 가정이 굉장히 재밌다.


  1. 홀로그램 기술이 보편화된다면 휴대성은 해결할 수 있을지 몰라도 다른 사람에게는 더욱 적나라하게 노출될 것이다.  ↩

  2. 요새 네비게이션이 안내하는 “500미터 후 오른쪽 차선으로 우회전입니다.”가 아닌, “앞에 보이는 빨간색 빌딩 지나서 우회전해야 하니깐 지금 미리 차선 바꾸세요. 뒤에 노란색 트럭 지나가고 끼어들면 될 것 같아요.”와 같은 안내를 말하는 것이다.  ↩

  3. 아니면 Driverless Car의 발달로 네비게이션 자체가 필요가 없어질 수도 있다.  ↩

  4. 물론 영화에서는 효과적인 연출을 위해 나불거리는 모습이 나와야 했을 것이다.  ↩

  5. 이러한 경우 해당 미래에서는 낮은 단계의 인터페이스(GUI)를 제공하지 않아 접근성이 낮다고 평가할지도 모르겠다.  ↩

  6. 표를 만들거나 그래픽을 편집하는 도구의 역할을 하는 어플리케이션들은 버튼 인터페이스가 계속해서 필요할 것이다.  ↩

  7. 요새 접하는 유튜브 광고도 그 짧은 5초 사이에 모니터를 부숴버리고 싶은 심정이다.  ↩

  8. 인간이 GIF와 고양이 그리고 포르노를 필요로 하는 이상 절대로 스크린이 완벽하게 사라지는 일은 벌어지지 않을 것이다.  ↩