《语音用户界面设计:对话式体验设计原则》是一本由拥有17年从业经验的资深语音用户界面设计(VUI)系统设计专家CathyPearl撰写的语音设计经典,从VUI系统简史开始讲述,包括了语音用户界面设计的基本原则,VUI系统设计中必不可少的人物模型设计,还包括一些语音用户界面设计的进阶知识,如语音识别技术,自然语言理解、情感分析、数据收集和文本语音转换策略等,另外还介绍了语音界面用户测试的知识,以及VUI在投入实际使用后需要注意的地方,特别提到了包括家庭助理设备和可穿戴设备等如何设计VUI系统。
推荐序一
我在用半语音、半打字的模式写下这段文字时,联想到语音用户界面的发展与互联网技术的发展非常类似。
在互联网时代来临之前,用户界面是以Windows为主的GUI,当用户需要工作、娱乐和游戏的时候,就购买相应的软件,安装后才可以使用。当时大部分的设计和研究方法都集中在独立程序上。大概在1998年,拨号上网时代结束,Web浏览器在功能上的完善让大家的眼光开始关注到互联网上,那时Amazon刚刚有了百万用户,WebVan和Pets.com正在蓬勃发展(这两款应用目前均已消失)。各种产品开始转向互联网,因为Web浏览器可以穿透各个程序,方便地把各种各样的内容和功能都呈现在前端页面上。之后,互联网给整个IT行业带来了深刻的变化,独立程序渐渐消失,取而代之的是在浏览器界面中的应用。
到了移动互联网的时代,一轮新的程序开发又开始了。App像雨后春笋一样涌现出来,满足用户在娱乐、游戏、工作等各个方面的需求,由于移动屏幕尺寸和网络速度的限制,单单使用一个简单的移动浏览器不能解决所有的问题。
语音和当年的浏览器一样,是一个可以穿透所有程序、解决用户所有问题的方法。当需要叫车服务的时候,我并不在乎是哪个软件在叫车,最好的情况是语音发出后,通过各个应用的比较,找出一个最佳的路线,并且最符合我使用习惯的叫车方案。语音是人类古老和自然的交互方式,在人工智能发展到可以部分理解语音的时候,语音时代开启了。语音除了在娱乐、游戏、工作上有广泛应用,还会广泛应用在IoT上。越来越多的设计师的工作会涉及语音界面设计。这本书的作者Pearl把自己17年的工作经验总结出来,介绍了语音界面的设计原则、语音识别技术、自然语言理解、语音用户研究方法,以及语音在设备上的应用。理论和实践相结合,非常实用!
这本书是天猫精灵设计团队的参考书之一,在使用过程中发现这本书非常有用,因此我们的设计师一行花时间把整本书翻译成中文分享给大家。
PaulFu
Sr.Director,UserExperience,AlibabaGroup
推荐序二
一行嘱我为他翻译的书写序,还没有看过是什么,我便欣然同意了。一行曾是我的学生。学生时代的一行就成熟得不像他的年龄。在初期时我对他说,“小心技术过于成熟而落入俗套。”事实证明我是错的。一行最大的特点是冷静并特立独行。每次问他问题,他先是沉默,想好后可以很缜密地回答,往往挑不出什么漏洞。基于这样的经验,之后的合作我便选择完全地相信他。所以我想一行精心挑选翻译的书籍,一定不会差。
一行陆续给我寄了原稿和翻译稿,我读后有一些感想:交互方式正从单纯的视觉、硬件交互转化为多感官综合的交互。每一次技术的变革都带来交互上的巨大挑战。“与机器像和人一样对话”,VUI不是一次升级,而是一个完全不同的新世界。这个世界正在来临,但又还有很多未知;这个全新的体验正呼之欲出,等待人们去定义。
VUI感性层面的需求比视觉交互和硬件交互更为复杂。除了合理的逻辑之外,场景、对话的上下文关联、角色的设定、语境的感知等都对用户体验起到了重要的作用。VUI像是给机器赋予一个新的性格。在这个领域也将产生不同的人才需求。最近遇见Dyson的设计师,他称自己为工程师,并解释他自己也不知道自己是什么样的定义,只知道伴随了产品整个的研发流程。在VUI领域,同时需要被打破的职业界限,需要更多元的职业类型介入去共同定义。他们可能是设计师,是开发者,是语言学家,是心理学家,是剧作家,等等。
最近我买了AmazonEcho,女儿每天早上向Echo问好。Echo没有屏幕,环转的灯光非常友好地展示了拟人化的倾听。我意识到VUI已经来了,它很聪明,但是又还很鲁莽;它让人兴奋,但又时时给人带来与机器对话的挫败感受。哪怕产品很智能,一个不好的VUI就像是一个聪明人无法倾听和表达一样无奈。在这个技术与设计并行发展的进程中,VUI还处在一个很早期的状态,会有很多令人困扰的问题:怎样的设计流程可以支持这个新的领域?VUI和屏幕交互是什么样的关系?什么样的场景最为适合?机器需要有什么样的性格?如何管理用户的期望值?如何弥补对话中带来的挫败体验?交互过程中的情感感受将会怎样?
VUI领域还没有太多的经验可以参考,设计教育界也还没有做好足够的应对,而这是一本来得如此及时的、难得的、实用的工具书。一行告诉我,书的内容只是一个开始,希望读者通过此书能开启一个全新的思考。
刘力丹
designaffairs合伙人、小猴科技创始人兼CEO
推荐序三
从软件工程转到工业设计专业,现在又在从事交互设计的工作,王一行一直是一个在自己喜欢的方向上执着钻研、追求完美的学生和设计师。当以往的学霸和红点得主来找我为他的译著写序时,我很是欣喜。非常钦佩一行哥(同学中的昵称)在阿里繁忙的工作之余还能挤出时间来学习新知识,并有心布道语音交互界面设计这一交互设计的新成员。
作为一种自然人机交互方式,语音交互由来以久,近年来更是被运用到了越来越多的产品之中,如从手机到智能产品、智能家居,从机器人到车载HMI。然而对语音交互的设计方法、流程,以及对其特有的设计问题的研究却非常匮乏。15年前在IBMT.J.Watson参与基于对话的语音交互系统的研究与应用实践,到现在进行多模态车载HMI的设计中,我大都是把语音交互作为交互系统中的一个重要元素加以运用。本书将语音交互作为一个与视觉交互界面(GUI)并列的界面类型,对其设计进行系统地分析、研究与实践指导,视角新颖,为对语音交互设计的深入研究打开了一片天地。相信一行精准到位的翻译可以将大家完美地带入这一交互设计的新领地。
孙效华
博士、教授、博士研究生导师
同济大学设计创意学院副院长,交互设计方向负责人
数字创意中心负责人
推荐序四
当很多人正在热议AI究竟是会帮助人类还是毁灭人类的时候,人工智能的浪潮正在悄然颠覆着我们生活的一点一滴。而基于CUI(ConversationalUserInterface,对话式用户界面)的智能产品,就好像是冲在AI浪潮最前沿的浪花,将隐藏其身下的算法和数据幻化成最能“直接拍打在用户皮肤上”的体验。作为一个新生的领域,VUI(VoiceUserInterface,语音用户交互界面)对于用户体验设计提出了更多语言学、情感塑造、逻辑搭建等方面的新要求,于是这样一本专业、全面的VUI设计指南的出现,就更显得弥足珍贵。
我在第一时间就和我的团队一起精读了英文原版,受益匪浅,相信中文译本的出版一定会帮助更多的共同前行的伙伴,受邀作序,备感荣幸。
就在我敲下这些文字的时候,大多数行业从业者都激进地把人工智能在人类历史上的重要性堪比、甚至远超过工业革命,很多人正担忧人工智能即将陆续取代一些职业并改造我们的社会化分工。我认为有一点是毫无疑问的,这是一个不可避免的智能时代,作为新生产工具的AI,除了在限定技术边界的垂直行业应用领域,各行各业都有机会被AI力收割“lowhangingfruits”来迅速提升各类生产效率,将对人类文明和产业变革产生重大影响。
回顾过去,机械设备的出现为人类带来了提升效能的工具,互联网的出现,将效能再次提升,而伴随着AI的出现,效能将进一步大规模提升。不可避免地说,在智能时代,大量重复性工作的人力工种肯定不复存在,还有很多具有结构化知识的经验性工作也会被机器智能所取代,甚至未来是创造性工作,但是更多的是通过为人赋能的方式,减轻社会劳动者和服务业的压力,将会重新进行一轮人类社会化分工。
在互联网时代,“连接”是核心关键词,如果C不能满足A和B的完整需求,那互联网有机会让A通过连接,跨过B和C直接找到D,但如果在一些场景和行业内B/C/D是稀缺性资源,那么这个情况在互联网时代就很难得到解决,AI的出现将有机会扭转这种供需关系。举例来说,以前用户看病花在预约和挂号的时间基本占到95%,真正用于医患有效沟通和问诊时间仅为5%。人工智能将代替以往所谓“互联网医疗”盲目且低效的连接,如VUI/CUI初诊问答机器人将患者进行分流,缩短医师护士等在预约和问询过程低效的重复时间,改善供需方的不对等关系。
大家都知道过去60年里人工智能经历了两次潮起潮落。现在我把这次AI的兴起,分为新AI时代的头十年和后十年。前十年是AI解决行业问题,比如前面讲的医疗、教育、信贷和金融风控等,通过大数据和机器学习迅速提升效率和准确率;新AI时代的后十年,机器智能将全面升级消费产品和用户生活场景,人工智能必将革新交互方式,进入计算无处不在的时代。下一代人机交互革命就在眼前,这将是一个激动人心的时代,就好比百年前蒸汽机、汽车、飞机等伟大产品的发明一样,如今将会出现大量被重新定义的智能产品,无人驾驶车、智能家居、家用机器人、下一个时代的个人助理等。当马车被汽车替代的时候,人们是措手不及的,同样的,AI时代的创新家们已经蓄势待发准备重新发明和改造今天陈旧的生活方式了。
我觉得赋能是人工智能对人类最重要的事情,因为这是人类进化需求的本质。人都渴望被赋能,这是天性。人发明蒸汽机、汽车、飞机、手机、计算机,从运动能力和生产效率等方面突破自身局限。大部分人沉迷于游戏,是因为在游戏中感受到自己被赋予了更大的权利和能力。这些都是顺应人性的事情,我觉得VUI最有价值的场景应用就是在人机交互过程中产生的便利性赋能。
无论是从云端到边缘在下一代硬件架构的变化,还是深度学习算法在图像识别和语音识别的单项上逐渐超过人类水平,AI的技术成熟度还在不断提升和进化过程,但是今天语音对话交互技术的发展尚还没有成熟到可以替代鼠标键盘和触摸屏。不过现阶段已经可以应用在一些特定场景下,比如用户双手不便下达快速指令、智能电视或者智能音箱上的跳步检索某一首歌或者某一个电影关键词,又或是实时机器翻译。但可以肯定的是,未来无处不在的
AI技术,必将带来交互的革命,颠覆的机会,也将属于那些极少数懂得技术边界、极具场景化思维、勇于革新的创新家们。
2016年,我和志同道合的小伙伴们一起创立了“物灵”。在工具化大工业产品思维主导的今天,我们希望去开辟另外一条路径,去创造人机共生的灵性世界。我们认为,人和产品的关系,在这个万物智能的时代,正在发生着巨大革新。我们经历了电器设备旋钮时代、键盘鼠标时代、触屏智能机时代,而现在万物智能时代的到来,很快就会将我们从鼠标键盘和低头点手机平板的触摸屏上解放出来,机器与人的交互会从不平等的单向被动模式转变为逐渐平等双向的多模态主动模式。而语音交互正是这个过程的第一步。我们认为这种互动模式的本质就是“关系”。我们把这种“基于关系的交互方式”称作RelationshipUI。物灵想要做的“智能/关系式交互”产品,不单单是计算机视觉、自然语言理解、深度学习、大数据等这些正在不断突破的AI技术的集合体,更加是一个让用户能体验到生命感,产生依赖,寄托情感的“灵物”。这本书里提到的Jibo机器人,正是RelationshipUI的一个很好的例子。我作为Jibo的董事长,物灵作为Jibo在中国的独家合作伙伴,我们和MIT的CynthiaBreazeal的团队也正在一起努力把这个可爱的小“灵物”带给中国的消费者。
当语音交互、智能匹配和个性化推送成为新一代用户的主流交互方式的时候,苹果构筑的那个以一个个各自为阵的App为核心的生态才能再一次瓦解——从移动互联到智能物联的转变,我们将经历ContextualUI取代SelectiveUI的产品形态。
而想要真正构建好这种产品和用户之间的“关系”,VUI无疑是最重要也是最自然的交互通道之一。在创业初期,我们的VUI团队一直在摸索如何设计对话内容和逻辑,创造Character,优化体验。不同于传统的GUI,由于缺乏系统性的指导和总结,我和团队做了很多的尝试,也走了很多的弯路。这本书的出现很好地帮助我们理清了VUI相关的基本框架和设计规则,而其中的很多观点,也和团队在实践过程中得到的经验有很好的切合。对每一个想要从事VUI相关领域的UX设计师、语言学家甚至工程师,这本书都能起到启蒙和指南的作用。
从我前面提到的AI前后十年的说法来看,当下我们所处的弱AI结合强产品的时代,还是有机会通过产品矩阵来形成现象级产品的,而这时正需要懂AI技术边界的设计师和产品人,来重新思考和设计使用场景。甚至都不是“寻找”应用场景了,而是要去“发明”应用场景的时代。创造出伟大的产品,在工程师把技术基础打造得差不多时,还是需要设计师、心理学家、社会学家等,去创造和拓展用户交互场景的疆界。
我们团队的一大常规团队建设内容就是一起重温那些经典的科幻电影,吸收灵感,也感叹原本只存在科幻电影里的人工智能,在这短短的几年就已经走进了我们的生活,甚至我们的现实已经在很多的场景下超越了科幻电影的设定。而我们深知,这短短几年AI爆发的背后,是几十年同行者在不同基础领域的不断积累,是像本书作者CathyPearl这样将近20年专注于VUI的探索和实践并著书立说、开放分享的精神。既然我们正在进入一个不可避免的智能时代,人机交互的下一轮革命就在各位眼前。人机共生的灵性世界不是用机器人来取代人类,而是赋能予人。未来已来,万物有灵,我们选择Allin。
顾嘉唯
物灵科技CEO,前百度少帅
译者序
因缘巧合,有幸翻译本书。这于作为设计学徒的我而言实是一种馈赠。
在与阿里巴巴国际UED用户体验设计的同事们进行语音交互研究的早期,我们第一时间购买了本书原版并进行了研读。这对于尚在摸索阶段的我们而言,不仅节约了大量的时间,更让我们体会到在当前的技术边界下,设计师在语音交互设计过程中的价值所在。随着项目进程的深入,我们愈发觉得需要有这样一本专业而系统的书,在可以预见的语音智能产品爆发之际,帮助在语音交互和智能硬件道路上探索和学习的伙伴们共同学习、进步。同时,我也希望本书能为每一个正在或有心从事语音设计相关领域的UX设计师或产品设计师,提供一个了解其行业背景、设计思维框架,以及相关技术现状的窗口,从而在日后的工作中能更从容地设计、探索、创造出更好的用户体验。能为行业尽绵薄之力,荣幸之至,不足之处还望海涵。
人工智能作为当下热门的细分科技领域,其带来的变革已经被推到了“第四次工业革命”的高度,并正在影响当下信息构成、生产和获取的方式。虽然早在1956年McCarthy就提出了“人工智能”的概念,但时至今日,大众才开始逐渐感受到其真正的价值和影响力。面对新一轮的科技爆炸,设计师需要重新思考,如何运用设计思维和想象力拓展技术的应用场景,探索新的交互方式,并赋予技术人性与人道,从而使新技术更好地赋能于人。
在这样的背景下,设计的客体不再只局限于屏幕内的内容,而是逐渐趋近于真实世界的全貌。多通道、全链路、多角色,以及去中心成为了设计的主旋律,这将促使设计师从更多维度进行设计探索。本书作者CathyPearl以其在语音交互设计领域17年的洞察为主线,深入挖掘了语音交互设计过程中每一个关键节点,及其对应的设计原则,并探讨了技术与体验的平衡。行文中还融入大量有代表性的行业真实案例,为我们带来了这本极富启发意义的语音交互设计指南。这在当今的时代背景下,有着特殊的价值。原作者CathyPearl在书中提醒读者“不要为了使用语音交互而使用语音交互”,这一点使我深受启发。相对于科技来说,人的生物属性决定了很多客观存在的限制。例如,对于大多数人而言,眼和口分别做两件不相关的事往往会使效率大打折扣。在设计多通道交互的时候也是这样。当你使用语音作为主要通道进行交互,线性传输的音频信息通过耳和口传递于人机之间时,很难排除来自视觉通道信息的干扰。此时我们可以通过视觉和语音的强关联性来强化语音交互(例如带屏幕的EchoShow),抑或是给用户的视线设计一个落点,减少其他的视觉干扰。视觉、听觉、味觉、
嗅觉、触觉,以某一个近似恒定的频次和信息比例与外界进行交互,体现了知觉恒常性。也是我在过往的IoT项目中,坚持遵循的原则之一。
设计是一门研究“人”的学科,重在理解人,而基于技术与数据的设计方法只是理解人的手段之一。基于人类自身行为特征的设计思维在新的设计背景下得以继承,而基于技术的设计方法在新技术的驱动下得以发展,两者相辅相成。CathyPearl以其近20年的从业经历,以立体和动态的视角梳理了语音智能体验设计的全流程,处理不同时代背景下用户体验和技术的制约与平衡,同时也为我们展现了设计在新技术背景下所面临的全新挑战,以及被赋予的全新意义。书中丰富的案例分析更为我们展现了一位成熟设计师面对当下复杂多样的生态系统,所展现出的极具包容性的思考框架。相信这将会成为未来多通道、全链路设计师的必备素养之一。
作为一本立足过去、面向未来的设计指南,原作者CathyPearl在有限的篇幅内,不仅探讨了人工智能背景下的情感化、游戏化设计,更在探讨中引入了图形学、语言学,乃至戏剧领域里的专业术语。这不仅使我们切实感受到作者广博的知识储备,更让我们看到设计领域存在的更多可能性,并时刻提醒我们:设计不应仅局限在已有的设计范畴内,更不应成为商业和技术的附加品,而是应该不断向外突破,与技术和商业互相驱动,共同进步。
于我而言,翻译本书的过程不仅是对新领域的探索,也是一次对设计方法系统的梳理。整本书所使用的设计框架对于新领域的探索极具价值,而单单只摘录对当前有用的部分,不足以体现这种价值。这也是我决定要将全书进行翻译出版的初衷。希望无论是体验设计师还是产品设计师,在面对新技术和新变化时,可以不再迷茫,并建立属于自己的设计思维框架。
在翻译的过程中,我也时常反思这几年学习和工作中面对设计时的思考,是否被既定的方法和流程限制了更多的可能性?是否过分注重屏幕而轻视了屏幕外的真实世界?如何在解决用户问题的同时,超出他们的心理预期以达成更大的满足?在万物AI化,信息横向拉平的未来,我们如何通过更多元的通道重塑自己的品牌?复合体验在给人们带来便利的同时,也在逐步瓦解单一介质(如印刷品、屏幕、声音)带来的感官刺激。产品以及背后的服务在失去传统营销抓手后,如何在AI生态中建立新的营销机制?有太多新的问题等待我们去发现,去解决。
最后,感谢我的家人在翻译过程中给予了我最坚实的支持;感谢王爽、洁君、夕圆、单卉等伙伴帮忙校对,使本书得以更好、更快地与各位见面;感谢阿里巴巴国际UED的同事们和天猫精灵团队,在项目初期能克服万难,坚定不移地在语音交互和消费级智能终端领域开疆辟土。感谢傅立民老师(Paul)、力丹老师、孙效华老师和嘉唯哥的信任,并在百忙之中抽空为本书作序。感谢出版社的孙老师,正是她独具慧眼的选题使得本书的中文版得以出版发行;感谢阿里巴巴的Paul和毛潇笑,让我有机会接触语音交互这个新领域。最后感谢所有能读到这本书的读者,由于译者才疏学浅,翻译中难免会出现一些问题或疏漏,请各位同行和专家不吝赐教,予以批评和指正。我非常欢迎来自各位的意见和反馈,并会基于此做出正与改进。谢谢。那么,就请开始阅读吧。
王一行
阿里巴巴高级交互设计师
Cathy Pearl,Sensely 用户体验总监,为Sensely 创造了富有同理心和对话性的虚拟护士形象。在Nuance和微软任职期间,为银行、航空、医疗公司设计了多款VUI系统,也是福特SYNC系统的设计师。在沃尔沃任职期间,她创造的对话式 ipad app 使用户可以从 Esquire magazine的生活专栏作家获得建议,与圣诞老人聊天或者与脱口秀演员说笑。
王一行,设计师。设计领域涉及交互设计、智能硬件设计、工业设计。曾先后任职于百度、网易,目前就职于阿里,从事平台设计创新工作。关注设计与技术背后的人文思考,致力于使技术为人道服务的设计实践。