打开书和书签

语音内容和可用性

会话并不是一个新的界面。这是最古老的界面。

Erika Hall,会话设计

我们已经有几千年的谈话。无论是如何传达信息,进行交易,还是简单地互相登记,人们通过无数世代的口语谈话,嘲笑,喋喋不休和姿势。只有在过去几千年中我们开始致力于写作的谈话,只有在过去的几十年中我们开始将它们外包给电脑,这是一台对书面通信显示更多的机器,而不是口语的俚语变幻莫测语。

继续下面的条

计算机有问题,因为在口语和书面语之间,语音更原始。为了与我们进行成功的对话,机器必须克服人类语言的混乱:不流畅和停顿,手势和肢体语言,以及单词选择和口语方言的变化,这些变化甚至会阻碍最精心设计的人机交互。在人与人之间的情景中,口语也有面对面的接触,我们可以很容易地解释非言语的社会线索。

相比之下,书面语言立即具体化,因为我们致力于记录并保留使用后再过时(例如)对其可能关注的宣传,“例如”,“例如”过时的术语和短语的化石记录“,”致命“。因为它往往更加一致,抛光和正式,书面文本从根本上更容易解析和理解。

口语就没有这种奢侈了。除了用强调和情感语境修饰对话的非语言线索之外,还有语言线索和声音行为以微妙的方式调节对话:如何据说,不是什么.无论是快速的、低音调的还是高分贝的,无论是讽刺的、生硬的还是叹息的,我们的口语所传达的东西比书面语言所能表达的要多得多。所以说到语音界面——我们进行语音对话的机器——作为设计师和内容战略家,我们面临着令人兴奋的挑战。

语音交互#section2.

我们出于各种原因与语音接口进行交互,但根据Michael Mctear,Zoraida Callejas和David Groiol的说法会话界面,这些动机大体上也反映了我们与他人开始对话的原因(http://bkaprt.com/vcu36/01-01)。一般来说,我们开始谈话,因为:

  • 我们需要完成一些事情(例如事务),
  • 我们想知道某事(某种信息),或者
  • 我们是社会性的人,想要和某人交谈(为了交谈而交谈)。

这三个类别,我称之为事务,信息,proSocial.-also基本上是每一个语音交互:从开始到结束的单个对话,为用户实现某种结果,从语音界面的第一次问候开始,到用户退出界面结束。请注意谈话在我们人类的感觉中,人与人之间的聊天可以产生一些结果,并持续任意长度的时间,可以包含多个交易性、信息性和亲社会的声音交互。换句话说,语音互动是一种对话,但对话并不一定是单一的语音互动。

纯粹的proSocial.在大多数语音界面中,对话与其说是吸引人,不如说是一种噱头,因为机器还没有这种能力真的想知道我们在做什么,想做人类渴望的那种热情款待。还有一个持续的争论是,用户是否真的更喜欢那种从亲社会的声音交互开始,然后无缝转换为其他类型的有机人类对话。事实上,在语音用户界面设计, Michael Cohen, James gi安哥拉和Jennifer Balogh建议通过模仿用户与其他语音界面的互动方式来达到用户的预期,而不是过于努力地模仿人类——可能会在这个过程中疏远他们。http://bkaprt.com/vcu36/01-01)。

这就只剩下语音界面能够与我们进行的两种类型的对话了事务语音交互实现一些结果(“买冰茶”)和一个信息语音互动教会了我们一些新东西(“讨论音乐剧”)。

事务性语音交互#第3部分

当你点一份加了菠萝的夏威夷披萨时,除非你是在按外卖应用程序上的按钮,否则你通常是在交谈——因此是语音互动。甚至当我们走到柜台点餐时,对话也会很快从最初的几句友好的闲聊,转移到手头真正的任务:点一份披萨(应该在上面放很多菠萝)。

艾莉森:嘿,最近怎么样?

Burhan:嗨,欢迎光临Crust Deluxe!外面很冷。我能帮你什么吗?

艾丽森:我要一份夏威夷披萨,多加菠萝?

伯汉:当然,什么尺码的?

艾莉森:大。

Burhan:还有别的吗?

艾莉森:不了,谢谢,就这样。

伯汉:喝点什么?

艾莉森:我要一瓶可乐。

伯汉:你说对了。一共13元55分,大约15分钟。

每个渐进披露事务对话揭示了交易的越来越多的预期结果:呈现的服务或提供的产品。交易谈话有一定的关键特征:他们是直接的,直接到这一点和经济。他们很快就会享受愉快。

信息语音交互#第4部分

同时,一些对话主要是关于获取信息。虽然艾莉森可能会在唯一的目的下订单,但她实际上并不希望与披萨一起走出去。她可能对他们是否服务清真或犹太洁食物,无麸质选择或其他东西。在这里,我们在开始时再次有一个女性迷你对话,以建立礼貌,我们经过更多。

艾莉森:嘿,最近怎么样?

Burhan:嗨,欢迎光临Crust Deluxe!外面很冷。我能帮你什么吗?

艾莉森:我能问几个问题吗?

Burhan:当然!一直往前走。

艾莉森:菜单上有清真食品吗?

Burhan:绝对!我们可以按要求做任何清真派。我们也有很多素食、乳蛋和纯素食的选择。你有没有考虑其他的饮食限制?

艾莉森:那无谷蛋白披萨呢?

Burhan:我们绝对可以为您做一种无谷蛋白披萨,没问题,无论是深盘披萨还是薄皮披萨。还有什么需要我回答的吗?

艾莉森:就到这里吧。很高兴知道。谢谢!

伯汉:随时奉陪,快回来!

这是一个非常不同的对话。在这里,目标是获得一组事实。nformational对话是对真实研究探险来收集数据,新闻或事实的实践任务。信息的语音交互可能比必要性的交易对话更长啰嗦。响应往往是较长的,更丰富的信息,并仔细传达,以便客户了解关键的外卖。

语音界面#第5部分

在其核心,声音接口雇用讲话以支持用户达到目标。但是,因为一个接口有一个语音组件并不意味着每个用户与它交互都是通过语音进行调解的。因为多峰语音接口可以依赖于屏幕的视觉组件作为拐杖,我们最关心这本书纯语音界面它完全依赖于口语对话,缺乏任何视觉成分,因此更微妙,更难处理。

尽管在科幻小说中,语音界面一直是人类未来想象的一部分,但直到最近,这些崇高的愿景才在真正的语音界面中完全实现。

交互式语音应答(IVR)系统#第6部分

虽然书面会话界面已经成为计算机的固定装置有几十年了,但语音界面首次出现是在20世纪90年代初,当时的文本到语音(TTS)听写程序可以大声背诵书面文本,以及语音车载系统可以为用户提供的地址指明方向。随着…的到来交互式语音应答(IVR)系统,作为负担过重的客户服务代表的替代品,我们熟悉了第一个真正的语音界面,能够进行真实的对话。

IVR系统让企业减少了对呼叫中心的依赖,但很快就因其笨拙而臭名昭著。这些系统在企业界很常见,它们主要被设计为隐喻性的交换机,引导客户找到真正的电话代理(“说Reservations预定航班或查看行程”);当你给航空公司或酒店集团打电话时,你很有可能会和他们进行交谈。尽管IVR系统存在功能上的问题,用户也因无法立即与真正的人对话而感到沮丧,但IVR系统在20世纪90年代初在各行各业迅速普及(http://bkaprt.com/vcu36/01-02,PDF)。

虽然IVR系统对于高度重复、单调、通常不会偏离单一格式的对话非常棒,但它们的对话不如我们在现实生活中(甚至在科幻小说中)所习惯的那么精彩。

屏幕阅读器#第7部分

与IVR系统的发展平行的是屏幕阅读器,一种将视觉内容转录为合成语音的工具。对于盲人或视力受损的网站用户来说,它是与文本,多媒体或表单元素进行交互的主要方法。屏幕阅读器可能代表最接近的等价物,我们今天到了通过语音传递的内容的开箱即用。

1986年,伯明翰大学视障教育研究中心(RCEVH)为英国广播公司(BBC)的微型屏幕阅读器和便携式电子阅读器(NEEC Portable)开发了第一批“屏幕阅读器”。http://bkaprt.com/vcu36/01-03)同年,吉姆·撒切尔(Jim Thatcher)为基于文本的计算机创建了第一台IBM屏幕阅读器,后来为具有图形用户界面(GUI)的计算机重新创建(http://bkaprt.com/vcu36/01-04)。

随着20世纪90年代网络的快速发展,对网站可用工具的需求激增。由于从2008年开始引入语义HTML,特别是ARIA角色,屏幕阅读器开始促进与web页面的快速交互,表面上允许残疾用户通过听觉和时间空间而不是视觉和物理空间浏览页面。换句话说,网页的屏幕阅读器“提供了一种机制,将视觉设计结构——接近度、比例等——转换成有用的信息,”亚伦·古斯塔夫森(Aaron Gustafson)写道一个列表.“至少当文档是经过深思熟虑编写的时候是这样的”(http://bkaprt.com/vcu36/01-05)。

尽管对语音界面设计师有着深刻的指导意义,但屏幕阅读器有一个重要的问题:它们难以使用,而且总是冗长。网站和web导航的视觉结构不能很好地翻译给屏幕阅读器,有时会导致难以处理的声明,将每个可操作的HTML元素命名对于许多屏幕阅读器用户来说,使用基于网络的界面需要付出认知代价。

《连线》杂志,易访问性倡导者和声音工程师Chris Maury认为为什么屏幕阅读器体验不适合依赖声音的用户:

从一开始,我就讨厌屏幕阅读器的工作方式。为什么它们是这样设计的?视觉化地呈现信息,然后,然后才将其转化为音频是没有意义的。所有用于创造完美用户体验的时间和精力都被浪费了,甚至对盲人用户的体验产生了负面影响。(http://bkaprt.com/vcu36/01-06)

在许多情况下,设计良好的语音界面比冗长的屏幕阅读器独白更能加快用户到达目的地的速度。毕竟,视觉界面用户可以自由地在视口中寻找信息,而忽略与他们无关的区域。与此同时,盲人用户有义务倾听每一个合成成语音的话语,因此重视简洁和效率。长期以来不得不使用笨拙的屏幕阅读器的残疾用户可能会发现,语音界面,尤其是更现代的语音助手,提供了更流畅的体验。

语音助理#第8节

当我们想到语音助手(语音接口的子集现在在客厅、智能家庭和办公室中很常见),我们中的许多人马上就会想到HAL《2001太空漫游或者听听马杰尔·巴雷特的声音,他是世界上无所不知的计算机《星际迷航》.语音助手类似于个人高考,可以回答问题,安排约会,进行搜索,并执行其他常见的日常任务。他们正在迅速获得从可访问性倡导者获得辅助潜力的兴趣。

在最早的IVR系统在企业中获得成功之前,苹果公司于1987年发布了一段演示视频,描述了知识导航器,一种语音助手,可以转录口语并高度准确地识别人类语音。然后,在2001年,Tim Berners Lee和其他人提出了他们对语义网络的设想执行“检查日历、预约和查找位置”等典型任务的“代理”(http://bkaprt.com/vcu36/01-07,在收费)。直到2011年,苹果(Apple)的Siri才最终进入市场,让语音助手成为了消费者的现实。

由于今天可用的语音助手过多,在可编程和可定制的某些语音助手如何优于其他的方面存在相当大的差异(图1.1)。在一个极端,除了供应商提供的功能之外的所有内容都被锁定;例如,在释放时,Apple的Siri和微软Cortana的核心功能无法超出其现有功能。Even today, it isn’t possible to program Siri to perform arbitrary functions, because there’s no means by which developers can interact with Siri at a low level, apart from predefined categories of tasks like sending messages, hailing rideshares, making restaurant reservations, and certain others.

另一方面,像Amazon Alexa和谷歌Home这样的语音助手提供了一个核心基础,开发者可以在此基础上构建定制的语音界面。出于这个原因,可编程语音助手的自定义和可扩展性越来越受到那些被Siri和Cortana的局限性所束缚的开发人员的欢迎。亚马逊提供了Alexa技能工具包,这是一个开发框架,用于为亚马逊Alexa构建自定义语音界面,而谷歌Home提供了编程任意谷歌助理技能的能力。如今,用户可以在亚马逊Alexa和谷歌Assistant生态系统中,从数千种定制技能中进行选择。

图1.1当前位置像亚马逊的Alexa和谷歌Home这样的语音助手往往比苹果的Siri更容易编程,因此也更灵活。

随着亚马逊、苹果、微软和谷歌等公司继续占领自己的地盘,他们也在为设计师和开发人员销售和开源一系列前所未有的工具和框架,旨在使构建语音界面尽可能简单,甚至不需要代码。

通常情况下,像亚马逊Alexa这样的语音助手往往是必要的monochannel它们与设备紧密相连,无法通过电脑或智能手机访问。相比之下,许多开发平台(如谷歌的Dialogflow)已经引入omnichannel功能,因此用户可以构建一个单一的对话界面,然后在部署时表现为语音界面、文本聊天机器人和IVR系统。我在这本以设计为中心的书中没有规定任何具体的实现方法,但在第4章中,我们将讨论这些变量可能对您构建的方式产生的一些影响找出你的设计作品。

语音内容#第19部分

简单地说,声音内容内容是通过声音传递的。为了保持人类对话的吸引力,声音内容必须是自由流动的、有机的、无上下文的、简洁的,而书面内容不是。

我们的世界充满了各种形式的语音内容:屏幕阅读器背诵网站内容,语音助手大声播报天气预报,以及由IVR系统控制的自动电话热线回复。在这本书中,我们最关心的是通过听觉传达内容——不是作为一种选择,而是作为一种必要。

对我们中的许多人来说,我们进入信息语音界面的第一步将是向用户提供内容。只有一个问题:我们已经拥有的任何内容都不适合这个新的环境。那么,我们如何使网站上的内容更具对话性?我们如何编写新的副本,使其适合语音交互纳什?

最近,我们已经开始切片并以前所未有的方式切割我们的内容。在许多方面,网站是我所说的庞大穹顶macrocontent:冗长的文章,可以在浏览器窗口中无限滚动英里,就像报纸档案的微缩胶片观众。早在2002年,在现在无处不在的语音助手出现之前,技术专家阿尼尔·达什(Anil Dash)就做出了定义微内容作为永久对齐的内容,无论环境如何,都可以保持清晰,如电子邮件或短信:

一天的天气预报[SIC.],飞机航班的到达和起飞时间,一份长篇出版物的摘要,或者一条即时消息都可以是微内容的例子。(http://bkaprt.com/vcu36/01-08)

我将更新Dash对微内容的定义,包括所有超出communiqués文字内容的小内容。毕竟,今天我们在界面上看到的是微内容,只是一小段复制内容,从浏览器中分离出来,就像一个确认餐厅预订的文本机器人。微内容提供了最好的机会来衡量你的内容如何延伸到它的功能的边缘,通知已经建立和新颖的交付渠道。

作为微内容,语音内容是独特的,因为它是内容体验的一个例子时间而不是在空间.我们可以瞥一眼地下的数字标志,知道下一辆火车何时到达,但语音界面会让我们的注意力被俘虏一段时间,我们无法轻易逃离或跳过这段时间,这是屏幕阅读器用户都太熟悉的。

因为微内容基本上是由独立的blobs组成的,与它们最终的渠道没有关系,我们需要确保我们的微内容真正表现得像语音内容一样好——这意味着专注于强大的语音内容的两个最重要的特征:语音内容易读语音内容可发现性

从根本上说,语音内容的易读性和可发现性都与语音内容在感知时间和空间中的表现方式有关。

关于作者

普雷斯顿

普雷斯顿(他/他)是一个产品架构师和战略家,数字体验未来学家,创新领导,开发倡导者,三次SXSW演讲,作者语音内容和可用性(一本书,2021年),盖茨比:权威指南(O ' reilly, 2021)实践中的解耦Drupal(APRESS,2018)。自1999年以来,他是一个程序员,自2001年以来,自2001年以来,自2004年以来为创意专业人士,自2007年以来为一个创意专业人士。

作为甲骨文公司的产品负责人,Preston自2015年起在Acquia、Time Inc.和Gatsby领导产品、设计、工程和创新团队。普雷斯顿是一个列表,专栏作家at.CMSWire,并对Smashing Magazine并已发表主题演讲三种语言世界各地。普雷斯顿总部位于纽约市,在那里他常常可以沉浸在濒危或不足的语言中。

没有评论

有什么要说的吗?

我们已经关闭了评论,但是你可以看到人们在我们关闭评论之前都说了些什么。

更多来自ALA.

设计意外

随着设备不断以令人眼花缭乱的方式多样化,我们如何确保我们在网络上的工作与以往一样具有长远意义?Cathy Dutton分享了实践者如何为当前的范例和未来的曲折来完善设计,不管可能发生什么。

异步设计评论:获取反馈

接受反馈可能是一种压力:开放式的问题会引来有益的指导还是严厉的批评?Erin“Folletto”Casali指导我们通过一个过程来确保反馈总是优雅地到位。

异步设计评论:给予反馈

你听过无数次“建设性的批评”,但是你知道如何表达吗?来自Erin ' Folletto ' Casali的这个系列的第一部分为您提供了一个框架!发挥你的反馈肌肉,练习这些技能,以授权和激励他人,而不是让他们泄气或困惑。