第16章运动感知与行为计算(3)

书签收藏评论目录封面

体感系统除了可以识别体感，还可以具有一定的体感表达功能，比如可以作为体感系统的虚拟化身。当一台计算机系统要实现体感计算时，可以使用方便的抽象层次，从低层次的信号表示，比如可以用加速度数据或肌肉运动序列到高层次解释，像“他看起来很快乐”。在这个过程中，计算机不需要使用和人类一样的机制，当计算机的体感系统模仿人类的体感识别能力时，因为计算机的行为将更接近于人类行为，使我们更容易用自然的方式与之交互，而在表达体感行为时，可以使用体感虚拟化身的身体运动来产生类似人一样的身体运动语言。

人体运动语义体现在对肢体的状态和动作的运用中，其中还要区分手势（gesture）和姿势（posture）的不同。手势是由手和整个身体产生。两者的区别只在于手势更为强调手的运动轨迹和形态，而姿势则更为强调手或身体的形状和状态。不过，只有当我们说明问题需要时才作这种区分，在多数情况下，笼统的定义为：手势是人的上肢的运动轨迹或状态，包括手臂、手和手指。

5.4人体运动信号的特征提取

人的身体模型一般可以分为点模型、棍棒模型和体模型，根据这些模型，身体的各部分能被近似成点、线和三维体状。身体的运动可以用身体各部分的运动速度或运动角速度，或各关节点的运动轨迹来描述，如图5.16人体关节的运动范围向量。

人体结构的运动分析主要有基于先验模型和不基于先验模型两种，其主要区别是在运动分析中是否应用了人体结构的基本信息。虽然两者存在一定的差异，但是它们基本上都应用了特征提取、特征匹配以及高层次处理的方法，二者的主要区别是在特征匹配阶段。基于先验模型的方法，首先把采集到的数据信号匹配到一个模型上。而不基于先验模型的方法主要依靠动作特征的预测和估计，这些特征如位置、速度等。这两种方法当然也可以结合起来进行不同层次上的处理，确认特征的匹配，完成复杂的高层次任务。

通常特征匹配提取运动信息，特征匹配通过标志性特征的时间序列的连续匹配来恢复人体的运动参数。特征匹配方法首先在运动数据中提取感兴趣的特征点，然后在不同时间跟踪特征点，得到特征点的序列位置，从而得到运动信息。

5.5手势运动识别

5.5.1手势交互

手势交互是一种典型的情绪感知行为的交互，以手势体现人的意图和想法是一种非常自然的方式，简单的手势可以蕴含着丰富的信息。正是这样，人类可以通过手势传达大量的信息，实现更为生动和高效的情感表达。以人手直接作为计算机的输入设备时，人机之间的信息互动将不再需要中间的媒介，用户可以简单地定义一些适当的手势来与计算机实现信息和情感的互动。

手势是人的手以及手和手臂相结合所产生的各种姿势和动作，它包括静态手势和动态手势。如图5.17所示，静态手势，是指姿态，单个手形，是对应空间中的一个点。而动态手势是空间中的手和胳膊的运动轨迹，如图5.18动态手势所示，是指动作，由一系列姿态组成，需要使用随时间变化的空间特征来表述。此外，手势和姿势（posture）的主要区别在于，姿势更为强调手和身体形态和状态，而手势更强调手的运动。

手势是一种较为简单、方便的交互方式，也是人体语言的一个非常重要的组成部分，它是包括信息量最多的一种人体语言，它与语言以及书面语言等自然语言的表达能力是系统的，因而在人机交互方面，手势完全可以作为一种手段，而且具有很强的视觉效果，因为它生动、形象、直观111。

为了让用户参与进来，应该构建基于先前探讨的体感计算涉及的身体运动和认知交互体验。需要把它们用在体感交互的框架设计中，包括输入和输出，和把两者统一应用起来。

人机交互和人机人的交互并不是和人人交互一样。一个应用是一个设计的人工制品，而且并不是因此唯一的建立在自然的情感表达基础上。另一方面，主要使用设计的表达关系无论什么情感经历的人每日都有生理和意识的生活，用户将会很难识别和被情感所影响。因此，我们认为，情感表达应该旨在自然的但是经过设计的表达。

所以，我们研究的目的就是如何设计能够充分表达情感的手势。在研究时，有两个主要矛盾：设计手势和自然的手势。

设计手势应该能够被组织作为语言符号。手势构成了语言，依靠语言的复杂性，可能需要很大的精力来学习。自然的手势，另一方面，旨在更容易学习，因为他们构建在人们在各种情况下表达他们自己。然而，不同人、不同文化和形式之间的肢体语言，手势和更多有意图的手势等是不同的。因此，手势交互的设计者经常基于自然行为，增加特定的运动来寻找潜在的维度，用来设计手势。

我们可以对手势做不同的分类，如下所述：

（1）自主性手势和非自主性手势，后者与语音配合用来加强或补充某些信息（如演讲者用手势描述动作、空间结构等信息）。

（2）离心手势和向心手势，前者直接针对说话人，有明确的交流意图，后者只是反映说话人的情绪和内心的愿望。

5.5.2三维符号输入

在二维的交互中，符号信息输入的重要性是很清楚的，同样在三维的用户界面中，它也是相当重要的。符号输入是使用抽象符号来表达思想、对象、概念、数量等，这是人类文明最重要的成就之一。它使我们能精确、简明地提供和获取信息，并使信息能持久。离开符号就不可能有思考的方法，符号渗透与人类生活的方方面面，当然也包括人类的学习、艺术表达和创作112。

但是当前在三维的人机交互中缺乏符号通信，或者仅仅限于单向通信。当前，许多三维的应用，比如建筑结构漫游，还不能够接收使用三维的交互符号信息，仅为用户感知提供一个单纯的、几何的、视觉上的世界。在包含符号信息的三维应用中，大多数仅提供符号的输出，比如文字、数字或者语音是被嵌入在环境中的，例如可能采取在虚拟按钮上设置标签、地图上的一个图例、用户坐标的一个数字显示或者声音帮助等形式，然而，是很少提供符号输入的。

1.符号输入的意义

其实，在三维交互界面中的符号输入对三维应用很重要，然而用于这种任务的可用的和有效的技术难以设计和实现，这使得开发人员在很大程度上回避了这个问题。而尝试新技术，包括运分离的、可穿戴的动传感，做的手势和身体姿势的符号输入，可以传达更精确的交互信息。

2.使用场景

典型的三维交互，如本书正在研究的运动感知的交互，可以考虑利用手或者身体的姿势、位置、方向和运动来产生符号输入，换句话说是用手势和体势，尽管由于手势识别率还有待提高，使得基于手势的交互在三维交互界并不怎么受欢迎，但是它仍然是一种仅需要用户的身体运动就可以进行输入的强有力的方法。我们考虑三种类型的基于手势的符号输入：

（1）手语手势

手语手势是基于手势的符号通信方法，已经被世界上数以百万计的人使用-手语。手语具有功能强大的，难以置信的描述作用，可以为人类实现高效率地讲话和表达情感。Fels和Hinton113开发了GloveTalk系统，将做手势当作一种语言合成器。尽管这种系统没有用在三维交互界面的符号输入上，但是它使用数据手套作为输入设备，表明它肯定是对于三维交互应用是有用的。这种技术的主要缺点是仅有一个小比例的人群知道符号语言，甚至是对于有经验的手语者来说，神经网络识别系统也必须先进行训练。

（2）数字手势

对于数字输入，手势提供了一个显而易见的交互技术——使用手指来表示数字，比如食指代表数字1。这样的手势实际上是通用的，既能够用一只手也能用两只手进行。然而，目前这种技术还没被应用到三维用户界面的研究和应用中。

（3）瞬间手势

上面描述的两种技术需要连续的手势识别，利用手套或运动传感器设备连续报告手上关节的角度。然而，类似于掐捏手套的瞬间设备也能提供“有限的”手势，特别是当跟踪器附着在手套上时。

3.符号输入的鲜明特点

用于三维用户界面的符号输入技术必然不同于传统的技术，如鼠标键盘，因为在三维和二维用户界面之间有本质的不同。若仅仅简单地拿过来用，传统键盘将在非桌面的三维用户界面中无法工作，因为：

用户经常站立。

用户在物理上可以移动。

通常没有平面放置一个键盘。

在光线很暗的环境中（如在一个环形的显示器中）或在用户的视线被遮挡（如在HMD下）时，看到一个键盘很困难或根本不可能。

并不是所有的三维用户界面都有这样的限制，有的系统有潜在的工作区，比如键盘绑在用户的身体上，在这种方式下，当用户站着或者四处走动时也可以使用输入设备。但是通常情况下，我们需要考虑交互环境中不同的符号输入方法。

运动感知设备可以比较方便地处理三维的空中交互的问题。尽管用于这些设备的符号输入技术的可用性和准确率还有待提高，但是这些领域对于三维交互的符号输入来说是个很好的解决方案。

5.5.3手势识别

手势的各种组合可以说相当复杂，因此，在实际的手势识别时通常需要对手势做适当的分割、假设和约束。

第16章 运动感知与行为计算(3)

第16章运动感知与行为计算(3)