Deriving the Pricing Power of Product Features by Mining Consumer Reviews

过去几年在文本研究中引入了许多用于识别消费者评论中提及的产品特征的技术（Hu and Liu 2004，Ghani et al.2006）。一种流行的技术是使用词性（POS）标注器在评论中使用其词性标注每个词并标记该词是否是名词，形容词，动词等。名词和名词短语是产品功能的常用候选语言，尽管其他结构（如动词短语）也被使用。替代技术涉及在文本中搜索统计模式，例如在评论中经常出现的单词和短语。混合方法结合了两种方法，其中在应用关联挖掘算法来发现频繁名词和名词短语之前，将POS标记器用作预处理步骤。

尽管人们普遍认为描述最多的特征是名词和名词短语，但实际上，评论者的确使用广泛的语言结构来描述产品。例如，考虑数码相机评论中的以下句子：“在低光下有点吵，例如在阴天，草会缺乏清晰度，最终看起来像是一大片绿色。”即使该特征本身从未被明确提及，该句也给出了相机的图像质量的评估。已经开发了一些用于发现隐含描述的产品特征的技术。例如，可以使用二元分类器来确定特定特征是否在评论中被隐式讨论（Ghani et al.2006）。

就我们的目的而言，我们遵循（Hu和Liu 2004）的范式，并使用POS标签来识别经常提及的名词和名词短语，我们认为这些名词和名词短语是候选产品特征。使用WordNet（Fellbaum 1998），我们将这些短语聚类为一组相似的名词和名词短语。在最后一步中，我们检查候选名词短语周围四个词的窗口中出现的词，以提取特定名词出现的“上下文”。根据上下文，我们使用分层凝聚聚类算法（Manning和Schütze，1999）将出现在相似语境中的名词短语进一步组合在一起。结果集群集合对应于客户评论中提及的一组已识别的产品特征。

由于自然语言的内在复杂性，迄今为止，没有文本挖掘技术被证明在人类特征提取方面效率很高，特别是在处理复杂结构（如隐式描述的产品特征）时。由于我们的文本挖掘技术的精确度和召回率可以直接影响我们计量经济分析所提取结果的质量（§3），因此考虑替代的半自动特征提取方法很重要。我们在下面的小节中对此进行描述。

A Crowdsourcing-Based Technique for Product Feature Identification

为了以可扩展但无噪音的方式提取产品功能，我们决定依靠“人力计算”技术，并采用半自动化的人工智能方法，而不是采用全自动方法。特别是，我们使用Amazon Mechanical Turk系统将特征提取分配分配给工作人员。Amazon Mechanical Turk是一个在线市场，用于自动执行需要人工干预的微任务（即不能使用数据挖掘工具完全自动化）。任务请求者发布市场上称为人类智能任务（HIT）的简单微任务。工作人员浏览已发布的微任务并执行它们以获得小额货币补偿。市场提供对任务执行的适当控制，例如验证提交的答案或将同一任务分配给几个不同的工作人员的能力。它还确保将任务分配给单一任务类型内的工作人员进行适当的随机化。

鉴于很难检查每个工作人员提交的工作质量，很明显的问题是这种众包技术是否可用于可靠的信息提取。其基本思想是让每个评论由多名工作人员检查，并让工作人员以自由文本的形式提取评论中描述的产品特征。如果两名工作人员从评价中提取相同的产品特征，我们认为答案可靠。von Ahn和Dabbish（2004）在ESP游戏中曾经使用过这种想法，取得了很高的成功率。

ESP游戏的目标是让多个用户通过让他们玩游戏来在网络上标记图像：两个彼此未知的玩家看到图像并输入相同的单词以进入下一个级别。如果他们输入相同的单词，他们会得到积分并继续下一个图像。标签结果的质量非常高，该游戏现已获得Google许可和使用（Google Image Labeler1）。

在Mechanical Turk，Snow等人的背景下。（2008）回顾了最近使用Mechanical Turk进行注释任务的研究工作，并评估了“Turkers”在各种自然语言处理任务中的准确性。他们的结论是，Mechanical Turk的非专家用户可以产生与专家产生的质量相当的结果，尤其是在使用多个Turker收集同一微任务的结果之后。盛等人。（2008）描述了如何有效地将任务分配给多个嘈杂的标签（例如Mechanical Turk上的那些标签），以生成与非噪声数据相比拟的结果。

在我们的工作中，我们使用类似的原则，并利用Mechanical Turk的员工来完成我们的任务。

为了确定这三类产品的重要特征，我们进行了一项小型试点研究。首先，对于每个产品类别，我们选择了50条评论的随机样本。对于每次审核，我们发布了一个HIT，要求用户确定审核中描述的产品功能并以自由文本格式报告; 每次审查都由三名独立工作人员处理。我们为每位员工支付每笔50美分的费用，并在几个小时内处理了这些文件。表1给出了我们数据集中每个产品类别的前20个热门功能的结果列表。

Table 1	Product Features Identified in Each Product Category
Digital cameras	“Auto shake”/image stabilization, battery life, design, ease of use, flash, LCD, lens, megapixels, picture quality, shooting modes/variety of settings, size, video quality, zoom
Camcorders	Battery life, ease of use, LCD, picture/image quality, weight/size, video quality, audio quality, digital effects/enhancements, support of different output formats

Empirical Comparison of Automated Text-Mining and Crowdsourcing-Based Approaches.

我们进行了一项额外的试点研究，以比较全自动化文本挖掘技术和基于众包技术的产品特征提取任务的性能（精度和召回率）。为了进行试点研究，我们使用了数码相机类别中排名前七位的最受欢迎的功能和摄像机类别中前四位最受欢迎的功能。此外，我们在每个产品类别中随机选择了一组100个产品评论。两位注释人员仔细处理了每个评论和每个产品功能，以确定功能是否在特定产品评论中得到评估。我们使用人类注释器的结果作为评估基于全自动技术和众包技术的特征提取性能的基准。表2和表3给出了相应的精度和召回值。正如我们所看到的，这两种技术都在特征提取任务上表现出出色的预测性能。

Table 2	Precision and Recall for the Digital Camera Data Set
Feature	Precision (automated)	Recall (automated)	Precision (crowdsourcing)	Recall (crowdsourcing)
Battery life	0.989	0.939	0.830	0.929
Design	0.760	0.974	0.816	0.782
Display	0.963	0.933	0.898	0.928
Ease of use	0.707	0.871	0.843	0.872
Picture quality	0.981	0.782	0.767	0.873
Size	0.741	0.927	0.787	0.894
Video quality	0.915	1.000	0.973	0.929

Table 3 Precision and Recall for the Camcorder Data Set

Feature	Precision (automated)	Recall (automated)	Precision (MTurk)	Recall (MTurk)
Ease of use	1.000	0.860	1.000	1.000
Picture quality	1.000	1.000	1.000	1.000
Size	0.832	0.911	0.950	0.890
Video quality	0.970	0.658	0.908	0.747

Identifying Customer Opinions

当然，确定产品特征本身不是最终目标。重要目标是了解客户对每个已识别产品功能的看法。因此，在确定产品功能后，我们需要确定用户对评论中嵌入的功能的看法。每个意见都是表达评论者对某个产品特征的质量水平的个人印象（通常基于先前的经验）的短语。之前的工作表明，在大多数情况下，消费者使用形容词，如“坏”，“好”和“惊人”来评估产品特征的质量（Turney and Littman 2003，Hu and Liu 2004）。一般来说，提取用户意见的过程可以是自动的。

遵循自动化方法，我们可以使用句法依赖分析器来选择引用名词或短语的形容词，这些名词或短语我们已经确定为产品功能。与单个POS标记器相反，使用语法分析器的一个优点是，句法分析器可以识别距实际产品特征“远”的意见。这种自动化工具会为每个评论生成一组名词短语，这些短语与评估中包含的产品功能对及其各自的评估对相对应。

正如在提取产品特征的情况下，除了全自动化工具之外，我们还考虑了用于提取观点短语的半自动众包方法。在半自动化方法中，我们使用Amazon Mechanical Turk来提取观点短语。我们向Mechanical Turk工作人员分发了评估，并要求两名工人处理每项评估。请注意，这与“标准编码”不同，因为我们没有相同的两名工作人员标记每个简单的数据。

相反，我们有数百名工作人员并行处理数据，为了保证质量，我们需要两名工作人员来审视每件作品。每个作业都包含单个产品的评论文本和上一步中标识的产品特征列表。工作人员负责彻底阅读评论，并提取评估给定列表中任何特征的意见短语。答案以自由文本格式返回，工作人员被要求不要更改原审查中使用的措词。在我们的实证研究中，Jaccard系数测量的interrter信度为34.27％也就是说，在所有案例的三分之一以上，处理同一审查的两名工作人员报告了特定产品功能的完全相同的评估短语。

Deriving the Pricing Power of Product Features by Mining Consumer Reviews

猜你喜欢