本文是LLM系列文章,针对《EventChat: Implementation and user-centric evaluation of a large language model-driven conversational recommender system for exploring leisure events in an SME context.》的翻译。
EventChat:大型语言模型驱动的对话式推荐系统的实施和以用户为中心的评估,用于探索 SME 环境中的休闲活动。
摘要
大型语言模型 (LLM) 代表了对话式推荐系统 (CRS) 的战略潜力的巨大演变。然而,迄今为止,研究主要集中在实施 LLM 驱动的 CRS 的技术框架上,而不是最终用户评估或对公司的战略影响,特别是从构成全球经济基石的中小型企业 (SME) 的角度来看。在本文中,我们详细介绍了 SME 环境中 LLM 驱动的 CRS 的设计,以及使用客观系统指标和主观用户评估的后续现场表现。在此过程中,我们还概述了一个简短的修订版 ResQue 模型,用于评估 LLM 驱动的 CRS,从而在快速发展的领域中实现可复制性。我们的结果从用户体验的角度揭示了良好的系统性能(85.5% 的推荐准确率),但凸显了挑战业务可行性的延迟、成本和质量问题。值得注意的是,每次交互的中位成本为 0.04 美元,延迟为 5.7 秒,成本效益和响应时间成为为中小企业环境实现更加用户友好和经济可行的 LLM 驱动的 CRS 的关键