用通用人工智能和眼动追踪技术赋能无障碍解决方案

关键字: [Amazon Web Services re:Invent 2023, Amazon Rekognition, Generative Ai, Eye Gaze Detection, Accessible Solutions, Inclusion, Disabled People]

本文字数: 1100, 阅读完需: 6 分钟

视频

如视频不能正常播放，请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV16e411b71N

导读

探索如何利用生成式AI和智能UI技术为言语障碍人士开发赋权解决方案。通过整合眼动追踪技术,可以准确判断用户意图,并将其转化为语音或文字,从而创建一个直观且个性化的交流系统,能够适应每个用户独特的需求。这些输出结果可以输入到机器学习模型中,以探索文本和图像生成式AI技术的潜力,实时分析和解释用户输入,并通过生成情景文本和图像进行交流响应。在现场演示中深入探讨参考架构。

演讲精华

以下是小编为您整理的本次演讲的精华，共800字，阅读时间大约是4分钟。如果您想进一步了解演讲内容或者观看演讲全文，请观看演讲完整视频或者下面的演讲原文。

Amazon Web Technology的专业解决方案架构师Amir Ravi在演讲开始时分享道，许多公司正考虑对其现有应用程序进行现代化改造，以便充分利用生成性人工智能的潜力。这些目标通常是为了改善用户体验，为客户提供更优质的产品。然而，在尝试采用新技术趋势并在技术上遵循道德规范的过程中，公司可能会面临一些挑战。

据Ravi介绍，他将展示一个独特的用例，即通过结合生成性AI和眼球追踪技术来构建和驱动无障碍解决方案。他邀请观众参加他的演讲，并对他们的到来表示感谢。

根据英国国家统计局的数据，2020年有超过1100万残疾人使用互联网。因此，Ravi展示的这个用例旨在开发一个能够帮助残疾人的解决方案，使他们能够通过观看屏幕与生成性AI应用互动。这样，AI将更具包容性，使残疾人也能够享受到技术的优势。

Ravi表示，他将展示一个应用程序，展示如何在亚马逊云科技上通过结合传统的机器学习和新的AI服务来构建包容性的解决方案。在演示该应用程序之后，他将深入探讨其架构，解释所有组件是如何共同工作的。最后，他将讨论亚马逊云科技如何帮助企业构建自己的无障碍和包容性解决方案。

演讲者透露，这个项目对他个人具有重要意义。他讲述了一个关于他的朋友大卫的故事。大卫是一名轮椅用户，患有言语障碍和有限的移动能力。尽管如此，他仍然是一个非常出色的人，尤其擅长讲幽默的体育团队故事。这在大卫和Ravi之间建立了一种特殊的联系。大卫还是一名出色的SQL开发者，他使用语音辅助技术编写代码。尽管这项技术对大卫的工作有所帮助，但Ravi注意到它仍然存在错误、容易出错的问题，且在可访问性方面表现不佳。这一经历对Ravi产生了很大的影响。

受大卫的经历启发，拉维开始着手构建一个概念验证式的包容性应用。他在2022年5月了解到，Amazon Rekognition发布了升级，支持实时眼球追踪功能。拉维认为，这一功能可能有助于改善大卫的生活质量，使他能够通过眼动来控制屏幕。这将使得眼球成为人与计算机之间主要的沟通方式。此外，拉维还致力于推广生成式人工智能，以便更好地满足残疾用户的需求。

拉维进一步解释了Amazon Rekognition作为视觉机器学习服务的工作原理，可用于音频和视频分析。它可以识别人脸、物体、场景、活动、不合适的内容以及在此案例中关键的眼睛方向。眼睛方向属性提供了x和y轴值，范围从-180到180，表示眼动。同时，它还提供了一个0-100之间的置信度分数，代表了准确性。

随后，拉维展示了一个名为“IGAI - Eye Gaze Express with Generative AI”的应用程序。这个4分钟的应用程序演示完全由拉维的眼动控制。选项在被注视时会突出显示。凝视2-3秒以进行选择，从而促使生成式人工智能生成相关文本。从文本中提取的关键信息以大框的形式显示。注视某个盒子会提供更多关于该洞察的信息。

拉维总结道，摄像头拍摄的照片作为序列发送给Rekognition，以追踪目光位置。这驱动使用SageMaker端点生成文本。然后，Comprehend从生成的文本中提取关键洞察。

他接着展示了如何使用Amazon Rekognition确定屏幕上的注视点。图片通过Lambda和API Gateway发送到Rekognition。目光位置创建一个提示，发送到SageMaker生成文本,然后通过Lambda和API Gateway返回。最后，Comprehend从生成的文本中提取关键洞察。

拉维强调，只有五个亚马逊云科技服务（Rekognition、SageMaker、Comprehend、Lambda和API Gateway）为后台提供动力，这使得整个过程非常简单。虽然他也承认在前端进行目光定位方面遇到了一些挑战，但简单性和毅力最终取得了胜利。

总的来说，Ravi深感荣幸且快乐，能够向众人展示这个充满个人意义的创新项目。这个项目通过运用眼球追踪技术和生成文本，提供了一种可访问的人工智能解决方案。他强调了亚马逊云科技的众多AI服务是如何相互融合的，实现了简单易行的实践方式，并推动了无障碍功能的发展，从而创造了这个独特的应用。Ravi乐于与任何希望构建类似包容性解决方案的人分享他的经验与挑战。

下面是一些演讲现场的精彩瞬间：

确保保留原文中的所有信息：我会仔细审阅原文，确保其中的所有内容都被正确地表达和理解。

确保文章是第三人称，不要使用第一人称：我会将所有的“我”替换为“作者”或其他合适的代词，以确保文章以第三人称的角度进行描述。

确保文章的格式和原文一致：我会保持原文的格式和结构，以便读者能够轻松地理解和跟随。

保留原文中的全大写的英文单词：我会保留原文中所有大写的英文单词，以保持原文的风格和语气。

总结

阿米尔·拉维，作为亚马逊云科技的解决方案架构师，展示了一个独特的使用案例，探讨了如何运用生成性人工智能和目光检测技术来构建无障碍解决方案。这个目标是为了帮助残疾人通过与AI驱动的应用程序互动来查看屏幕。

在演示过程中，应用使用了Amazon Rekognition实时追踪用户的目光位置，并通过x和y值确定用户关注屏幕上的区域。这些信息会被发送给亚马逊云科技的Lambda服务，它将进一步调用SageMaker上的Falcon 7B生成性人工智能模型，根据提示生成文本。接着，Amazon Comprehend将从生成的文本中提取关键见解。

这个后台系统采用了简化的架构，仅仅依赖于五个亚马逊云科技的服务：Rekognition、SageMaker、Comprehend、Lambda和API Gateway。尽管结构简单，但将后台数据映射到前端屏幕仍然具有挑战性。然而，拉维成功地创建了一个包容性的概念验证，使得生成性人工智能变得更加易于访问。

拉维的目标是先推广包容性，然后再推广多样性。他的残疾朋友大卫在使用现有语音技术时所遇到的困难激发了拉维的灵感。他希望这个应用能够让每个人都可以享受到AI的好处。他愿意分享自己的经验，以帮助其他人踏上这段旅程。

演讲原文

https://blog.csdn.net/just2gooo/article/details/135120136

想了解更多精彩完整内容吗？立即访问re:Invent 官网中文网站！

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处，一键查看 re:Invent 2023 所有热门发布

即刻注册亚马逊云科技账户，开启云端之旅！

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁？

亚马逊云科技（Amazon Web Services）是全球云计算的开创者和引领者，自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务，涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体，以及应用开发、部署与管理等方面；基础设施遍及 31 个地理区域的 99 个可用区，并计划新建 4 个区域和 12 个可用区。全球数百万客户，从初创公司、中小企业，到大型企业和政府机构都信赖亚马逊云科技，通过亚马逊云科技的服务强化其基础设施，提高敏捷性，降低成本，加快创新，提升竞争力，实现业务成长和成功。