摘要
网络时间线分析或取证时间线分析在数字取证和事件响应 (DFIR) 调查中至关重要。它涉及检查伪影和事件(尤其是它们的时间戳和相关元数据),以检测异常、建立相关性并重建事件的详细序列。传统方法依赖于处理结构化工件,例如日志和文件系统元数据,使用多种专用工具进行证据识别、特征提取和时间线重建。本文介绍了一个创新框架 GenDFIR,这是一种由大型语言模型 (LLM) 功能提供支持的特定于上下文的方法。具体来说,它建议在零镜头中使用 Llama 3.1 8B,选择它是因为它能够理解网络威胁的细微差别,并与检索增强一代 (RAG) 代理集成。我们的方法包括两个主要阶段:(1) 数据预处理和结构化:以文本数据表示的事件事件被转换为结构良好的文档,形成事件的综合知识库。(2) 上下文检索和语义丰富:RAG 代理根据用户提示从知识库中检索相关事件事件。LLM 处理检索到的相关上下文,从而实现详细的解释和语义增强。拟议的框架在受控环境中的合成网络事件上进行了测试,使用 DFIR 定制的、特定于上下文的指标评估结果,旨在评估框架的性能、可靠性和稳健性,并得到人工评估的支持,以验证结果的准确性和可靠性。我们的研究结果表明,LLM 在推进网络事件时间线分析自动化方面具有实际力量,这是 DFIR 的一个子领域。这项研究还强调了生成式 AI(尤其是 LLM)的潜力,并为高级威胁检测和事件重建开辟了新的可能性。
1. 引言
近年来,网络事件显著增加,原因是暴露的漏洞影响了广泛的数字设备,如计算机、物联网设备、网络硬件(包括路由器、交换机和 IDS)和嵌入式系统。网络事件发生后,会进行 DFIR 调查以揭示攻击的复杂性 [1]。这个过程从收集数字文物开始,然后提取可靠的证据,最后确定事件的根本原因。这项调查的一个重要方面是时间线分析,其重点是检查事件的时间序列和时间顺序。这涉及识别异常和可疑模式,以重建整个事件的综合时间线 [2]。
由于收集的数据量庞大且异质性,时间线分析过程传统上非常耗时,需要多种专用工具。
DFIR 领域正在见证向技术自动化的显着转变,最近的统计数据表明,40% 的从业者已将自动化系统集成到他们的证据处理和分析工作流程中。在这一趋势中,AI 集成获得了特别的动力,五分之一的专业人士在其运营中采用了 AI 驱动的解决方案 [3]。然而,该行业的现代化仍未完成,因为很大一部分组织继续依赖传统方法,例如纸质调查程序和基本数字工具。这些传统做法导致运营效率低下,调查人员每个案件平均花费 45 小时进行数字证据检查。52% 的从业者进一步强调了这一必要性,他们发现迫切需要更先进的工具来提高工作流程效率和加快调查过程 [4]。
数字伪影分析作为时间线分析的第一步,通常使用 Velociraptor [5]、FTK [6]、EnCase [7]、Dissect [8] 等工具进行。这些工具处理结构化数据,例如日志和文件系统元数据,以从许多事件中提取相关且可靠的证据。
在此之后,事件被重建以产生一个连贯的时间线,为事件提供上下文和意义。在这个阶段,Timesketch [9] 和 Log2Timeline (Plaso) [10] 等专业工具被广泛使用,因为它们有助于时间线的重建和可视化,简化活动的关联并增强事件的可解释性。例如,Splunk [11] 代表了一个高级平台,它提供由 AI 和 ML 提供支持的功能,以协助检测异常、识别大型数据集中的异常模式,并为事件调查提供深入的见解 [12]。正如文献所证明的那样,除了利用人工智能实现自动化的工具外,还引入了其他研究方法和推进时间线分析的方法 [13,14,15]。
最近,大型语言模型 (LLM) 等生成式 AI 模型 (GenAI) 已成为一股变革力量,超越了传统的 AI 解决方案。这些模型已集成并用于各个领域、流程和任务,并且还被提议用于自动化数字取证、事件响应和网络安全的各个方面。
LLM,包括 GPT [16]、Llama [17] 和 Claude [18],擅长处理数据、检测异常和生成自然语言解释,这使得它们在协助 DFIR 伪影分析方面很有价值。但是,它们对网络事件时间线分析的直接应用仍未得到解决。此外,根据 DFIR 标准实践,传统工具仍然是管理结构化工件(如日志、文件系统元数据和二进制数据)的首选。
尽管前景广阔,但 LLM 仍面临幻觉 [19]、记忆限制 [20] 和特定背景知识差距等挑战。检索增强生成 (RAG) 等创新通过集成外部知识库来解决这些限制,从而提高 LLM 输出的上下文准确性和可靠性 [21]。此外,它们的有效性可以通过及时工程[22]进一步提高,特别是在基于解码器的模型中[23],以及部署特定任务的代理。
研究问题
根据时间线分析的定义以及 DFIR 实践中存在的工具和技术,当前方法面临许多限制。例如,现有解决方案通常会在没有足够语义上下文的情况下呈现最终时间线,其中仅关联事件的时间戳。此外,使用多个分析工具和其他专用于事件关联的工具会使该过程复杂化。另一个挑战在于难以发现并成功提取可能支持有关事件及其根本原因的说法的证据。虽然 GenAI 的进步,尤其是 LLM,以及 RAG 等技术,通过外部知识增强 LLM,为解决这些限制提供了有希望的潜力,但它们在 DFIR 时间线分析中的应用仍未得到充分探索。本研究旨在回答以下研究问题:
-
RQ1:如何利用 LLM 和 RAG 来增强当前网络事件时间线分析的自动化?
-
RQ2:由 RAG 和 LLM 驱动的框架如何通过无缝集成人工制品分析和事件关联来推进事件时间线分析?
-
RQ3:如何优化框架,为 DFIR 调查生成可靠、全面且语义丰富的时间表?
本文的组织方式如下,以解决研究问题:第 1 部分介绍了 DFIR 和 LLM 领域,建立了对它们核心方面的基本理解。第 2 节扩展了这些细节,提供了更深入的见解和与本研究相关的定制定义。然后,我们回顾相关作品和文献,以建立坚实的基础并采用其他观点。第 3 节描述了我们框架的方法,包括其主要功能。第 4 节讨论了使用合成场景实现和测试 GenDFIR。第 5 节涉及通过 GenDFIR 生成的结果和输出。由于生成的报告篇幅较大,论文的附录 A 中只展示了一种情景。本部分还评估了框架的可靠性、功能性和有效性,以评估其性能。第 6 节考虑了开发和部署此框架的局限性和道德方面,以及它在现实世界 DFIR 场景中扩展和采用的潜力。最后,第 7 节通过强调其新颖性及其在该领域的集成和应用潜力来结束本文。
2. 研究背景及相关工作
拟议的 GenDFIR 框架结合了不同的技术,以利用生成式 AI 来自动化 DFIR 任务。为了明确 RAG 和 LLM 在网络事件时间线分析中的应用,本节定义了基本概念并讨论了相关工作。一些定义已被调整以适应本研究的特定背景。
2.1. DFIR 中的时间线分析
数字伪影:文献中没有对该术语的正式或确切定义 [24]。然而,在 DFIR 领域内,人工制品通常被描述为经过处理并从数字设备中收集和提取的相关数据。例如,在作系统 (OS) 取证中,这些伪影可能包括文件系统、作系统可执行文件、网络活动、Internet 历史记录、缓存和其他相关数据。
网络事件事件和异常:事件是指可能危及或更改系统安全状态的作。在网络事件的背景下,此类行为旨在违反系统的安全策略 [25]。异常是指行为上与数据集中既定规范或预期模式不同的偏差。在网络事件的背景下,异常通常表示与系统预期正常行为的偏差 [26]。例如,在 Windows 事件日志中,这可能包括异常的登录尝试、不规则的应用程序活动或系统配置的意外更改。
DFIR:是一个包含两个基本流程的术语:数字取证 (DF) 和事件响应 (IR)。
-
DF 涉及数字证据的管理和分析,从最初的发现到在法律背景下的呈现。这个过程包括证据的识别、收集和分析,其中一个关键组成部分是时间线分析。时间线分析在 DF 中是必不可少的,因为它通过建立动作的时间顺序来帮助重建事件的顺序,这对于发现关键细节和了解事件的流程至关重要。
-
红外:另一方面,是指组织为检测、管理和缓解网络事件而遵循的一系列行动和程序。它通常从准备开始,然后是检测,其中时间线分析在了解事件顺序和确定事件范围方面也发挥着作用。在分析阶段,建立按时间顺序排列的行动有助于评估事件的进展情况。该过程将继续进行遏制、根除、恢复和事件后活动,其中来自时间线分析的见解可以指导决策并帮助评估响应的有效性。
DF 在 IR 中起着至关重要的作用,提供深入的技术分析以支持整个过程。DF 有助于识别事件的根本原因,检测隐藏的访问点,并发现恶意活动。DF 主要关注事件的技术方面,而 IR 则涉及更广泛的范围,包括遏制、漏洞修复以及管理技术和组织要素。
DF 和 IR 共同在解决网络事件方面相辅相成。例如,虽然 IR 可能在处理法律和监管方面遇到困难,但 DF 通过确保正确收集和提交证据,在这一领域表现出色。因此,时间线分析不仅单独支持每个流程,还加强了它们之间有效响应事件的协作 [2]。
时间线分析涉及一系列子活动的存在,以构建网络事件的连贯时间线。文献中的许多研究都集中在单个任务上,例如人工制品分析、异常检测、事件关联或孤立的时间线重建,其中一些结合了基于 AI 的现代解决方案。不幸的是,很少有作品涉及时间线分析所有组成部分的集成,尤其是强调自动化。表 1 介绍了与完整/部分时间线分析自动化领域相关的重要工作。
表 1.DFIR 时间线分析。
Table 1. DFIR timeline analysis.
Finding | Approach | Overview |
---|---|---|
Tool: Eric Zimmerman’s tools [27] | Processing various types of data, including event logs, registry entries, and metadata, to provide detailed insights into incidents. | Beyond the tools discussed earlier, others, [27], have gained recognition for their capabilities in performing timeline analysis at a deterministic forensic level. However, they are not AI-based and lack automation, relying heavily on the expertise of the analyst or investigator. |
Study: Chabot et al., 2014 [28] | Data are collected from various sources and analysed using tools like Zeitline and log2timeline. The FORE system manages events, semantic processing converts data into knowledge, and algorithms correlate events. Graphical visualisations then illustrate event sequences, relationships, and patterns, enhancing the clarity and interpretability of the data insights. | This contribution proposes a systematic, multilayered framework focusing on semantic enrichment to tackle challenges in timeline analysis. This approach not only automates timeline analysis but also delivers semantically enriched representations of incident events. However, one apparent limitation is the reliance on multiple standalone tools, which may complicate the workflow. |
Study: Bhandari et al., 2020 [29] | Techniques that primarily involve managing, organising, and structuring temporal artefacts into a more comprehensible timeline. Log2timeline is utilised to extract timestamps from disk image files, while Psort processes the output to further handle the temporal artefacts and generate the final timeline. | A new approach that addresses the complexities and challenges of understanding generated temporal artefacts using abstraction techniques. Artefact analysis is performed manually; although it claims to manage the textual nature of events and produces easily interpretable results, it still relies on manual intervention for analysis. |
Study: Christopher et al., 2012 [30] | Achieved by proposing the use of analyser plugins to conduct detailed analysis on raw, low-level events. These plugins extracted relevant data and aggregated it into high-level events. They then used Bayesian networks to correlate and link these high-level events by performing probabilistic inference. | The study focuses on automating event reconstruction and generating a human-understandable timeline. The main advantage of this approach is its ability to successfully handle and process large volumes of data, as well as produce an interpretable timeline. |
2.2. 大型语言模型
LLM 是 GenAI 的高级模型,旨在理解和生成人类语言。他们可以预测单词序列并根据输入数据生成新文本。LLM 以其庞大的训练数据集和复杂的架构而著称,它超越了模仿人类的创造力。它们通过提高生产力和自动化传统上需要人类聪明才智的复杂任务,在各个领域发挥着变革性作用 [31]。但是,必须牢记一个关键区别,因为已经引入了各种类型的 LLM,每种 LLM 都针对特定任务进行了优化。例如,请考虑以下内容。
基于解码器的模型(如 GPT、LLaMA、Mistral 和 Microsoft Phi)在文本生成方面表现出色,其中输出基于用户输入和初始提示。
-
Prompt Engineering 是一门巧妙地制作和设计提示以最大限度地发挥模型功能的艺术和科学。在时间线分析的背景下,这包括战略性地构建输入,指定技术细节,并建立调查背景,以根据其精确和有意义的定义来完善模型的输出[23]。例如,DFIR 分析师可能会提示系统,如下所示:“进行人工制品分析,关联事件,并重建事件的连贯时间线。这种方法旨在确保 LLM 理解上下文,遵守特定的 DFIR 时间线分析约束,并实现调查和分析的预期目标。
这些模型使用自回归解码器架构,一次生成一个 token,并根据前一个 token 预测下一个 token。
-
令 牌:在 LLM 中,标记表示字符、单词、子词、符号或数字 [23]。但是,在时间线分析中,令牌可以表示如下:
-
A non-tokenised Windows event log, see Figure 1:
-
图 1.Windows 事件日志示例。
-
标记化表单(使用 text-embedding-ada-002—外部嵌入模型),参见图 2:
-
图 2.Text-embedding-ada-002 - Windows 事件日志嵌入 (Hugging Face Tokeniser [32])。
-
标记化形式(使用 GPT3 内部嵌入模型),参见图 3:
-
图 3.GPT3 嵌入 - Windows 事件日志嵌入 (Hugging Face Tokeniser [32])。
-
这个过程发生在分词化阶段,这是 LLM 架构的一部分。使用的具体标记化和嵌入方法取决于模型是依赖于其内部系统还是集成外部嵌入模型。此外,每个模型都根据其标记化和嵌入技术产生不同的输出[23]。
-
嵌入是将文本转换为数字表示的过程,通常采用张量的形式,适用于 LLM。它从标记化开始,其中文本中的单词或字符被转换为标记,表示单个单位。然后,这些标记被映射到捕获其语义表示的数值。随后,应用其他图层转换和处理以进一步优化这些表示。最终输出是一个密集向量,其中每个值对应于文本的一个特定特征 [33]。
这使得它们特别适合于生成连贯且上下文相关的文本以响应用户查询 [34]。
基于编码器的模型(如 BERT)在分类和情感分析等任务中表现出色,它们通常用于文本分类和情感检测等应用。在这些模型中,输出仅根据输入中存在的信息生成,而不依赖于外部上下文或以前的输出。
T5 和 BART 等编码器-解码器模型在文本翻译和摘要以及语音识别和图像识别等任务中表现出色。这种模型的输出基于输入和上下文,其中输出是输入的转换版本 [35]。
在网络安全和 DFIR 领域,已经进行了多项研究,并提出了将 LLM 集成到各种应用程序的方法,如表 2 所示:
根据现有的发现,本研究范围内使用最广泛的最先进模型是 GPT 和 Llama。在这项研究中 [36],研究人员披露了 Llama 3.1 在执行高级网络安全任务方面的能力,这些任务基于公开验证的数据(包括网络安全相关内容)进行训练。一个重要的考虑因素是新 CYBERSECEVAL 3 套件的基准测试,以衡量网络安全风险和功能。该模型可以高精度地识别和识别网络威