文章目录
使用langgraph构建一个智能文档检索系统。该系统能够从网页中提取信息,进行智能分段,并通过查询分析、向量检索实现精准的问答功能。
1 文档处理
1.1 网页内容加载
安装pip install beautifulsoup4。
WebBaseLoader是LangChain提供的一个强大的网页内容加载器,然后对获取到的内容进行处理,提取关心的信息。
(1)使用WebBaseLoader获取内容
from bs4 import BeautifulSoup
from langchain_community.document_loaders import WebBaseLoader
url = "https://gitee.com/anydev/awesome-python-cn/blob/master/README.m