我要投稿

LangChain最新指南：高效构建AI应用的全流程解析

发布日期：2025-04-06 16:09:42 浏览次数： 1582 作者：AI应用案例库

LangChain 作为当前大语言模型（LLM）应用开发的事实标准框架，通过模块化设计与高效编排能力，让开发者快速实现数据增强生成、动态决策和复杂流程控制。以下是 LangChain 的核心功能与实战方法解析：

一、LangChain 核心定位

解决痛点：大模型落地难、数据处理复杂、多步骤逻辑难串联
核心价值：

模块化：像搭积木一样组合模型、数据与工具
高效编排：支持复杂任务流（如检索增强生成RAG、多工具协作）
生态丰富：集成主流模型+ 数据库（Chroma、FAISS）+ 工具（搜索、计算）

? 二、核心开发流程

Step 1：安装与环境配置

# 安装核心库+OpenAI扩展  
pip install -U langchain langchain-openai  langchain-community

# 密钥配置（推荐环境变量）  
import os
from dotenv import load_dotenv
from langchain_openai import ChatOpenAI
from langchain_openai import OpenAIEmbeddings
load_dotenv()

#读取项目下的.env文件
api_key = os.getenv('DEEPSEEK_API_KEY')
model = os.getenv('DEEPSEEK_MODEL')
base_url = os.getenv('DEEPSEEK_URL')

llm = ChatOpenAI(
    model=model,
    api_key=api_key,
    base_url=base_url
)

embeddings = OpenAIEmbeddings(
    model=os.getenv('SILICON_EMBEDDING_MODEL'),
    base_url=os.getenv('SILICON_EMBEDDING'),
    api_key = os.getenv('SILICON_API_KEY')
)

Step 2：选择你的武器库

模块	用途	推荐方案
模型调用	文本生成/对话/向量化	`ChatOpenAI` + `OpenAIEmbeddings`
流程编排	多步骤任务串联	LCEL表达式语言（管道式写法）
外部数据	文档问答/知识库增强	`Chroma` 向量库 + `RAG`链
智能决策	动态调用工具（搜索/计算）	智能体Agents

Step 3：核心代码实战

场景1：用LCEL构建问答链

from langchain_core.prompts import ChatPromptTemplate
from llm import llm

# 定义管道式工作流
chain = (
    ChatPromptTemplate.from_template("解释{term}的概念，用比喻手法：")
    | llm
    | (lambda x: x.content)  # 提取文本内容
)

print(chain.invoke({"term": "神经网络"})) 
# 输出：神经网络就像城市的交通网络，每个神经元是路口，权重是红绿灯...

场景2：智能体调用工具（搜索+计算）

from langchain.agents import AgentExecutor, create_tool_calling_agent
from langchain.tools import Tool
from llm import llm
from langchain_core.prompts import ChatPromptTemplate

# 自定义工具：计算字符串长度
defget_length(text: str) -> int:
    return len(text)

# 创建工具集
tools = [
    Tool(
        name="text_length",
        func=get_length,
        description="计算输入文本的字符数"
    )
]

# 构建智能体
agent = create_tool_calling_agent(
    llm=llm,
    tools=tools,
    prompt=ChatPromptTemplate.from_messages([
        ("system", "你是一个严谨的助手，必须使用工具回答问题"),
        ("human", "{input}"),
        ("placeholder", "{agent_scratchpad}")
    ])
)

# 执行任务
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)
result = agent_executor.invoke({"input": "'Hello World'有多少个字符？"})
print(result)

输出:
> Entering new AgentExecutor chain...

Invoking: `text_length` with `Hello World`


11“Hello World”有11个字符。

> Finished chain.
{'input': "'Hello World'有多少个字符？", 'output': '“Hello World”有11个字符。'}

Step 3：进阶实战：RAG知识库问答

from langchain_community.vectorstores import Chroma
from langchain_core.output_parsers import StrOutputParser
from langchain_community.document_loaders import WebBaseLoader
from langchain.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from llm import llm, embeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 1. 加载文档并分块
loader = WebBaseLoader("https://python.langchain.com/docs/concepts/structured_outputs/")
docs = loader.load()

text_splitter = RecursiveCharacterTextSplitter()
documents = text_splitter.split_documents(docs)


# 2. 向量化存储
vectorstore = Chroma.from_documents(documents, embeddings)

# 3. 构建RAG链
retriever = vectorstore.as_retriever()
rag_chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | ChatPromptTemplate.from_template("基于上下文回答问题：{question}\n上下文：{context}")
    | llm
    | StrOutputParser()
)

# 4. 提问
print(rag_chain.invoke("模型格式化输出有几种方式"))

输出:
根据上下文，模型格式化输出主要有以下几种方式：

1. **JSON模式（JSON Mode）**  
   - 部分模型提供商支持此功能，允许定义JSON Schema作为输入，并强制模型生成符合该结构的JSON输出。  
   - 示例：通过`with_structured_output(method="json_mode")`启用，输出可直接解析为JSON对象。

2. **工具调用（Tool Calling）**  
   - 将输出结构绑定为工具的Schema，模型通过调用工具确保响应符合预定义格式。  
   - 示例：使用`bind_tools([Schema])`绑定工具，解析工具调用的参数（如字典或Pydantic对象）。

3. **Pydantic模型**  
   - 利用Pydantic的强类型和验证功能定义结构化输出，适合复杂场景。  
   - 示例：定义`BaseModel`子类，通过`model_validate()`将工具调用的字典解析为Pydantic对象。

4. **LangChain辅助方法（`with_structured_output()`）**  
   - 封装了工具调用和JSON模式的复杂性，自动绑定Schema并解析输出。  
   - 适用于所有支持结构化输出的模型提供商。

**总结**：主要方式包括JSON模式、工具调用、Pydantic模型，以及LangChain提供的统一方法`with_structured_output()`。