微信扫码
与创始人交个朋友
我要投稿
from transformers import pipeline
# 创建一个文本生成的 Pipeline
generator = pipeline("text-generation", model="gpt-2")
# 生成文本
result = generator("Hello, I am an AI model", max_length=50, num_return_sequences=3)
print(result)
from transformers import pipeline
# 创建一个填充掩码的 Pipeline
fill_mask = pipeline("fill-mask", model="bert-base-chinese")
# 执行中文补全
result = fill_mask("今天是一个[MASK]的日子")
print(result)
from transformers import AutoTokenizer, AutoModel
# 加载 BERT-Base-Chinese 的 Tokenizer 和 Model
tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
model = AutoModel.from_pretrained("bert-base-chinese")
# 编码文本inputs = tokenizer("你好,长沙!", return_tensors="pt")print(inputs)
# 编码多段文本texts = ["你好", "长沙"]inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt")print(inputs)
# 添加新 Tokennew_tokens = ["新词汇"]tokenizer.add_tokens(new_tokens)
# 添加特殊 Tokenspecial_tokens_dict = {'additional_special_tokens': ["[NEW_TOKEN]"]}tokenizer.add_special_tokens(special_tokens_dict)
# 保存 Tokenizer 和 Modeltokenizer.save_pretrained("./models/new-bert-base-chinese")model.save_pretrained("./models/new-bert-base-chinese")
保存模型时,会在指定路径下生成以下文件:
config.json:模型配置文件,包含模型结构参数。
pytorch_model.bin:模型权重文件,存储模型的权重数据。
保存分词器时,会生成以下文件:
tokenizer.json:分词器元数据文件。
special_tokens_map.json:特殊字符映射配置文件。
tokenizer_config.json:分词器基础配置文件。
vocab.txt:词表文件。
added_tokens.json:新增 Token 的配置文件。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-07
10分钟让WPS接入DeepSeek,实现AI赋能
2025-02-07
“李飞飞团队50美元复刻DeepSeek R1”之辨
2025-02-07
DeepSeek V3:AI领域的全新突破,性能与效率双重飞跃
2025-02-06
完整的671B R1塞进本地,详尽教程来了!
2025-02-06
【DeepSeek x 飞书】在飞书智能伙伴搭建平台上用 DeepSeek 模型
2025-02-06
DeepSeek大模型本地部署全攻略:从工具选择到可视化操作
2025-02-06
Llama3.3
2025-02-06
3步,0代码!一键部署DeepSeek-V3、DeepSeek-R1
2024-09-18
2025-02-04
2024-07-11
2024-07-11
2024-07-26
2024-07-09
2025-02-04
2024-12-29
2024-06-11
2025-01-27