微信扫码
与创始人交个朋友
我要投稿
from transformers import pipeline
# 创建一个文本生成的 Pipeline
generator = pipeline("text-generation", model="gpt-2")
# 生成文本
result = generator("Hello, I am an AI model", max_length=50, num_return_sequences=3)
print(result)
from transformers import pipeline
# 创建一个填充掩码的 Pipeline
fill_mask = pipeline("fill-mask", model="bert-base-chinese")
# 执行中文补全
result = fill_mask("今天是一个[MASK]的日子")
print(result)
from transformers import AutoTokenizer, AutoModel
# 加载 BERT-Base-Chinese 的 Tokenizer 和 Model
tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
model = AutoModel.from_pretrained("bert-base-chinese")
# 编码文本inputs = tokenizer("你好,长沙!", return_tensors="pt")print(inputs)
# 编码多段文本texts = ["你好", "长沙"]inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt")print(inputs)
# 添加新 Tokennew_tokens = ["新词汇"]tokenizer.add_tokens(new_tokens)
# 添加特殊 Tokenspecial_tokens_dict = {'additional_special_tokens': ["[NEW_TOKEN]"]}tokenizer.add_special_tokens(special_tokens_dict)
# 保存 Tokenizer 和 Modeltokenizer.save_pretrained("./models/new-bert-base-chinese")model.save_pretrained("./models/new-bert-base-chinese")
保存模型时,会在指定路径下生成以下文件:
config.json:模型配置文件,包含模型结构参数。
pytorch_model.bin:模型权重文件,存储模型的权重数据。
保存分词器时,会生成以下文件:
tokenizer.json:分词器元数据文件。
special_tokens_map.json:特殊字符映射配置文件。
tokenizer_config.json:分词器基础配置文件。
vocab.txt:词表文件。
added_tokens.json:新增 Token 的配置文件。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-10-05
大模型开发的全景解析:如何找到最适合你的平台?
2024-10-05
推荐系统-重排序-阿里SRGA
2024-10-05
GPTs、扣子、Dify:为什么这些平台无法替代大模型开发技能?
2024-10-05
ChatGPT从今天开始,Plus 和Team 用户可以通过在模型选择器中选择“GPT-4o with canvas”
2024-10-03
OpenAI革新性功能:"Prompt Caching"—— 提速降本的双赢之选
2024-10-02
OpenAI开发者日:实时API、模型蒸馏、视觉微调重磅发布!
2024-10-02
OpenAI DevDay公布五项重大创新,AI实时语音的时代来了!成本比GPT-3降低近1000倍!
2024-09-30
Word Embedding揭秘:如何用词嵌入提升NLP模型表现
2024-07-11
2024-07-09
2024-07-11
2024-06-11
2024-09-18
2024-07-23
2024-07-09
2024-07-20
2024-07-12
2024-07-11