微信扫码
与创始人交个朋友
我要投稿
from transformers import pipeline
# 创建一个文本生成的 Pipeline
generator = pipeline("text-generation", model="gpt-2")
# 生成文本
result = generator("Hello, I am an AI model", max_length=50, num_return_sequences=3)
print(result)
from transformers import pipeline
# 创建一个填充掩码的 Pipeline
fill_mask = pipeline("fill-mask", model="bert-base-chinese")
# 执行中文补全
result = fill_mask("今天是一个[MASK]的日子")
print(result)
from transformers import AutoTokenizer, AutoModel
# 加载 BERT-Base-Chinese 的 Tokenizer 和 Model
tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
model = AutoModel.from_pretrained("bert-base-chinese")
# 编码文本inputs = tokenizer("你好,长沙!", return_tensors="pt")print(inputs)
# 编码多段文本texts = ["你好", "长沙"]inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt")print(inputs)
# 添加新 Tokennew_tokens = ["新词汇"]tokenizer.add_tokens(new_tokens)
# 添加特殊 Tokenspecial_tokens_dict = {'additional_special_tokens': ["[NEW_TOKEN]"]}tokenizer.add_special_tokens(special_tokens_dict)
# 保存 Tokenizer 和 Modeltokenizer.save_pretrained("./models/new-bert-base-chinese")model.save_pretrained("./models/new-bert-base-chinese")
保存模型时,会在指定路径下生成以下文件:
config.json:模型配置文件,包含模型结构参数。
pytorch_model.bin:模型权重文件,存储模型的权重数据。
保存分词器时,会生成以下文件:
tokenizer.json:分词器元数据文件。
special_tokens_map.json:特殊字符映射配置文件。
tokenizer_config.json:分词器基础配置文件。
vocab.txt:词表文件。
added_tokens.json:新增 Token 的配置文件。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-26
新型LLM优化技术削减内存成本高达75%
2024-12-26
AI模型训练到底在训练什么?
2024-12-25
Cursor小白必看:听说你还在安装配置环境?学会这个让你告别环境烦恼!
2024-12-25
微软变脸OpenAI,模型价值之争压不住了?
2024-12-25
GPT-5 研发一年半进度堪忧!每轮 5 亿美金训练成本打水漂,还得雇人从头“造数据”
2024-12-25
基于昇腾910B,使用XTuner微调一个InternLM个人小助手丨玩转书生大模型
2024-12-25
BERT新版本:ModernBERT -- Smarter, Better, Faster, Longer
2024-12-25
Cursor 0.44 重磅更新:全面提升 Agent 能力
2024-09-18
2024-07-11
2024-07-11
2024-07-09
2024-06-11
2024-10-20
2024-07-23
2024-07-26
2024-07-20
2024-07-12