tokenizer.encode和tokenizer.tokenize

2021-04-29 14:02:52 阅读：358 来源： 互联网

标签：tokenizer outputs print tokenize encode output model sen

一个是返回token，一个是返回其在字典中的id，如下

def bert_():
    model_name = 'bert-base-chinese'
    MODEL_PATH = 'D:/xhzy-work/PURE/models/bert-base-chinese/'

    # a.通过词典导入分词器
    tokenizer = BertTokenizer.from_pretrained(model_name)
    # b. 导入配置文件
    model_config = BertConfig.from_pretrained(model_name)
    # 修改配置
    model_config.output_hidden_states = True
    model_config.output_attentions = True
    # 通过配置和路径导入模型
    bert_model = BertModel.from_pretrained(MODEL_PATH, config=model_config)
    #sen_code = tokenizer.encode_plus('我不喜欢这世界', '我只喜欢你')
    sen_code = tokenizer.encode("自然语")
    print("sen_code",sen_code)
    sen_code0=tokenizer.tokenize("自然语")
    print("sen_code0", sen_code0)

    # input_ids = torch.tensor(tokenizer.encode("自然语")).unsqueeze(0)
    # print("input_ids",input_ids)
    # outputs = bert_model(input_ids)
    # print("outputs",outputs)
    # sequence_output = outputs[0]
    # pooled_output = outputs[1]
    # print("outputs",outputs)
    # print("sequence_output",sequence_output.shape)  ## 字向量
    # print("pooled_output",pooled_output.shape)  ## 句向量
    # print('tokenizer.cls_token',tokenizer.cls_token)


if __name__ == '__main__':
    bert_()

标签：tokenizer,outputs,print,tokenize,encode,output,model,sen
来源： https://www.cnblogs.com/liuxiangyan/p/14717689.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

tokenizer.encode和tokenizer.tokenize