ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

人工智能Java SDK:句向量提取【支持15种语言】

2021-10-31 10:07:57  阅读:222  来源: 互联网

标签:INFO ... Java 15 input embeddings 文本 向量 SDK


句向量SDK【支持15种语言】

句向量是指将语句映射至固定维度的实数向量。
将不定长的句子用定长的向量表示,为NLP下游任务提供服务。
支持 15 种语言:
Arabic, Chinese, Dutch, English, French, German, Italian, Korean, Polish, Portuguese, Russian, Spanish, Turkish.

  • 句向量
    img

句向量应用:

  • 语义搜索,通过句向量相似性,检索语料库中与query最匹配的文本
  • 文本聚类,文本转为定长向量,通过聚类模型可无监督聚集相似文本
  • 文本分类,表示成句向量,直接用简单分类器即训练文本分类器

SDK功能:

  • 句向量提取
  • 相似度(余弦)计算

运行例子 - SentenceEncoderExample

运行成功后,命令行应该看到下面的信息:

...
# 测试语句:
# 英文一组
[INFO ] - input Sentence1: This model generates embeddings for input sentence
[INFO ] - input Sentence2: This model generates embeddings

# 中文一组
[INFO ] - input Sentence3: 今天天气不错
[INFO ] - input Sentence4: 今天风和日丽

# 向量维度:
[INFO ] - Vector dimensions: 512

# 英文 - 生成向量:
[INFO ] - Sentence1 embeddings: [-0.07397884, 0.023079528, ..., -0.028247012, -0.08646198]
[INFO ] - Sentence2 embeddings: [-0.084004365, -0.021871908, ..., -0.039803937, -0.090846084]

#计算英文相似度:
[INFO ] - 英文 Similarity: 0.77445346

# 中文 - 生成向量:
[INFO ] - Sentence1 embeddings: [0.012180057, -0.035749275, ..., 0.0208446, -0.048238125]
[INFO ] - Sentence2 embeddings: [0.016560446, -0.03528302, ..., 0.023508975, -0.046362665]

#计算中文相似度:
[INFO ] - 中文 Similarity: 0.9972926

目录:

http://www.aias.top/

Git地址:

https://github.com/mymagicpower/AIAS
https://gitee.com/mymagicpower/AIAS

标签:INFO,...,Java,15,input,embeddings,文本,向量,SDK
来源: https://blog.csdn.net/weixin_39355136/article/details/121060509

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有