ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

label studio导出CoNLL格式后处理数据

2022-05-19 23:35:09  阅读:208  来源: 互联网

标签:CoNLL reline replace studio file -_ label 标注


一、label studio使用

     最近在做命名实体识别的东西,需要进行数据标注,一开始用的doccano。doccano的启动需要开启两个终端,一个是打开webserver的端口,另一个是任务队列,稍微比较麻烦;另外用doccano标注时的体验不是很顺手,所以就转而使用label studio了。

  我参考了这位“农民工”同学的博客:命名实体识别(NER)标注神器——Label Studio 简单使用_PeasantWorker的博客-CSDN博客_命名实体识别标注工具

二、CoNLL格式数据的处理

  标注完update然后export为CoNLL格式的文件,打开后发现标签带有‘-X-_’:

  

 

   于是用了replace函数的替换效果来删除字符串,注意路径里的斜杠,之前遇到过报错。一开始想直接替换'-X-_'四个字符没成功,就分两步删除了。

path = "D:/.../pro.CONLL"
lineList =[]
file = open(path, "r", encoding='utf-8') # 以只读模式读取文件
while 1:
line = file.readline()
if not line:
print("End or Error.")
break
reline = line.replace('-X-','')
# reline = reline.replace('-X-_','')
reline = reline.replace('_','')

lineList.append(reline)

file.close()
file = open(r'D:/.../testDel.txt','w', encoding='utf-8')
for i in lineList:
file.write(i)
file.close()

标签:CoNLL,reline,replace,studio,file,-_,label,标注
来源: https://www.cnblogs.com/beansteinsgate/p/16290697.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有