python – 基于键组合JSON值

2019-08-31 12:56:19 阅读：113 来源： 互联网

我正在研究Python 2.6.6,我正在努力解决一个问题.

我有一个大型JSON文件,具有以下结构：

{"id":"12345","ua":[{"n":"GROUP_A","v":["true"]}]}
{"id":"12345","ua":[{"n":"GROUP_B","v":["true"]}]}
{"id":"54321","ua":[{"n":"GROUP_C","v":["true"]}]}
{"id":"54321","ua":[{"n":"GROUP_D","v":["true"]}]}
{"id":"54321","ua":[{"n":"GROUP_E","v":["true"]}]}
{"id":"98765","ua":[{"n":"GROUP_F","v":["true"]}]}

我需要合并id,因此它们将包含所有的GROUPS：

{"id":"12345","ua":[{"n":"GROUP_A","v":["true"]},{"n":"GROUP_B","v":["true"]}]}
{"id":"54321","ua":[{"n":"GROUP_C","v":["true"]},{"n":"GROUP_D","v":["true"]},{"n":"GROUP_E","v":["true"]}]}
{"id":"98765","ua":[{"n":"GROUP_F","v":["true"]}]}

我尝试使用’json’库,但我无法正确附加值.此外,我试图将它全部转换为字典,并将值(GROUPS)作为列表附加到键(id),但我仍然坚持打印它,因为我需要输出文件.

我可以使用bash来完成它,但是解析所有信息并以所需格式重新排列它需要很长时间.

任何帮助表示赞赏！

谢谢.

解决方法:

首先,让我们把JSON的东西拿走.

您的文件不是JSON结构,它是一堆独立的JSON对象.从您的示例中,它看起来像是每行一个对象.那么,让我们把它读到一个列表中：

with open('spam.json') as f:
    things = [json.loads(line) for line in f]

然后我们将处理这个并写出来：

with open('eggs.json', 'w') as f:
    for thing in new_things:
        f.write(json.dumps(thing) + '\n')

现在,您没有要附加内容的JSON结构;你有一个dicts列表,并且你想创建一个新的dicts列表,将它们合并在一起使用相同的密钥.

这是一种方法：

new_things = {}
for thing in things:
    thing_id = thing['id']
    try:
        old_thing = new_things[thing_id]
    except KeyError:
        new_things[thing_id] = thing
    else:
        old_thing['ua'].extend(thing['ua'])
new_things = new_things.values()

您可以通过几种不同的方式简化此操作;我只是用这种方式编写它,因为它不会使用任何超出新手的技巧.例如,您可以通过排序和分组来完成：

def merge(things):
    return {'id': things[0]['id'],
            'ua': list(itertools.chain.from_iterable(t['ua'] for t in things))}
sorted_things = sorted(things, key=operator.itemgetter('id'))
grouped_things = itertools.groupby(sorted_things, key=operator.itemgetter('id'))
new_things = [merge(list(group)) for key, group in grouped_things]

我没有从你原来的问题中发现你有数千万行.所有上述步骤都需要将整个原始数据集加载到内存中,使用一些临时存储进行处理,然后将其写回.但是如果你的数据集太大,你需要找到一种方法来一次处理一行,并尽可能同时保持在内存中.

首先,要一次处理一行,您只需要将初始列表解析更改为生成器表达式,并将其余代码移动到with语句中,如下所示：

with open('spam.json') as f:
    things = (json.loads(line) for line in f)
    for thing in things:
        # blah blah

…在这一点上,重写它可能就像这样容易：

with open('spam.json') as f:
    for line in f:
        thing = json.loads(line)
        # blah blah

接下来,排序显然会在内存中构建整个排序列表,因此这里不可接受.但是如果不进行排序和分组,则整个new_things结果对象必须同时处于活动状态(因为最后一个输入行可能必须合并到第一个输出行).

您的示例数据似乎已经按ID排序.如果你可以指望在现实生活中 – 或者只是指望总是按id分组的行 – 只需跳过排序步骤,除了浪费时间和内存之外什么都不做,并使用分组解决方案.

另一方面,如果您不能指望按ID分组的行,则只有两种方法可以进一步减少内存：以某种方式压缩数据,或者将存储备份到磁盘.

首先,Foo Bar User的解决方案构建了一个更简单,更小的数据结构(一个dict将每个id映射到其uas列表,而不是一个dicts列表,每个都有一个id和一个ua),这应该占用更少的内存,并且我们可以一次一行转换为最终格式.像这样：

with open('spam.json') as f:
    new_dict = defaultdict(list)
    for row in f:
        thing = json.loads(row)
        new_dict[thing["id"]].extend(thing["ua"])
with open('eggs.json', 'w') as f:
    for id, ua in new_dict.items(): # use iteritems in Python 2.x
        thing = {'id': id, 'ua': ua}
        f.write(json.dumps(thing) + '\n')

对于第二种,Python提供了一种使用dbm数据库的好方法,就好像它是一个字典一样.如果您的值只是字符串,则可以使用anydbm / dbm模块(或其中一个特定实现).由于您的值是列表,因此您需要使用搁置.

无论如何,虽然这会减少你的内存使用量,但它可能会减慢速度.在具有4GB RAM的计算机上,页面文件交换的节省可能会减少通过数据库的额外成本……但是在具有16GB RAM的计算机上,您可能只是增加开销而获得的收益非常小.您可能希望首先尝试使用较小的文件,以查看当内存不是问题时,搁置与dict的代码速度会慢多少.

或者,如果事情超出了你的记忆限制,你总是可以使用一个更强大的数据库,它实际上可以对磁盘上的东西进行排序.例如(未经测试)：

db = sqlite3.connect('temp.sqlite')
c = db.cursor()
c.execute('CREATE TABLE Things (tid, ua)')
for thing in things:
    for ua in thing['ua']:
        c.execute('INSERT INTO Things (tid, ua) VALUES (?, ?)',
                  thing['id'], ua)
c.commit()
c.execute('SELECT tid, ua FROM Things ORDER BY tid')
rows = iter(c.fetchone, None)
grouped_things = itertools.groupby(rows, key=operator.itemgetter(0))
new_things = (merge(list(group)) for key, group in grouped_things)
with open('eggs.json', 'w') as f:
    for thing in new_things:
        f.write(json.dumps(thing) + '\n')

标签：python,json
来源： https://codeday.me/bug/20190831/1775973.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

python – 基于键组合JSON值