注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

长风明志的博客

不要也不能做下一个谁,应该且可以做第一个自己

 
 
 

日志

 
 

Python中解决使用Pickle时出现MemoryError的思路  

2014-10-21 15:15:16|  分类: Python |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
在Python中处理很大的数据时,使用Pickle来做序列化(dump)和反序列化(load)时会出现Memory Error的问题。很显然,是OS分配给Python使用的内存达到了限制。以下是一些参考解决思路或替代方案:
1.使用streaming picklehttps://code.google.com/p/streaming-pickle/  ,它使用streaming(即增量)的形式来加载和保存数据对象,可以比一般的pickle节约更多的内存。

2.使用Pickler.clear_memo():如果会多次调用dump,则可以在各个dump调用之间使用clear_memo(),也许能释放掉一些内存压力。
import cPickle as pickle
p = pickle.Pickler(open("temp.p","wb")) 
p.fast = True 
p.dump(d) # d is your dictionary
p.clear_memo()
3.使用dbm-style 的databases,如dbm,gdbm,dbhash,anydbm,shelve等 key-value存储引擎,当然使用redis这些Key-Value内存数据库也是可以的,不过取决于数据规模,如果数据量不是很大,数据类型不是太复杂就没有必要使用redis。以下是使用anydbm和shelve的简单示例:

一 、anydbm模块
anydbm允许将一个磁盘上的文件与一个“dict-like”对象关联起来,操作这个“dict-like”对象,就像操作dict对象一样,最后可以将“dict-like”的数据持久化到文件。
对这个"dict-like"对象进行操作时,key和value的类型必须是字符串

使用anydbm的例子:
 

#coding=utf-8  
  
import anydbm  
  
def CreateData():  
    try:  
        db = anydbm.open('db.dat', 'c')  
        # key与value必须是字符串  
        # db['int'] = 1  
        # db['float'] = 2.3  
        db['string'] = "I like python."  
        db['key'] = 'value'  
    finally:  
        db.close()  
          
def LoadData():  
    db = anydbm.open('db.dat', 'r')  
    for item in db.items():  
        print item  
    db.close()  
          
if __name__ == '__main__':  
    CreateData()  
    LoadData() 

anydbm.open(filename[, flag[, mode]]),filename是关联的文件路径,可选参数flag可以是: 'r': 只读, 'w': 可读写, 'c': 如果数据文件不存在,就创建,允许读写; 'n': 每次调用open()都重新创建一个空的文件。mode是unix下文件模式,如0666表示允许所有用户读写。

二、shelve模块

shelve模块是anydbm的增强版,它支持在"dict-like"对象中存储任何可以被pickle序列化的对象,但key也必须是字符串。

以上的例子,用shelve来实现:
 

import shelve  
  
def CreateData():  
    try:  
        db = shelve.open('db.dat', 'c')  
        # key与value必须是字符串  
        db['int'] = 1  
        db['float'] = 2.3  
        db['string'] = "I like python."  
        db['key'] = 'value'  
    finally:  
        db.close()  
          
def LoadData():  
    db = shelve.open('db.dat', 'r')  
    for item in db.items():  
        print item  
    db.close()  
          
if __name__ == '__main__':  
    CreateData()  
    LoadData() 
 
  评论这张
 
阅读(1194)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017