Python

scikit-learn joblib错误：多处理池self.value超出“ i”格式代码的范围，仅对于大型numpy数组

发布于 2021-01-29 15:56:42

我的代码运行正常较小的测试样品，如10000行的数据X_train，y_train。当我为数以百万计的行调用它时，会收到结果错误。是程序包中的错误，还是我可以做其他改变？我正在使用Anaconda
2.0.1中的Python
2.7.7，并将来自Anaconda多处理程序包中的pool.py和来自scikit-
learn外部程序包中的parallel.py放在了我的Dropbox上。

测试脚本为：

import numpy as np
import sklearn
from sklearn.linear_model import SGDClassifier
from sklearn import grid_search
import multiprocessing as mp


def main():
    print("Started.")

    print("numpy:", np.__version__)
    print("sklearn:", sklearn.__version__)

    n_samples = 1000000
    n_features = 1000

    X_train = np.random.randn(n_samples, n_features)
    y_train = np.random.randint(0, 2, size=n_samples)

    print("input data size: %.3fMB" % (X_train.nbytes / 1e6))

    model = SGDClassifier(penalty='elasticnet', n_iter=10, shuffle=True)
    param_grid = [{
        'alpha' : 10.0 ** -np.arange(1,7),
        'l1_ratio': [.05, .15, .5, .7, .9, .95, .99, 1],
    }]
    gs = grid_search.GridSearchCV(model, param_grid, n_jobs=8, verbose=100)
    gs.fit(X_train, y_train)
    print(gs.grid_scores_)

if __name__=='__main__':
    mp.freeze_support()
    main()

结果为：

Vendor:  Continuum Analytics, Inc.
Package: mkl
Message: trial mode expires in 28 days
Started.
('numpy:', '1.8.1')
('sklearn:', '0.15.0b1')
input data size: 8000.000MB
Fitting 3 folds for each of 48 candidates, totalling 144 fits
Memmaping (shape=(1000000L, 1000L), dtype=float64) to new file c:\users\laszlos\appdata\local\temp\4\joblib_memmaping_pool_6172_78765976\6172-284752304-75223296-0.pkl
Failed to save <type 'numpy.ndarray'> to .npy file:
Traceback (most recent call last):
  File "C:\Anaconda\lib\site-packages\sklearn\externals\joblib\numpy_pickle.py", line 240, in save
    obj, filename = self._write_array(obj, filename)
  File "C:\Anaconda\lib\site-packages\sklearn\externals\joblib\numpy_pickle.py", line 203, in _write_array
    self.np.save(filename, array)
  File "C:\Anaconda\lib\site-packages\numpy\lib\npyio.py", line 453, in save
    format.write_array(fid, arr)
  File "C:\Anaconda\lib\site-packages\numpy\lib\format.py", line 406, in write_array
    array.tofile(fp)
ValueError: 1000000000 requested and 268435456 written

Memmaping (shape=(1000000L, 1000L), dtype=float64) to old file c:\users\laszlos\appdata\local\temp\4\joblib_memmaping_pool_6172_78765976\6172-284752304-75223296-0.pkl
Vendor:  Continuum Analytics, Inc.
Package: mkl
Message: trial mode expires in 28 days
Vendor:  Continuum Analytics, Inc.
Package: mkl
Message: trial mode expires in 28 days
Vendor:  Continuum Analytics, Inc.
Package: mkl
Message: trial mode expires in 28 days
Vendor:  Continuum Analytics, Inc.
Package: mkl
Message: trial mode expires in 28 days
Vendor:  Continuum Analytics, Inc.
Package: mkl
Message: trial mode expires in 28 days
Vendor:  Continuum Analytics, Inc.
Package: mkl
Message: trial mode expires in 28 days
Vendor:  Continuum Analytics, Inc.
Package: mkl
Message: trial mode expires in 28 days
Vendor:  Continuum Analytics, Inc.
Package: mkl
Message: trial mode expires in 28 days
Traceback (most recent call last):
  File "S:\laszlo\gridsearch_largearray.py", line 33, in <module>
    main()
  File "S:\laszlo\gridsearch_largearray.py", line 28, in main
    gs.fit(X_train, y_train)
  File "C:\Anaconda\lib\site-packages\sklearn\grid_search.py", line 597, in fit
    return self._fit(X, y, ParameterGrid(self.param_grid))
  File "C:\Anaconda\lib\site-packages\sklearn\grid_search.py", line 379, in _fit
    for parameters in parameter_iterable
  File "C:\Anaconda\lib\site-packages\sklearn\externals\joblib\parallel.py", line 651, in __call__
    self.retrieve()
  File "C:\Anaconda\lib\site-packages\sklearn\externals\joblib\parallel.py", line 503, in retrieve
    self._output.append(job.get())
  File "C:\Anaconda\lib\multiprocessing\pool.py", line 558, in get
    raise self._value
struct.error: integer out of range for 'i' format code

编辑：ogrisel的答案确实与scikit-
learn-0.15.0b1的手动内存映射一起使用。不要忘记一次只运行一个脚本，否则您仍然会耗尽内存并拥有太多线程。（我的运行在CSV大小约为12.5
GB的数据上需要约60 GB，带有8个线程。）

关注者

被浏览

189

1 个回答

面试哥 2021-01-29

为面试而生，有面试问题，就找面试哥。
作为解决方法，您可以尝试按照joblib文档中的说明显式和手动地对数据进行内存映射。

编辑＃1： 这是重要的部分：
```
from sklearn.externals import joblib

joblib.dump(X_train, some_filename)
X_train = joblib.load(some_filename, mmap_mode='r+')
```
然后将此内存映射的数据传递到GridSearchCVscikit-learn 0.15+下。

编辑2： 此外：如果您使用Anaconda的32位版本，则每个python进程将被限制为2GB，这也会限制内存。

我刚刚在Python
3.4下发现了一个错误，numpy.save但是即使修复了，随后对mmap的调用也会失败，并显示以下错误：
```
OSError: [WinError 8] Not enough storage is available to process this command
```
因此，请使用64位版本的Python（以Anaconda作为AFAIK，目前没有numpy / scipy / scikit-learn ==
0.15.0b1的其他64位软件包）。

编辑＃3：
我发现另一个问题，可能会导致Windows下过多的内存使用：当前joblib.Parallel内存mmap_mode='c'默认情况下使用默认值映射输入数据：此写时复制设置似乎导致Windows耗尽分页文件，有时会触发“
[错误1455分页文件太小，无法完成此操作”错误。设置mmap_mode='r'或mmap_mode='r+'不触发该问题。我将运行测试以查看是否可以在下一版本的joblib中更改默认模式。

知识点

Python

面圈网VIP题库全新上线，海量真题题库资源。 90大类考试，超10万份考试真题开放下载啦

去下载看看