test_lb_split.py 文件源码-python代码片段

test_lb_split.py 文件源码

python

阅读 31 收藏 0 点赞 0 评论 0

项目：kaggle-review 作者: daxiongshu 项目源码文件源码

def test2():
    s1 = pd.read_csv('../input/test_variants')
    s3 = pd.read_csv('../input/test_variants_filter')
    s1 = pd.merge(s1,s3[['ID','Class']],on='ID',how='left').fillna(1)

    s2 = pd.read_csv('../input/stage2_test_variants.csv')
    s1 = pd.merge(s1,s2,on= ["Gene", "Variation"],how='inner')
    s1['ID'] = s1['ID_y']
    s2 = pd.merge(s1[['ID','Class']],s2,on='ID',how='right').fillna(1)
    yp = onehot_encode(s2['Class'].values-1)

    for i in range(1,10):
        s2['class%d'%i] = yp[:,i-1]
    cols = ['class%d'%i for i in range(1,10)]
    mask = s2['ID'].isin(s1['ID_y'])
    s2.loc[~mask,cols] = 0.1

    s2['ID'] = s2['ID'].astype(int)
    cols = ['ID']+['class%d'%i for i in range(1,10)]
    s2[cols].to_csv('sub.csv',index=False)