现在需要为一个现存的产品增加文本分类的功能,你决定使用RadomFores...
现在需要为一个现存的产品增加文本分类的功能,你决定使用RadomForest模型,产品方能提供的训练数据只有2W,你从外部抓取其它文本相关的分类数据有5W。
1)请问如何划分你的 training set,validation set, testing set ?
2)假定人去做文本分类的Human Error为E1, 模型的Training Error 为 E2, Valid/Testing Error为 E3,请问依据这些信息如果确定模型的改进方向和优化措施?(请举例说明)