controller.py 文件源码-python代码片段

controller.py 文件源码

python

阅读 29 收藏 0 点赞 0 评论 0

项目：sumo_reinforcement_learning 作者: JDGlick 项目源码文件源码

def updateQProbs(lastStateID, lastAction):
    # print 'np.sum(QCounts[lastStateID,]) = ', np.sum(QCounts[lastStateID,])
    # print 'np.sum(QCounts[lastStateID,]) = ', np.sum(QCounts[lastStateID,])
    # print 'np.sum(QValues[lastStateID,]) = ', np.sum(QValues[lastStateID,])
    if np.sum(QCounts[lastStateID,]) == 0 or np.sum(QValues[lastStateID,]) == 0:
        tau = 1
    else:
        # print '(-(np.mean(QValues[lastStateID,]))) = ', (-(np.mean(QValues[lastStateID,])))
        # print '(np.mean(QCounts[lastStateID,])) = ', (np.mean(QCounts[lastStateID,]))
        tau = (-(np.mean(QValues[lastStateID,])))/(np.mean(QCounts[lastStateID,]))
    # print 'tau = ', tau
    numerator = np.exp(QValues[lastStateID, ]/tau)
    tempSum = np.sum(numerator)
    denominator = np.array([tempSum, tempSum, tempSum, tempSum, tempSum, tempSum, tempSum, tempSum])
    QProbs[lastStateID, ] = np.divide(numerator, denominator)

# initial dataframes which will be able to store performance data over different days