algo.py 文件源码-python代码片段

def restore(self, ckpt_file='/tmp/rlflow/model.ckpt'):
        """
        Restore state from a file
        """
        self.saver.restore(self.sess, ckpt_file)
        # if '-' in ckpt_file[ckpt_file.rfind('.ckpt'):]:
        #     last_step = int(ckpt_file[ckpt_file.find('-')+1:])
        #     self.step = last_step
        print("Session restored from file: %s" % ckpt_file)


    # def build_summary_ops(self, verbose=3):
    #     """
    #     Build summary ops for activations, gradients, reward, q values,
    #     values estimates, etc
    #     Create summaries with `verbose` level
    #     """
    #     if verbose >= 3:
    #         # Summarize activations
    #         activations = tf.get_collection(tf.GraphKeys.ACTIVATIONS)
    #         tflearn.summarize_activations(activations, RLAlgorithm.SUMMARY_COLLECTION_NAME)
    #     if verbose >= 2:
    #         # Summarize variable weights
    #         tflearn.summarize_variables(tf.trainable_variables(), RLAlgorithm.SUMMARY_COLLECTION_NAME)
    #     if verbose >= 1:
    #         # summarize reward
    #         episode_reward = tf.Variable(0., trainable=False)
    #         self.episode_reward_summary = scalar_summary("Reward", episode_reward, collections=RLAlgorithm.SUMMARY_COLLECTION_NAME)
    #         self.episode_reward_placeholder = tf.placeholder("float")
    #         self.episode_reward_op = episode_reward.assign(self.episode_reward_placeholder)
    #         tf.add_to_collection(RLAlgorithm.SUMMARY_COLLECTION_NAME, self.episode_reward_summary)
    #
    #         # Summarize gradients
    #         # tflearn.summarize_gradients(self.grads_and_vars, summ_collection)
    #
    #     if len(tf.get_collection(RLAlgorithm.SUMMARY_COLLECTION_NAME)) != 0:
    #         self.summary_op = merge_all_summaries(key=RLAlgorithm.SUMMARY_COLLECTION_NAME)