将日期时间转换为另一种格式而不更改dtype

发布于 2021-01-29 15:04:35

我只是在自己学习熊猫,而遇到的问题很少。

  1. 在从csv文件读取的DataFrame中,我有一列包含日期数据,该日期数据具有不同的格式(例如'%m/%d/%Y''%Y-%m-%d',可能为空白。),并且我想统一此列的格式。但是我不知道是否还有其他格式。因此,当我使用时pd.to_datetime(),它会引发一些错误,例如格式不匹配以及数据不符合时间要求。如何统一此列的格式?

  2. 我已经将该列的一部分转换为datetime dtype,它的YYYY-mm-dd格式是。我可以保留datetime dtype并将其格式更改为'%m/%d/%Y'吗?我曾经用过pd.dt.strftime(),它将更改格式,但还将dtype更改为str,而不保留datetime dtype。

关注者
0
被浏览
101
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    因此,当我使用pd.to_datetime()时,它引发了一些错误,例如格式不匹配以及数据不符合时间要求。如何统一此列的格式?

    使用该errors='coerce'选项以返回NaT(非时间)未转换的值。另请注意,该format参数不是必需的。省略它可使熊猫尝试多种格式,否则它将恢复为NaT1。例如:

    df['datetime'] = pd.to_datetime(df['datetime'], errors='coerce')
    

    当心,混合类型可能会错误地解释。例如,Python如何知道05/06/20186月5日还是5月6日?将应用约定顺序,如果需要更大的控制权,则需要自己应用自定义顺序。

    我可以保留datetime dtype并将格式更改为’%m /%d /%Y’吗?

    你不能。datetime系列在内部存储为整数。任何人类可读的日期表示形式都只是一个 表示形式
    ,而不是基础整数。要访问自定义格式,可以使用Pandas中可用的方法。您甚至可以将这样的文本表示形式存储在pd.Series变量中:

    formatted_dates = df['datetime'].dt.strftime('%m/%d/%Y')
    

    dtypeformatted_dates将是object,这表明你的系列点到任意Python倍的元素。在这种情况下,那些任意类型碰巧都是字符串。

    最后,我强烈建议您在工作流程的最后一步之前, 不要
    datetime系列转换为字符串。这是因为,一旦这样做,您将不再能够在这样的系列上使用有效的矢量化运算。


    1这将牺牲性能,并与进行对比datetime.strptime,后者
    需要
    指定格式。在内部,Pandas使用该dateutil库,如docs所示



知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看