在python中使用.loc选择

发布于 2021-01-29 19:36:23

我在某人的iPython笔记本中看到了此代码,并且对
代码的工作方式感到非常困惑。据我了解,pd.loc []用作基于位置的
索引器,其格式为:

df.loc[index,column_name]

但是,在这种情况下,第一个索引似乎是一系列布尔值。
有人可以向我解释一下此选择的工作原理。我试图通读
文档,但找不到解释。谢谢!

iris_data.loc[iris_data['class'] == 'versicolor', 'class'] = 'Iris-versicolor'
关注者
0
被浏览
61
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    pd.DataFrame.loc可以使用一两个索引器。在其余文章中,我将第一个索引器表示为i,将第二个索引器表示为j

    如果仅提供一个索引器,则该索引器将应用于数据帧的索引,并且假定缺少的索引器代表所有列。因此,以下两个
    示例是等效的。

    1. df.loc[i]
    2. df.loc[i, :]

    其中:用来表示所有列。

    如果同时存在两个索引器,则i引用索引值和j引用列值。

    现在我们可以专注于什么类型的值i,并j可以承担。让我们以以下数据框df为例:

        df = pd.DataFrame([[1, 2], [3, 4]], index=['A', 'B'], columns=['X', 'Y'])
    

    loc 已经写成这样i并且j可以是

    1. scalars 应该是各个索引对象中的值

      df.loc['A', 'Y']
      
    2. arrays 其元素也是相应索引对象的成员(请注意,我传递给的数组的顺序loc受尊重

            df.loc[['B', 'A'], 'X']
    
              B    3
             A    1
             Name: X, dtype: int64
    
    * 传递数组时,请注意返回对象的维数。`i`是上面的数组,`loc`返回一个对象,其中返回带有这些值的索引。在这种情况下,因为j是标量,所以`loc`返回了一个`pd.Series`对象。如果我们为i和传递了一个数组,我们可以操纵它以返回一个数据帧j,并且该数组可能只是一个单值数组。
    

    ```
    df.loc[[‘B’, ‘A’], [‘X’]]

           X
        B  3
        A  1
    
    
      3. **boolean arrays** 为True或False且长度与相应索引的长度匹配的布尔数组。在这种情况下,loc只需获取布尔数组所在的行(或列) `True`.
    
    
        df.loc[[True, False], ['X']]
    
       X
    A  1
    

    ```


    除了可以传递给哪些索引器之外loc,它还使您能够进行分配。现在,我们可以分解您提供的代码行。

    iris_data.loc[iris_data['class'] == 'versicolor', 'class'] = 'Iris-versicolor'
    
    1. iris_data['class'] == 'versicolor' 返回一个布尔数组。
    2. class 是表示column对象中的值的标量.
    3. iris_data.loc[iris_data['class'] == 'versicolor', 'class'] returns a pd.Series object consisting of the 'class' column for all rows where 'class' is 'versicolor'
    4. 与赋值运算符一起使用时:
      iris_data.loc[iris_data['class'] == 'versicolor', 'class'] = 'Iris-versicolor'
      

    我们分配'Iris-versicolor'在列中的所有元素'class',其中
    'class''versicolor'



知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看