机器学习初学者 04月21日 13:07
【Python】Pandas实现sql的case when查询,原来这么简单!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了如何使用 Python Pandas 实现类似 SQL 中 Case When 的条件统计功能,主要探讨了两种方法:使用 apply 方法和 numpy 的 select 方法。通过具体的例子,展示了如何在成绩表中根据语文和数学成绩进行综合打分,并提供了详细的代码示例。文章指出,apply 方法虽然功能强大,但写起来相对复杂,而 numpy 的 select 方法则更为通用和简洁。总的来说,文章旨在帮助读者在 Pandas 中实现多列的条件判断和分类,提高数据分析的效率。

💡使用 Pandas 的 apply 方法可以实现类似 SQL Case When 的功能。通过自定义判断函数,可以对 DataFrame 的多列数据进行条件判断,并生成相应的分类结果。文章提供了一个成绩综合打分的例子,演示了如何根据语文和数学成绩的组合,将学生成绩分为 A、B、C 三个等级。

✨numpy 的 select 方法是另一种实现条件统计的途径,它比 apply 方法更为通用和简洁。select 方法通过定义条件和对应的值,可以根据多列数据的不同组合,生成不同的分类结果。文章也给出了使用 select 方法实现成绩打分的例子,展示了其简洁的语法和高效的执行效率。

📚文章强调了 apply 方法和 select 方法在 Pandas 中实现条件统计的实用性。虽然 Pandas 中还有其他方法可以实现类似功能,但 apply 和 select 方法相对通用、便捷,且符合 Python 的编程哲学。文章建议读者掌握这两种方法,以便在数据分析中更有效地进行条件判断和分类。

Python大数据分析 2025-04-21 12:02 浙江

sql中的case when的功能是实现单列或者多列的条件统计,其实Pandas也可以实现的,比如万能的apply方法,就是写起来复杂一些,没有sql case when那么直观。

apply方法可以对dataframe、series执行特定函数,其实很强大,因为python什么逻辑都可以写。

举个例子,一张考试成绩的表scores,有语文和数学的得分,现在给考生综合打分,两门都在90以上打A,都在80-90之间打B,其他则打C。

这里如果用sql来查询的话,使用case when就很简单明了。

SELECT *,
        CASE
            WHEN chinese_score >= 90AND math_score >= 90THEN'A'
            WHEN chinese_score >= 80AND math_score >= 80THEN'B'
            ELSE'C'
        ENDAS score_type
    FROM scores

如果用pandas apply方法来实现的话,需要自定义一个判断函数,用来对成绩进行分类。

然后用apply方法应用到dataframe上,以下是完整代码,可以放到本地电脑跑。

import pandas as pd
# 示例数据
data = {
    'chinese_score': [90807910089],
    'math_score': [9195799989],
}
df = pd.DataFrame(data)

# 定义条件判断函数
def check_conditions(row):
    # 条件1:年龄>30,分数>80,性别为男性
    result = 'A'if (row['chinese_score'] >= 90and (row['math_score'] >= 90) \
            else'B'if (row['chinese_score'] >= 80and (row['math_score'] >= 80) \
            else'C'
    return result

# 应用apply生成标记列
score_type_1 = df.apply(check_conditions, axis=1)

score_type_1

逻辑也很简单,判断函数实现多列的判断条件,apply将该判断函数应用到数据集上,就能实现类似sql case when的功能。

apply的应用场景很多,远比你想象的多得多,比如一张学生成绩信息的表,它可以给每位学生通过deepseek制定个性化的提升建议。

除了pandas apply能实现case when的功能外,numpy的select方法也能搞定,而且更为通用、简洁,建议试试。

import numpy as np
import pandas as pd
# 示例数据
data = {
    'chinese_score': [90807910089],
    'math_score': [9195799989],
}
df = pd.DataFrame(data)

# 定义条件和对应的值
conditions = [
 (df['chinese_score'] >= 90) & (df['math_score'] >= 90),
 (df['chinese_score'] >= 80) & (df['math_score'] >= 80)
]
choices = ['A''B']

# select方法
score_type_1 = np.select(conditions, choices, default='C')
score_type_1

numpy select方法类似case when语法,通过一个多列条件判断,区分不同的分类。

除了这两种,其实pandas种还有不少能实现的途径,但没必要尝试,因为这两种相对通用便捷,且符合python哲学。



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Python Pandas SQL Case When 数据分析
相关文章