分析了3万多男女收入样本之后,发现也许这是男女不平等的一个原因所在

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Einstellung/article/details/85242415

背景

我有一个女权主义者的朋友,她一直认为男女不平等,并对此耿耿于怀,常常在朋友圈奔走呼号。有一天我就问她,你觉得男女不平等,那么到底是什么造成男女不平等的呢?我觉得自己在学校学习的时候男女挺平等的呀,甚至我所在的学校是工科学校,女生都是大熊猫一样的重点保护对象。到底是什么时候出现男女不平等的呢?

恰巧前几天我从天池找到一份男女工资收入情况的数据,从三万多个样本中,我觉得自己可能发现了造成男女不平等的原因。下面,我们一起来看看数据告诉了我们什么。

这个数据大致是这样的:

import pandas as pd
import numpy as np
from pyecharts import Pie

data = pd.read_csv(r"D:\DataCompain\personal_income.csv")
data.head(5)

在这里插入图片描述


首先我分析了一下男女之间工作时间的差异:

male = data[data['性别'] == 'Male']
female = data[data['性别'] == 'Female']
male_hours = []
female_hours = []

seperate = [1, 31, 41, 51, 61, 100]

for x in range(0, len(seperate) - 1):
    a = male[(male['一周工作时间'] >= seperate[x]) & (male['一周工作时间'] < seperate[x + 1])]
    b = female[(female['一周工作时间'] >= seperate[x]) & (female['一周工作时间'] < seperate[x + 1])]
    male_hours.append(len(a))
    female_hours.append(len(b))

from pyecharts import Pie
attr = ["小于30小时", "31-40小时", "41-50小时", "51-60小时", "61-100小时"]
pie = Pie("男性每周工作时间统计")
pie.add("", attr, male_hours, is_label_show=True, is_legend_show = False)

pie

在这里插入图片描述

pie = Pie("女性每周工作时间统计")
pie.add("", attr, female_hours, is_label_show=True, is_legend_show = False)
pie.render()
pie

在这里插入图片描述


受教育时间和男女性别之间的关系

male_educate = []
female_educate = []

seperate = [1, 10, 13, 20]

for x in range(0, len(seperate) - 1):
    a = male[(male['受教育时间'] >= seperate[x]) & (male['受教育时间'] < seperate[x + 1])]
    b = female[(female['受教育时间'] >= seperate[x]) & (female['受教育时间'] < seperate[x + 1])]
    male_educate.append(len(a))
    female_educate.append(len(b))

from pyecharts import Pie
attr = ["9年以内", "10到12年", "13到16年"]
pie = Pie("男性接受教育时间")
pie.add("", attr, male_educate, is_label_show=True, is_legend_show = False)

pie

在这里插入图片描述

pie = Pie("女性接受教育时间")
pie.add("", attr, female_educate, is_label_show=True, is_legend_show = False)

pie

在这里插入图片描述


男女工资之间差异情况

def calculate_difference(sex, value):
    value = np.array(value)
    value = value[1] / (value[0] + value[1])
    print(sex + "收入水平超过50k的人数占该性别人数的:%f" %value)

calculate_difference("男性", male['收入水平'].value_counts())
calculate_difference("女性", female['收入水平'].value_counts())

结果是:

男性收入水平超过50k的人数占该性别人数的:0.305737
女性收入水平超过50k的人数占该性别人数的:0.109461

想要数据的可以关注公众号:数据瞎分析,后台回复:男女工资数据

猜你喜欢

转载自blog.csdn.net/Einstellung/article/details/85242415