版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Einstellung/article/details/85242415
背景
我有一个女权主义者的朋友,她一直认为男女不平等,并对此耿耿于怀,常常在朋友圈奔走呼号。有一天我就问她,你觉得男女不平等,那么到底是什么造成男女不平等的呢?我觉得自己在学校学习的时候男女挺平等的呀,甚至我所在的学校是工科学校,女生都是大熊猫一样的重点保护对象。到底是什么时候出现男女不平等的呢?
恰巧前几天我从天池找到一份男女工资收入情况的数据,从三万多个样本中,我觉得自己可能发现了造成男女不平等的原因。下面,我们一起来看看数据告诉了我们什么。
这个数据大致是这样的:
import pandas as pd
import numpy as np
from pyecharts import Pie
data = pd.read_csv(r"D:\DataCompain\personal_income.csv")
data.head(5)
首先我分析了一下男女之间工作时间的差异:
male = data[data['性别'] == 'Male']
female = data[data['性别'] == 'Female']
male_hours = []
female_hours = []
seperate = [1, 31, 41, 51, 61, 100]
for x in range(0, len(seperate) - 1):
a = male[(male['一周工作时间'] >= seperate[x]) & (male['一周工作时间'] < seperate[x + 1])]
b = female[(female['一周工作时间'] >= seperate[x]) & (female['一周工作时间'] < seperate[x + 1])]
male_hours.append(len(a))
female_hours.append(len(b))
from pyecharts import Pie
attr = ["小于30小时", "31-40小时", "41-50小时", "51-60小时", "61-100小时"]
pie = Pie("男性每周工作时间统计")
pie.add("", attr, male_hours, is_label_show=True, is_legend_show = False)
pie
pie = Pie("女性每周工作时间统计")
pie.add("", attr, female_hours, is_label_show=True, is_legend_show = False)
pie.render()
pie
受教育时间和男女性别之间的关系
male_educate = []
female_educate = []
seperate = [1, 10, 13, 20]
for x in range(0, len(seperate) - 1):
a = male[(male['受教育时间'] >= seperate[x]) & (male['受教育时间'] < seperate[x + 1])]
b = female[(female['受教育时间'] >= seperate[x]) & (female['受教育时间'] < seperate[x + 1])]
male_educate.append(len(a))
female_educate.append(len(b))
from pyecharts import Pie
attr = ["9年以内", "10到12年", "13到16年"]
pie = Pie("男性接受教育时间")
pie.add("", attr, male_educate, is_label_show=True, is_legend_show = False)
pie
pie = Pie("女性接受教育时间")
pie.add("", attr, female_educate, is_label_show=True, is_legend_show = False)
pie
男女工资之间差异情况
def calculate_difference(sex, value):
value = np.array(value)
value = value[1] / (value[0] + value[1])
print(sex + "收入水平超过50k的人数占该性别人数的:%f" %value)
calculate_difference("男性", male['收入水平'].value_counts())
calculate_difference("女性", female['收入水平'].value_counts())
结果是:
男性收入水平超过50k的人数占该性别人数的:0.305737
女性收入水平超过50k的人数占该性别人数的:0.109461
想要数据的可以关注公众号:数据瞎分析,后台回复:男女工资数据