시리즈에서 말하기 : 데이터 분석 도구는 튜토리얼 시리즈의 (a)를 판다


기사의 오늘의 시리즈에서 직렬화 데이터 분석 도구 팬더를 시작 Pycharm이 Python3.6 + 통합 권장, 당신은 흰색 제로 또는 팬더가 시작되었는지, 고등학교의이 시리즈의 건조 제품의 일부에 갈 수 있는지.

바이두 백과 사전에서 발췌 : 팬더 NumPy와는 도구를 기반으로 생성 된 데이터 분석 작업을 해결하는 도구입니다. 큰 도서관과 필요한 도구를 효율적으로 대규모 데이터 세트를 작동 제공하는 몇 가지 표준 데이터 모델로 판다. 팬더는 함수를 제공 및 방법은 쉽고 빠르게 데이터를 처리 할 수있게. 당신은 곧 파이썬이 강력하고 효율적인 데이터 분석 환경이 구성하는 중요한 요소 중 하나입니다 찾을 수 있습니다.

팬더 NumPy와 기반으로하지만 팬더는 디자인의 시작, 수학 문제를 다차원 목록 또는 매트릭스 해결에 NumPy와 초점은 실질적인 문제를 해결하기 때문에, 그러나 기사의 팬더 시리즈를 시작하기 전에, 나는 내가, 특정 사용 NumPy와를 소개하지 않을 나는 우리가 자습서의 일련의 직선 팬더를 시작할 수 있다고 생각 나는 친구 필요한 NumPy와 지식, 내가 직접 말할 것없이 NumPy와 기초, 또는, 내가 가장 간단한 언어 최소한으로하려고합니다 - 독자를 사전하려고합니다 예선은 전체 시리즈 팬더를 마쳤다.

시리즈를 시작으로, 본 연구의 중심 과제는 개념과 팬더의 데이터 구조의 기본 동작에 익숙해 모든 독자는,이 시리즈입니다 확인하는 것입니다.

그림 삽입 설명 여기

시리즈는 데이터 집합 (데이터 타입은 정수, 부동 소수점, 문자열과 다른 목적 파이썬 수있다)에 의해, 1 차원 배열과 유사한 목적 및 동일한 길이의 지수 (또는 태그) 조성물. 예를 들면 :

import pandas as pd
# 标签 1 索引 数据'a', 标签 2 索引数据 'b'...
s = pd.Series(data=['a','b','c','d'],index=[1,2,3,4])
print(s)

그림 삽입 설명 여기

만들 수있는 세 가지 방법의 시리즈

생성자를 들어 pd.Series(), 우리는 대부분의 데이터 데이터, 인덱스와 인덱스 데이터 유형에 대해 우려하는 세 개의 매개 변수 값을 지수와 DTYPE 속성 액세스의 시리즈로, 각각 D- 타입.

# 代码接上一段,后同
print(s.values)
print(s.index)
print(s.dtype)

그림 삽입 설명 여기

이러한 기본 범위 기본으로, 파라미터 데이터, 인덱스가 필요하다 (렌 (데이터)), 상기 코드 인덱스로 지정되지 = [0,1,2,3] 대신 인덱스 [1,2, 3,4], 기본, 기본 객체로 DTYPE;

어레이에 의해 생성 (목록)

data = ['l','o','v','e']
s1 = pd.Series(data=data)
print(s1)

그림 삽입 설명 여기

사전 제작으로

data = {'math':100,'english':94,'chinese':'95'}
s2 = pd.Series(data=data)
print(s2)

그림 삽입 설명 여기

그것은 데이터로 사전 키 인덱스 값으로 볼 수있다, 시리즈를 만들었습니다

상수에 의해 만들어진

당신이 인덱스를 지정해야합니다 만들어 이러한 방법으로, 그들은 같은 값으로 색인 값은 우리가 제공 상수이다.

s3 = pd.Series(1,index=[1,2,3,4,5])
print(s3)

그림 삽입 설명 여기

네 가지 방법의 검색어 시리즈

시리즈는 예제 S2 :

그림 삽입 설명 여기

슬라이스

시리즈는 목록에 유사하지만 슬라이스 작업을 제공합니다 :

print(s2[1:3])

그림 삽입 설명 여기

슬라이스의 경우, 두 가지 : 먼저, 인덱스는, 제 2 개구는 전면 부 뒤에 종료되며, 제로를 포함한다 : [13]은 2 첨자, 즉, 두 번째, 세 번째 데이터 시리즈 , 슬라이스 인덱스와 인덱스에 관심을 지불 문제가되지 않습니다.

인덱스 index

이 동작은 키 값 유사한 사전입니다

print('math',s2['math'])

그림 삽입 설명 여기

s2.get('math')불확실성 S2, 수학에있는 경우, 100 걸릴 수 s2.get('math',101)기본값 (101)을 설정하지 않을 경우, 오류없이 101를 반환합니다.

머리 () / 꼬리 ()

알려진 이름의 의미를 참조하십시오, head()처음 몇 데이터를 가지고하는 것입니다, tail()그것은 몇 가지 데이터를 가지고하는 것입니다.

print(s2.head())
print(s2.head(2))

그림 삽입 설명 여기

기본값은 5 개 미만의 다음 그들 모두를 가지고가는 경우에, 다섯을하는 것입니다.

조건 문의

print("\n成绩大于 95 的科目:\n",s2[s2>95])
print("\n成绩等于 95 的科目:\n",s2[s2==95])
print("\n成绩大于等于 95 的科目:\n",s2[s2>=95])

그림 삽입 설명 여기

기타 일반적으로 사용되는 기능

데이터의 새로운 라인

두 가지 기능을 가지고 : append()그리고 set_value()이 기능을 수행 할 수 있지만 append()오직 시리즈 / DataFrame 형식 매개 변수가 시리즈의 새로운 수정에 의해 완료 동의, 당신은 반환 값에 동의해야합니다, set_value()파이썬이 내장 된 더 같은 새로운 방법으로 사전 항목입니다 내부 편집.

s2 = s2.append(pd.Series({'music':98}))
print(s2)
s2.set_value('history',99)
print(s2)

그림 삽입 설명 여기

위의 경고,주의 set_value()미래의 릴리스, 권장 .at [] 또는 .iat [] 표현에서는 사용되지 않습니다.

s2.at['history'] = 93
s2.at['geo'] = 91
print(s2)

그림 삽입 설명 여기

실험적 .at 실측치 []의 인덱스 및 상기 한 효과가 거의 동일한 인덱스 쿼리는 쿼리에 추가하도록 수정 될 수있다] / []은 질의는 추가하도록 수정 될 수 없다) 때문에 갔지 (; .at [ 또한 검색 할 수있는 방법 중 하나를 사용하고 유연한로서 사용될 수있다.

난 단지 하나의 차이는 [] .at .iat []와 같은 기능, 난 영어 정수 정수이며, 대표는 .iat [] 데이터는 예컨대 수학 점수 (99)를 수정으로, 인덱스에 의해 액세스 될 수있다 :

s2.iat[0] = 99
print(s2)

그림 삽입 설명 여기

데이터 행을 삭제하려면

은 Using drop()반환 값을받을 수는 기본 위치를 수정하지 않습니다에 기능을, 당신이 필요 :

s2 = s2.drop('math')
print(s2)

그림 삽입 설명 여기

제자리은 매개 변수의 올바른 위치 = 사실, 정확히 동일한 코드 및 효과 위의 다음 코드를 설정하여 수정 될 수 있습니다 :

s2.drop('math',inplace=True)
print(s2)

중복 제거

당신은 단지 데이터하지 중복 데이터를 얻고 싶은 경우에, 직접 사용 unique(),이 시리즈 자체가 변경되지 않습니다, 목록을 반환
당신이 사용하는 것이 좋습니다 중복 데이터의 제거 시리즈를 받기를 원한다면 drop_duplicates(), 그것은 또한 또 다른 중요한 매개 변수를 유지하고, 올바른 위치 매개 변수가 종종 제 1 레인 징 / 마지막, 즉 중복 데이터는 / 성을 유지한다.

s2['english'] = 95
print(s2.unique(),'\n')
print(s2,'\n')
s2.drop_duplicates(keep='last',inplace=True)
print(s2)

그림 삽입 설명 여기

순서

하여 sort_values()전체 염기 서열, 오름차순으로 정렬할지 여부를 매개 변수의 올바른 위치와 오름차순 (초점, 기본값은 오름차순의 기본 인 사실이다 :

s2.sort_values(inplace=True,ascending=True)
print(s2)

그림 삽입 설명 여기

누락 된 값을 검출

기능 isnull()/notnull()안티센스 함수 쌍 EENOW 값 데이터 복귀리스트를 불리언의 길이와, 누락 검출 이름 참조 :

s2['bio'] = None
print(s2.isnull(),'\n')
print(s2.notnull())

그림 삽입 설명 여기

팬더 한 2 명 개의 데이터 구조가 다른 데이터 구조 DataFrame의 기초로 시리즈 점은, 시리즈 만이 넥스트 DataFrame 얘기, 일차원 이차원 테이블 형식 DataFrame 인 제발 소화 좋은 시리즈 전에.

게시 84 개 원래 기사 · 원 찬양 (250) ·은 15 만 + 조회수

추천

출처blog.csdn.net/ygdxt/article/details/104152401