매우 인기있는,하지만 매우 유용한 파이썬 라이브러리

파이썬은 훌륭한 언어이다. 그것은 세계에서 가장 빠르게 성장하는 프로그래밍 언어 중 하나입니다. 그것은 다시 한번의 개발 원조의 위치와 업계 간 데이터 과학 작업의 유용성을 증명한다. 파이썬 라이브러리와 전체 생태계 차종이 전 세계의 사용자 (모두 초보자와 고급 사용자)의 경우 적합한 선택. 성공과 인기에 대한 이유 중 하나는 강력한 타사 라이브러리의 모음입니다,이 라이브러리는 실행 가능한 효율적으로 유지 될 수 있도록.

이 글에서, 우리는 그 대신 보통 등의 과학적 데이터 작업을위한 몇 가지 파이썬 라이브러리를 살펴 보자   , 팬더 scikit-배우고하기 matplotlib 및 기타  라이브러리. 같은 있지만   팬더와 scikit 배우기  이 라이브러리는 기계가 작업을 학습하지만, 다른 파이썬 제품은 항상 아주 좋은이 지역을 알고 종종있다.

를 Wget

네트워크에서 데이터 추출 데이터 과학자의 중요한 작업 중 하나입니다. 를 Wget는  네트워크에서 파일의 비대화 형 다운로드에 사용할 수있는 무료 유틸리티입니다. 그것은 HTTP 프록시를 통해 HTTP, HTTPS 및 FTP 프로토콜, 파일 검색을 지원합니다. 이 비대화 형이기 때문에, 사용자가 로그인하지 않은 경우에도, 그것은 백그라운드에서 작업 할 수 있습니다. 그래서 당신은 웹 사이트 또는 모든 페이지에 사진을 다운로드하려면 다음,  wget과는  당신을 도울 수 있습니다.

설치 :

$ 핍은 wget 설치

예를 들면 :

wget을 가져 
URL = "http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3 ' 

이름 = wget.download (URL) 
를 100 % [.............. ..................................] 3,841,532분의 3,841,532 

파일명 
'razorback.mp3'

흔들리는 추

날짜와 시간을 함께 처리 할 때 파이썬에서 사람들이 좌절 들어, 진자 당신을위한 것입니다. 그것은 간단하다  날짜  조작 파이썬 패키지. 그것은 원시 파이썬 클래스에 대한 간단한 대안입니다. 문서에 대한 심층적 인 연구를 참조하십시오.

설치 :

$ 핍 설치 진자

예를 들면 :

진자 가져 

dt_toronto = pendulum.datetime (2012, 1, 1, TZ = '미국 / 토론토) 
dt_vancouver = pendulum.datetime (2012, 1, 1, TZ ='미국 / 밴쿠버) 

인쇄 (dt_vancouver.diff (dt_toronto) .in_hours ()) 

(3)

불균형 배우기

이 알 수있는 바와 같이, 각 클래스의 샘플들의 수는 실질적으로 동일한 경우, 분류 알고리즘의 효과의 대부분은, 즉, 데이터는 균형을 유지할 필요가 가장이다. 그러나 대부분의 경우 현실은 고르지 데이터 세트 및 이러한 데이터 세트의 영향이 상당한 학습 기계를 가지고 예측하는 알고리즘을 학습의 다음 단계입니다. 다행히,이 라이브러리는이 문제를 해결하는 데 사용됩니다. 그것은   -scikit 배울  호환, 그것은이다   scikit - 리어-있는 contrib의  프로젝트의 일부입니다. 당신이 불균형 데이터 세트를 발생 다음 번에, 그것을 사용해보십시오.

설치 :

핍 설치 -U는 불균형 배우기 

或者#을 

배우기 불균형 -c CONDA - 단조를 설치 CONDA

예를 들면 :

사용 설명서 및 예제를 참조하십시오.

FlashText

NLP의 작업에서는 종종 텍스트 데이터를 삭제하는 것은 문장에서 추출 된 문장의 키워드 또는 키워드를 교체해야합니다. 일반적으로이 작업을 완료하는 정규 표현식을 사용할 수 있지만, 검색 용어의 수는 수천에 도달 할 경우, 이것은 매우 귀찮은 될 것입니다. 파이썬   FlashText의  모듈 기반 FlashText 알고리즘은 이러한 상황에 적합한 대안을 제공한다. 모든 FlashText보다도,에 관계없이 검색어의 수, 실행 시간은 동일합니다. 여기에서 자세히 알아볼 수 있습니다.

설치 :

$ 핍은 flashtext 설치

예를 들면 :

키워드를 추출

flashtext 수입 KeywordProcessor에서 
keyword_processor = KeywordProcessor () 

# keyword_processor.add_keyword (<부정한 이름>, <표준화 이름>) 

keyword_processor.add_keyword ( '빅 애플', '뉴욕') 
keyword_processor.add_keyword ( '베이 지역') 
keywords_found = keyword_processor .extract_keywords ( '나는 빅 애플과 베이 지역을 사랑합니다.') 

keywords_found 
[ '뉴욕', '베이 지역']

키워드 대체

keyword_processor.add_keyword는 ( '뉴 델리', 'NCR 지역') 

new_sentence = keyword_processor.replace_keywords ( '나는 빅 애플과 뉴 델리를 사랑 해요.') 

new_sentence를 
'나는 뉴욕과 NCR 지역을 사랑 해요.'

Fuzzywuzzy

이상한 소리의이 도서관의 이름,하지만 문자열 일치의 관점에서, fuzzywuzzy 매우 유용한 라이브러리입니다. 쉽게 등을 일치하는 토큰 문자열 일치의 계산 작업을 구현할 수있다, 쉽게 다른 데이터베이스에 저장된 기록을 일치시킬 수 있습니다.

설치 :

$ 핍은 fuzzywuzzy 설치

예를 들면 :

fuzzywuzzy 수입 경찰에서 
fuzzywuzzy 수입 과정에서 

#简单匹配는度

fuzz.ratio ( "이 테스트입니다!" "이 테스트입니다") 
97 

#는度匹配模糊
fuzz.partial_ratio ( "이 테스트입니다", "이다 테스트! ") 
 (100)

더 흥미로운 예는 GitHub의 저장소에서 찾을 수 있습니다.

PyFlux

시계열 분석은 기계 학습 문제의 가장 일반적인 분야 중 하나입니다. PyFlux는  파이썬에서 오픈 소스 라이브러리, 그것을 다루는입니다  시계열  건설 문제. 라이브러리는 다음과 같은 우수한 현대적인 시계열 모델의 시리즈를 가지고 있지만, 이에 제한되지   ARIMA, GARCH  및   VAR의  모델. 즉, PyFlux 시계열 모델링에 대한 확률 적 접근 방식을 제공합니다. 해볼만 한 가치는.

설치

핍 pyflux 설치

사용법 및 예제를 상세 공식 문서를 참조하십시오.

Ipyvolume

결과는 또한 데이터 과학의 중요한 측면을 보여줍니다. 큰 장점이있을 것이다 결과를 시각화 할 수 있습니다. IPyvolume 입체적인 체이며 그래픽 Jupyter 노트북 (예를 들면, 입체 산포도) Python 라이브러리에서 가시화 될 수 있으며, 최소한의 구성을 필요로한다. 그러나 스테이지의 1.0 버전 이전에 아직도있다. 더 적절한 비유로 그것을 설명하기 : IPyvolume을의   volshow  하기 matplotlib 같은 세 가지 차원 배열에 대한   imshow  2 차원 배열을 쉽게 사용할 수있다. 당신은 자세한 내용은 여기를 얻을 수 있습니다.

使用핍 
$ 핍은 ipyvolume를 설치 

使用CONDA / 아나콘다 
$는 -c CONDA - 단조 ipyvolume를 설치 CONDA

  • 생기
  • 볼륨 렌더링

대시

대시 파이썬은 효율적인 웹 애플리케이션 구축을위한 프레임 워크입니다. 그것은 같은 드롭 다운 상자, 슬라이더 및 차트와 같은 현대적인 UI 요소를 많이 결합에 기초하여 플라스크, Plotly.js 및 React.js 설계되어, 직접 할 필요없이, 파이썬 코드 상관 관계 분석을 작성하는 데 사용할 수 있습니다 자바 스크립트를 사용합니다. 대시는 데이터 시각화 애플리케이션 구축에 적합하다. 그리고, 이러한 응용 프로그램은 웹 브라우저에서 표시 할 수 있습니다. 사용 설명서는 여기에서 얻을 수 있습니다.

설치

PIP 대시 == 0.29.0 # 대시 코어 후면 설치 
핍 대시-HTML-구성 요소를 == 설치 0.13.2 # HTML 조립 
대시 코어 구성 요소 == 설치 PIP 0.36.0 # 향상된 
대시 테이블을 설치 PIP == 3.1.3 # 대화 형 DataTable의 구성 요소 (새로운!)

다음의 예를 보여줍니다 풀다운 기능의 고도의 쌍방향 차트. 때 사용자가 선택 드롭 다운 메뉴에서 값, 응용 프로그램 코드 것이다 동적으로 Google 금융 팬더 DataFrame에서 수출 데이터.

헬스장

OpenAI의 체육관은 학습 알고리즘 개발 및 비교 도구 키트를 강화하기위한 도구입니다. 여기에는 TensorFlow 또는 Theano 같은 수치 라이브러리와 호환됩니다. 체육관 라이브러리는이 세트는 환경으로 알려져, 시험 문제의 수집을위한 필수적인 도구입니다 - 당신이 당신의 강화 학습 알고리즘을 개발하는 데 사용할 수 있습니다. 이러한 환경은 일반적인 알고리즘을 쓸 수있는 공유 인터페이스를 가지고있다.

설치

핍 체육관을 설치

이 예는 하나 개의 인스턴스 CartPole-V0 환경을 실행할 단계의 수에 그것의 시간은 1000, 전체 장면을 렌더링하는 모든 단계.

개요

이 유용한 데이터 파이썬 라이브러리 과학은 내 모든주의 같은 NumPy와와 팬더와 다른 라이브러리로, 일반적이지, 선택했습니다. 목록에 추가 할 수있는 다른 라이브러리를 알고 있다면, 아래의 코멘트에 언급하시기 바랍니다. 또한 그들을 실행하려고하는 것을 잊지 마세요.

 

추천

출처www.cnblogs.com/7758520lzy/p/12604682.html