Введение в анализ данных --Pandas

Панды

1, Панды Профиль

Tools панд Python является мощным анализом данных пакета, который основан Numpy построен, возникает из-за пандами, поэтому Python язык стал одним из наиболее широко используемой и мощной среды для анализа данных.

1.1 Пандас основные функции:

- включает в себя структуру данных DataFrame свою функцию, Series
- интеграция функций временных рядов
- и предоставляет богатые математические операции
- данные Гибкая ручка отсутствует

1.2 Установка: Пип установки панд

Контрольный метод: импорт панды, как Pd

2, Series

Серия объектов похож на одномерный массив, с помощью набора данных и набора данных, связанных с тегом (индекс) Состав

2,1, создать метод

Первый: pd.Series ([4,5,6]) индекс # по умолчанию

Результаты:
0. 4
1. 5.
2. 6

Второй: пользовательский индекс, индекс представляет собой список индекса, который содержит строку, вы можете по-прежнему указательное значение по умолчанию.

pd.Series ([4,5,6,7,8], индекс = [ 'а', 'б', 'с', 'd', 'е'])
Результаты:
A. 4
B. 5
° С 6
D . 7
Е. 8
DTYPE: Int64

В-третьих: указанный индекс

pd.Series ({ "а": 1 , "б": 2})
Результаты:
A. 1
B 2
DTYPE: Int64

В-четвертых: Создать полный спектр значение 0

pd.Series (0, индекс = [ ' а', 'б', 'с'])
Результаты:
A 0
B 0
C 0
DTYPE: Int64

2,2 Missing Data

dropna (): отфильтровывая строки является НЭН
заполнением (): заполнить недостающие данные
ISNULL (): возвращает логическое значение массива, соответствующее пропущенных значения как истинные
NotNull (): возвращает булев массив, пропущенное значения , соответствующие Ложные

2.3 Особенности серии:

Серия созданная из ndarray: Series (обры)
и скаляр (число) Умножение: ср * 2
две эксплуатационной серия
родовой функции: np.ads (ср)

Логическое фильтр: стер [ср> 0]
Функция статистики: среднее (), сумма () , cumsum ()

Поддержка 2,4 Характеристика словаря:

Созданный из словаря серии: серия (DIC),
В операции: «a'in ср, при х в Ср
индекса ключа: стерад [» а «], ср [[» а «» б «» d «]]
ключевых ломтик: стер [ 'а': ' с']
другие функции: прибудете ( 'а', по умолчанию = 0) , и т.д.

2.5 целочисленный индекс

LOC свойства: Label
iloc атрибуты: ищет подстрочный

Серия выравнивание данных
панда во время работы, будет выровнена и рассчитывается в соответствии с индексом. Если наличие различного индекса, индекс является результатом двух операндов и множества индексов.

3, DataFrame

DataFrame является табличная структура данных эквивалентна двумерный массив, содержащий упорядоченный набор столбцов. Он может рассматриваться как словарь, состоящий серии, и общий индекс.

3.1 Общие свойства и методы:

Индекс: Получает индекс строки
столбцов: Получает индекс столбца
T: транспонирования
столбцов: Получает индекс столбца
значения: Получает значение индекса
описание: получить Краткую статистику

3,2 индексирования и нарезка

Там DataFrame строк и столбцов индексов.
DataFrame также могут быть проиндексированы , и нарезка через ярлык и положение этих двух методов.

Кусочек использование индекса DataFrame:
Метод 1: два кронштейна, колонка затем принять упреждающую строку.
Способ 2 (рекомендуется): Использование LOC / iloc свойство, кронштейн, запятая, а затем взять первую строку столбец , забирающую.
DataFrame объект , используя значение , записанное Способ 2 только
индекс часть строки / столбца может представлять собой обычный индекс, ломтик, булева индекс, индекс с произвольной фантазией. (Примечание: Эти две части являются результаты могут отличаться от ожидаемого , когда индекс фантазии)

4, время обработки объекта

Время Тип последовательности

Временная метка: определенное время
фиксированный период: январь 2019 , как
интервал времени: время начала - время окончания
библиотеки Python: datatime
даты, время, DATETIME, timedelta
dt.strftime ()
strptime ()
гибкое время обработки объект: dateutil пакет
dateutil.parser.parse () ,
чтобы установить время обработки объекта: PANDAS
pd.to_datetime ([ '2018-01-01', '2019-02-02'])

Время генерации массива объекта: data_range
Начало Время начала
конец конец времени
периоды продолжительности
частота временная частота, по умолчанию «D», дополнительный Н (наш), W (еек ), В (usiness), S (EMI-) М (меся ца ), (мин) Т (а ), S (econd), а (год), ...
во временной последовательности
временных рядов является временем индекс объекта или ряд DataFrame. DateTime объекты , как индекс хранится объект DatetimeIndex.
Отличительные особенности:

Входящие «год» или «дата» , как способ нарезки
поступающего диапазона дат как способ нарезать
множество вспомогательных функций: передискретизации (), STRFTIME () , ......
Пакетного конвертирования DateTime объекты: to_pydatetime ()

5, пакеты данных и агрегации

Среди анализа данных, мы иногда необходимо разделить данные, а затем вычисляем по каждой конкретной группе, анализ данных, как правило , является важной частью работы в этих операциях.
Содержание Главы обучения:
группировка (механизм GroupBy)
полимеризации (функция в групповой заявке)
Применить
перспективную перекрестную таблицу и таблицу

5.1 Пакет (механизм GroupBy)

панды целевых данных (или какая серия, DataFrame друг) , которые будут предоставлены в соответствии с одним или более ключей разделены на множество групп, сплит операция , выполняемой действительную ось конкретного объекта. Например , он может DataFrame группирования столбцов или по его линии, затем применяя функцию к каждому пакету и генерирует новое значение. И, наконец, все результаты включены в окончательный результат объекта.
Форма Бонд пакетов:
список или массив, длина вала должна быть сгруппирована в виде
значения , представляющего собой имя столбца DataFrame.
Словарь или серия, отношение соответствия между значением имени группы , чтобы дать ось пакетов
функции, для обработки индекса или индекса оси метка делает
последние три только ярлыков, для того , чтобы произвести окончательный набор еще значения для разделения объекта.

Добавлено:
1, ключ группы может быть массивом любой длиной
2, пакет, столбец для не массива данных исключаются из результатов, например key1, ключ2 таких колонны
3, GroupBy метод размера возвращает серия один , содержащего размер пакета

5.2, полимеризация (применение функциональной группы)

Полимеризация относится к любому процессу преобразования , способному производить данные из массива скалярных значений. Чуть выше операций найдет применение GroupBy непосредственно не результат доминанты, но промежуточные данные, полученные результаты могут быть получены путем проведения аналогично среднее, счетчик, мин рассчитываются и т.п., есть некоторые общие черты:
СУММА: Не Н.А. ценности и
медианный: Н. неарифметический среднее значение
станд, вар: несмещенный (знаменатель равен п-1) стандартное отклонение и дисперсия
прод: не-продукт Н.А. значение
первого, последнее: первое и последнее не-значение Н.А.

5.3, применяются

свобода GroupBy является наивысшим среди метода Применить, это объект, подлежащий обработке будет разделен на множество сегментов, причем каждый сегмент затем передаются в вызове функции, и, наконец, соединяя их друг с другом.

6, другие обычно используемые методы

панды обычный метод (для серий и DataFrame)
Среднее значение (Axis = 0, skipna = False)
SUM (оси =. 1)
sort_index (ось ..., по возрастанию) # строки или столбца индекса сортировки
sort_values (по, оси, восходящие) # Пресс значения отсортированные
применяются (FUNC, ось = 0) # пользовательские функции , используемые в каждой из строк или столбцов, функ возвращает скаляр или серии
applymap (FUNC) # функция применяется на DataFrame каждый элемент
карты (FUNC) # функция применяется каждый элемент в серии

рекомендация

отwww.cnblogs.com/allenchen168/p/12405307.html