(Py) Biblioteka Pandas`

Biblioteka Pandas

Praca z plikami CSV

# Przykład wykorzystania biblioteki Pandas:

import pandas

data = pandas.read_csv('single_family_home_values.csv')
print(data.head(2))

Własności (Properties)

  • data.shape – Zwraca ilość wierszy, kolumn załadowanych ze wskazanego pliku CSV.
  • data[[„kolumna-1„, „kolumna-n„]] – Zwraca uporządkowaną zawartość pliku CSV (Ograniczoną do wskazanych kolumn).

Metody (Methods)

  • data.head(liczba) – Zwraca uporządkowaną zawartość pliku CSV.
  • data.info() – Zwraca informacje na temat pobranej tabeli CSV, w tym wszystkie klucze wraz z ilością zapełnionych wierszy, typem danych.
  • data.describe() – Zwraca
  • data.fillna(wartość, inplace=True) – Zamienia puste pola, na podaną wartość (Wartość „Inplace” ustawiona na True, automatycznie wykonuje podaną akcję na wskazanych danych, domyślnie wymagane jest napisanie zmiennej za pomocą przypisania [data = data.fillna(0)] ).
  • data.dropna(wartość, inplace=True) – Usuwa wiersze z brakującymi polami (Wartość „Inplace” ustawiona na True, automatycznie wykonuje podaną akcję na wskazanych danych, domyślnie wymagane jest napisanie zmiennej za pomocą przypisania [data = data.dropna()] ).
  • data.kolumna.unique() – Zwraca wszystkie unikalne wartości zawarte w danej kolumnie.

Przykładowe wykorzystanie metod i własności biblioteki Pandas

print(data[data.estimated_value<=800000].shape)
#(12690, 18)

print(data.estimated_value<=800000)
# 0         True
# 1         True
# 2         True
# 3         True
# 4         True
#          …

print(data[data.estimated_value<=800000])
# id              address    city state  zipcode   latitude  ...  yearBuilt  lastSaleDate  lastSaleAmount  priorSaleDate  priorSaleAmount  estimated_value
# 0       39525749      8171 E 84th Ave  Denver    CO    80022  39.849160  …     2003.0    2009-12-17           75000     2004-05-13         165700.0           239753
# 1      184578398    10556 Wheeling St  Denver    CO    80022  39.888020  …     2004.0    2004-09-23          216935            NaN              NaN           343963
# 2      184430015  3190 Wadsworth Blvd  Denver    CO    80033  39.761710  …     1917.0    2008-04-03          330000            NaN              NaN           488840
# 3      155129946  3040 Wadsworth Blvd  Denver    CO    80033  39.760780  …     1956.0    2008-12-02          185000     2008-06-27              0.0           494073
# 4         245107      5615 S Eaton St  Denver    CO    80123  39.616181  …     1998.0    2012-07-18          308000     2011-12-29              0.0           513676
# …          …                  …     …   …      …        …  …        …           …             …            …              …              …

print(data[(data.estimated_value<=1000000)  &  (data.yearBuilt>2013) &  (data.zipcode==80209)])
# id              address    city state  zipcode   latitude  ...  yearBuilt  lastSaleDate  lastSaleAmount  priorSaleDate  priorSaleAmount  estimated_value
# 13229    3455195        866 S York St  Denver    CO    80209  39.700791  …     2015.0    2014-04-09          560000            NaN         127300.0           790003
# 13276   39512040        764 S York St  Denver    CO    80209  39.702607  …     2016.0    2012-07-23          420000     2010-11-29         385000.0           770622
# 13316   11586398        450 S Vine St  Denver    CO    80209  39.708351  …     2016.0    2015-02-11          571000     2007-01-03         399000.0           682810
# 13428   11586742    636 S Williams St  Denver    CO    80209  39.704969  …     2016.0    2015-07-22          637600     2007-02-02         481900.0           745777
# …          …                  …     …   …      …        …  …        …           …             …            …              …              …

print(data.zipcode.unique())
#[80022 80033 80123 80202 80203 80204 80205 80206 80207 80209]

Pozostałe tematy związane z bibliotekami / modułami Python

Podstawowe

Rozszerzone

SQL

PyQt 5

Automatyzacja

Data Mining

PDFPRINT

Robert T Kucharski

Cisco Network Engineer in GPW.

Dodaj komentarz