Introducción a Datos Tabulados y Espaciales




Pay Notebook Creator: Roy Hyunjin Han0
Set Container: Numerical CPU with TINY Memory for 10 Minutes 0
Total0

Analizar datos tabulados

In [ ]:
import pandas as pd

Cargar

In [ ]:
# pd.read_csv
# pd.read_json
# pd.ExcelFile
In [ ]:
ls
In [ ]:
# t = pd.read_csv('https://earthquake.usgs.gov/earthquakes/feed/v1.0/summary/significant_month.csv')
t = pd.read_csv('terremotos.csv', parse_dates=['time', 'updated'])
t
In [ ]:
len(t)
In [ ]:
t[:2]
In [ ]:
# t.ix[t.index[0]]
t.iloc[0]

Guardar

In [ ]:
t.to_csv('/tmp/ejemplo.csv', index=False)
In [ ]:
cat /tmp/ejemplo.csv

Filtrar

In [ ]:
t = t[['time', 'latitude', 'longitude', 'mag', 'depth', 'place']].copy()
t
In [ ]:
t[t.mag < 5]
In [ ]:
t[(t.mag < 5) & (t.depth < 20)]

Añadir columnas

In [ ]:
t['depth_in_meters'] = t['depth'] * 1000
t

Añadir filas

In [ ]:
pd.concat([
    pd.DataFrame([[1, 2], [3, 4]]),
    pd.DataFrame([[5, 6], [7, 8]]),
])

Agrupar

In [ ]:
df = pd.DataFrame([
    ['one', 1.1],
    ['one', 1.2],
    ['two', 2.1],
    ['two', 2.2],
], columns=['name', 'value'])
df
In [ ]:
df.groupby('name').sum()

Trazar

In [ ]:
%matplotlib inline
t.plot(kind='scatter', x='mag', y='depth');

Exercicios

Datos abiertos

Encuentre una tabla en data.gov. Cargelo y guardelo.

Ejemplo: Demografía

pd.read_csv('https://data.cityofnewyork.us/api/views/kku6-nxdu/rows.csv')

Ejemplo: Nombres de niños y niñas

pd.read_csv('https://data.cityofnewyork.us/api/views/25th-nujf/rows.csv')