それぞれのラベル(列)についてデータ数 (count)、平均 (mean)、分散 (var)、標準偏差 (std)などを計算して出力することができます。図2.28では df.mean() によって、データフレームの各ラベル(列)ごとの平均値を計算して出力しています。結果の一部を示します。DataFrameに対して、ヒストグラムなどを表示する手続きが用意されています。図2.29に各地区の世帯収入と住宅価格の中央値の分布を表示するプログラムと結果を示します。世帯収入は3万ドル、住宅価格は20万ドル程度にピークがあることがわかります。 図2.30に、matplotlib を用いて各地区の住宅価格の中央値と世帯収入の中央値の散布図を描いた例を示します。 plt.style.use(‘ggplot’)は、線の色等についてあらかじめ用意されているggplotというスタイルを使用することを指定しています。散布図の各点には緯度に応じて色をつけています。カリフォルニア州の北側の方が世帯収入などが少ないことがわかります。統計処理ヒストグラムの描画散布図の描画図2.28 各ラベル(列)の平均値図2.29:世帯収入と住宅価格のヒストグラム図2.30:カリフォルニア州の各地区の住宅価格の中央値と世帯収入の中央値の散布図を描画するプログラムと描画結果。各点の色は緯度をあらわす。import matplotlib.pyplot as pltplt.figure(figsize=(8,6))plt.style.use('ggplot')plt.scatter('median_house_value','median_income', data=df,c=df['latitude'],cmap='rainbow')plt.xlabel('Median House Value (US $)',fontsize=18)plt.ylabel('Median income (x10000 US $)',fontsize=18)plt.xticks(fontsize=16)plt.yticks(fontsize=16)plt.colorbar().set_label('latitude',fontsize=18)plt.show()df.mean()実行結果longitude -119.562108latitude 35.625225housing_median_age 28.589353total_rooms 2643.664412df[['median_income','median_house_value']].hist(bins=40,figsize=(9,3))# mean of each columnarray([[<matplotlib.axes._subplots.axessubplot object="" at="" 0x7fcc20ded5d0="">, <matplotlib.axes._subplots.axessubplot object="" at="" 0x7fcc1f956690="">]], dtype=object)25 </matplotlib.axes._subplots.axessubplot></matplotlib.axes._subplots.axessubplot>
元のページ ../index.html#25