2020年2月23日日曜日

統計ソフトを使ってグラフを作成してみよう。その2


無料の統計ソフトが普及して、随分、便利になった。
 Rというソフトに入っているdiamonds というオープンデータをつかって、グラフを作成し、今度は、重ねてみよう。

 diamonds について詳しく知っている訳ではないが、データを見ていると研磨後のダイヤの検品を5万件ぐらい集積したものらしい。

 概要は、以下。

 で。
 表をみていると、cut でいくつかの種類に分かれているようだ。
 この種類毎のグラフを重ねてみよう。

 まず、種類毎のデータを作成する。今回は、3つを選択する。

  data1 <- diamonds

  dat2<-data1%>%filter(cut=="Ideal")
  dat3<-data1%>%filter(cut=="Good")
  dat5<-data1%>%filter(cut=="Very Good")

 これで、3種類のデータができた。
 これをグラフ化する。
 ggplot()+geom_density(data=dat2,mapping=aes(x=price),color="red")+geom_density(data=dat3,mapping = aes(x=price),color="green")+geom_density(data=dat5,mapping = aes(x=price),color="blue")

 これで、3種類の確率密度曲線が重なったグラフができた。
 やはり、重ねると比較しやすい。
 x軸が価格であり、縦軸は、価格に対応する全体からの割合。
 価格と取り扱い量の大小とでも解釈すればいいか。