2020年2月21日金曜日

統計ソフトを使って、グラフを作ってみよう


近頃、統計ソフトの無料版というものが普及して、使い勝手がいい。
 無料だといって、ばかにしてはなるまい。
 十分に利用価値のあるものだ。

 ただ、ちょいと導入部が難しい。
 筆者も使い初めて1年くらいかな。
 tidyverse というパッケージを読み込んだあたりから出発しよう。

 Rという無料ソフトには、誰でも使えるデータが組み込んである。
 このデータを使って、確率密度曲線をグラフ化してみよう。

 まず、扱うデータを組み込む。
 dat1<- diamonds
 でデータを読み込む。
 このdiamonds というデータは、ダイヤの研磨後の製品を5万ぐらい検品したものらしい。
 内容をみよう。



 次に。
 次のように書き込む。

 dat1%>%filter(color=="G",cut=="Good")%>%ggplot()+geom_density(mapping = aes(x=price),color="blue")

 最初のcolor はダイヤの色で、上の表をみればいくつかの種類があることが分かる。cut についても同じだ。
 最後あたりにx=price とあるが、このprice を変更してみれば、別のグラフとなる。最後のcolor は線の色を指定したもの。red  とか green とすれば、指定した線の色となる。

 上のr言語で書かれた文によって、以下のグラフが作成された。
 
★追記
 少し、説明が不足しているようだ。
 上のグラフは、filter 関数によって、色が緑で、カットがgood な製品だけを取り上げ、それを価格とその価格に対応する全体からの割合を縦軸にとったもの。
 価格とその量の比率をグラフにしたものと言ってもいい。