2020年2月24日月曜日

統計ソフトを使って、グラフを作成してみよう。その3


最近、無料の統計ソフトが普及して、使いがってがいい。
 Rには、diamonds というオープンデータが組み込んである。

 どうやら、研磨後のダイヤの検品データを蓄積したものらしい。
 前回に引き続き、filter 関数を用いて、条件を2つにしてやってみよう。

 まず、オープンデータであるdiamonds って以下のようなもの。


 color をみてみると、よく分からないが、いくつかの「色」で分けてあるようだ。
 そこで。
 cut は同じとして、色だけ3つ選んでみよう。

 以下のようにする。

 dia1 <- diamonds
 dia2<-dia1%>%filter(cut=="Good",color=="E")
 dia3<-dia1%>%filter(cut=="Good",color=="J")
 dia4<-dia1%>%filter(cut=="Good",color=="H")

 つまり、cut は、good に統一し、color だけ、3つの色を選んでみた。
 3つの確率密度曲線を重ねたR言語と図が、以下。

ggplot()+geom_density(data=dia2,mapping=aes(x=price),color="red")+geom_density(data=dia3,mapping= aes(x=price),color="green")+geom_density(data=dia4,mapping = aes(x=price),color="blue")


 x軸は、price、  縦軸は、密度であるが、x軸の価格に対応した全体からの割合がy軸にとってある。
 価格とその取扱量の大小と解しても問題ないだろう。


 diamonds の概要だけでも調べてみよう。
 summary(diamonds) から、color だけ抜書する。
color
D: 6775
E: 9797
F: 9542
G:11292
H: 8304
I: 5422
J: 2808ax.

 色の記号は、具体的な色を表示したものではないことがわかる。