2020年2月26日水曜日

統計ソフトを使って、グラフを作成してみよう。その5


carat  という言葉は知っていても、意味を知らなかった。
 調べてみると、200ミリグラム(0.2グラム)ということで、重さの単位だということだ。

 Rに組み込まれているdiamonds summary でみると、carat という単位がでてくる。

 その部分をみようか。
  carat
Min. :0.2000
1st Qu.:0.4000
Median :0.7000
Mean :0.7979
3rd Qu.:1.0400
Max. :5.0100
 で。
 filter 関数で絞ったものを重さで4つに分けてみよう。
 前回を同じく、cut と  color は統一した。

 dia1<-diamonds
 dic2 <- dia1%>%filter(color=="G",cut=="Ideal",carat<0.4)
 dic3 <- dia1%>%filter(color=="G",cut=="Ideal",carat>=0.4,carat<0.7)
 dic4 <- dia1%>%filter(color=="G",cut=="Ideal",carat>=0.7,carat<1.04)
 dic5 <- dia1%>%filter(color=="G",cut=="Ideal",carat>=1.04)

 4つに分けてみた。
 これで、各確率密度曲線を作成し、重ねてみよう。

ggplot()+geom_density(data=dic2,mapping=aes(x=price),color="red",linetype=1)+geom_density(data=dic3,mapping = aes(x=price),color="green",linetype=2)+geom_density(data=dic4,mapping = aes(x=price),color="blue",linetype=3)+geom_density(data=dic5,mapping=aes(x=price),color="purple",linetype=4)

 色塗りするのではなく、線の色と線種で分けてみた。
 線種の選択は、 linetype でする。数字で選択もできるが、”twodash” という表現での選択もできる。


 上の図をみてみると、ダイヤは大きさだけが主たる価格の決定権をもっていることが分かる。
 
★追記
 どうも、線が細くてみえづらいようだ。
 線の太さを大きくしてみよう。 size=1  という形で指定する。
 指定後のR言語での命令文は。

ggplot()+geom_density(data=dic2,mapping=aes(x=price),color="red",linetype=1,size=1)+geom_density(data=dic3,mapping = aes(x=price),color="green",linetype=2,size=1)+geom_density(data=dic4,mapping = aes(x=price),color="blue",linetype=3,size=1)+geom_density(data=dic5,mapping=aes(x=price),color="purple",linetype=4,size=1)    

 で。
 線を太くした図は、以下。