2020年2月25日火曜日

統計ソフトを使ってグラフを作成してみよう。その4


使い勝手のいい無料の統計ソフトが普及してきた。
 こういう操作に慣れ親しむことが ai(人工知能) とかいう未来へつながっているのだろう。

 Rに組み込まれたオープンデータであるdiamonds というデータを
 summary で見て、概要をつかもう。

  carat                       cut     color      clarity
Min. :0.2000    Fair : 1610     D: 6775    SI1 :13065
1st Qu.:0.4000  Good : 4906     E: 9797     VS2 :12258
Median :0.7000   Very Good:12082 F: 9542    SI2 : 9194
Mean :0.7979   Premium :13791   G:11292   VS1 : 8171
3rd Qu.:1.0400  Ideal :21551   H: 8304    VVS2 : 5066
Max. :5.0100                 I: 5422       VVS1 : 3655
                              J: 2808 (Other): 2531

depth           table                        price
Min. :43.00 Min. :43.00            Min. : 326
1st Qu.:61.00 1st Qu.:56.00      1st Qu.: 950
Median :61.80 Median :57.00   Median : 2401
Mean :61.75 Mean :57.46          Mean : 3933
3rd Qu.:62.50 3rd Qu.:59.00      3rd Qu.: 5324
Max. :79.00 Max. :95.00            Max. :18823
縦横がうまくつながらないので一部割愛した。

 で。
 上にあるclarity というのは、どうもダイヤの透明度らしい。
 前回に続けて、filter関数を用い、cut 及び color を統一して、clarity を上から3つ選んで、3つの確率密度曲線をつくってみよう。

 まず、3つの選択をする。
 
dia1<-diamonds
dia2 <- dia1%>%filter(color=="G",cut=="Ideal",clarity=="SI1")
dia3 <- dia1%>%filter(color=="G",cut=="Ideal",clarity=="VS2")
dia4 <- dia1%>%filter(color=="G",cut=="Ideal",clarity=="SI2")

 上のように、color と cut と同じとして、透明度clarity を変化させてみる。
 これから、グラフを作成する。
 なお、グラフは色塗りしてみた。色塗りの関数は、fill alpha は透過度を決める

ggplot()+geom_density(data=dia2,mapping=aes(x=price),fill="red",alpha=0.4)+geom_density(data=dia3,mapping = aes(x=price),fill="green",alpha=0.4)+geom_density(data=dia4,mapping = aes(x=price),fill="blue",alpha=0.4)

 
  色塗りするとインパクトのある画像となるなぁ。