2020年2月28日金曜日

統計ソフトを使って、グラフを作成してみよう。その9


無料の使い勝手のいい統計ソフトが普及している。
 いつかは、自分自身の人工知能への挑戦につながるかもしれない。

 ずっと、確率密度曲線にこだわってきたが、筆者なりに、自分のやりたいことに一番つながっているような気がするからだ。

 Rに組み込まれているオープンデータであるdiamonds を使って、確率密度曲線をいくつかに区分してみよう。

 まず、summary(diamonds)

carat                            cut                       color                  clarity
Min. :0.2000          Fair : 1610                D: 6775          SI1 :13065
1st Qu.:0.4000       Good : 4906              E: 9797          VS2 :12258
Median :0.7000      Very Good:12082     F: 9542            SI2 : 9194
Mean :0.7979         Premium :13791       G:11292           VS1 : 8171
3rd Qu.:1.0400       Ideal :21551              H: 8304           VVS2 : 5066
Max. :5.0100                                             I: 5422            VVS1 : 3655
                                                                  J: 2808 (Other): 2531
price
Min. : 326
1st Qu.: 950
Median : 2401
Mean : 3933
3rd Qu.: 5324
Max. :18823
 縦横が揃わないため、一部を割愛した。

 R言語の命令文は
 まず、cut でやってみよう。

  ggplot(data=diamonds,aes(x=price,fill=cut))+geom_density(alpha=0.5)+facet_wrap(~cut)
 

 次に、color でやってみる。

 ggplot(data=diamonds,aes(x=price,fill=color))+geom_density(alpha=0.5)+facet_wrap(~color)