▲無料の使い勝手のいい統計ソフトが普及している。
いつかは、自分自身の人工知能への挑戦につながるかもしれない。
ずっと、確率密度曲線にこだわってきたが、筆者なりに、自分のやりたいことに一番つながっているような気がするからだ。
Rに組み込まれているオープンデータであるdiamonds
を使って、確率密度曲線をいくつかに区分してみよう。
まず、summary(diamonds)
carat cut color clarity
Min. :0.2000 Fair : 1610 D: 6775 SI1 :13065
1st
Qu.:0.4000 Good : 4906 E: 9797 VS2 :12258
Median :0.7000 Very Good:12082 F: 9542 SI2 : 9194
Mean :0.7979 Premium :13791 G:11292 VS1 : 8171
3rd
Qu.:1.0400 Ideal :21551 H: 8304 VVS2 : 5066
Max. :5.0100 I: 5422 VVS1 : 3655
J:
2808 (Other): 2531
price
Min. : 326
1st Qu.: 950
Median : 2401
Mean : 3933
3rd Qu.: 5324
Max. :18823
縦横が揃わないため、一部を割愛した。
R言語の命令文は
まず、cut
でやってみよう。
ggplot(data=diamonds,aes(x=price,fill=cut))+geom_density(alpha=0.5)+facet_wrap(~cut)
次に、color
でやってみる。
ggplot(data=diamonds,aes(x=price,fill=color))+geom_density(alpha=0.5)+facet_wrap(~color)