▲無料の使い勝手のいい統計ソフトが普及してきた。
こういう操作に慣れることで、やがては、人工知能へとつながっていくかもしれない。
数回前に示した確率密度曲線の重ねるという仕事の「やり方」で、別のやり方をしている人をネットで見つけた。
その人のやり方をご紹介したい。筆者のやり方と比較して頂いてお役に立てるかもしれない。
Rに組み込まれたオープンデータは、いくつかあるようだが、筆者がつかうdiamonds
の他に、iris
というものがある。
summary
でみてみよう。
summary(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
Min. :4.300 Min.
:2.000 Min. :1.000 Min. :0.100 setosa :50
1st
Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50
Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50
Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
3rd
Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
iris
というのは、アヤメの部分を計測した数値を集積したものと推定される。
R言語の表示は以下。
ggplot(iris,aes(Sepal.Length))+geom_density(aes(fill=Species),size=0.5,alpha=0.5)+xlim(3,10)
上の文での、大文字の部分は、大文字で記載しなければ、機能しない。
fill
の部分に注意してほしい。色を単に指定しているのではない。
最後のxlim
は、x軸の範囲を指定している。