2020年2月27日木曜日

統計ソフトを使って、グラフを作成してみよう。その7


無料の使い勝手のいい統計ソフトが普及してきた。
 こういう操作に慣れることで、やがては、人工知能へとつながっていくかもしれない。

 数回前に示した確率密度曲線の重ねるという仕事の「やり方」で、別のやり方をしている人をネットで見つけた。

 その人のやり方をご紹介したい。筆者のやり方と比較して頂いてお役に立てるかもしれない。

 Rに組み込まれたオープンデータは、いくつかあるようだが、筆者がつかうdiamonds の他に、iris というものがある。
 summary でみてみよう。

  summary(iris)
Sepal.Length  Sepal.Width         Petal.Length     Petal.Width       Species
Min. :4.300    Min. :2.000          Min. :1.000       Min. :0.100       setosa :50
1st Qu.:5.100     1st Qu.:2.800       1st Qu.:1.600    1st Qu.:0.300    versicolor:50
Median :5.800    Median :3.000     Median :4.350   Median :1.300  virginica :50
Mean :5.843       Mean :3.057        Mean :3.758       Mean :1.199
3rd Qu.:6.400     3rd Qu.:3.300      3rd Qu.:5.100     3rd Qu.:1.800
Max. :7.900        Max. :4.400         Max. :6.900        Max. :2.500

 iris というのは、アヤメの部分を計測した数値を集積したものと推定される。
 R言語の表示は以下。

 ggplot(iris,aes(Sepal.Length))+geom_density(aes(fill=Species),size=0.5,alpha=0.5)+xlim(3,10)
 
 上の文での、大文字の部分は、大文字で記載しなければ、機能しない。
 fill の部分に注意してほしい。色を単に指定しているのではない。
 最後のxlim は、x軸の範囲を指定している。