▲最近、無料の統計ソフトが普及して、使いがってがいい。
Rには、diamonds
というオープンデータが組み込んである。
どうやら、研磨後のダイヤの検品データを蓄積したものらしい。
前回に引き続き、filter
関数を用いて、条件を2つにしてやってみよう。
まず、オープンデータであるdiamonds
って以下のようなもの。
color
をみてみると、よく分からないが、いくつかの「色」で分けてあるようだ。
そこで。
cut
は同じとして、色だけ3つ選んでみよう。
以下のようにする。
dia1
<- diamonds
dia2<-dia1%>%filter(cut=="Good",color=="E")
dia3<-dia1%>%filter(cut=="Good",color=="J")
dia4<-dia1%>%filter(cut=="Good",color=="H")
つまり、cut
は、good に統一し、color
だけ、3つの色を選んでみた。
3つの確率密度曲線を重ねたR言語と図が、以下。
ggplot()+geom_density(data=dia2,mapping=aes(x=price),color="red")+geom_density(data=dia3,mapping= aes(x=price),color="green")+geom_density(data=dia4,mapping = aes(x=price),color="blue")
ggplot()+geom_density(data=dia2,mapping=aes(x=price),color="red")+geom_density(data=dia3,mapping= aes(x=price),color="green")+geom_density(data=dia4,mapping = aes(x=price),color="blue")
x軸は、price、 縦軸は、密度であるが、x軸の価格に対応した全体からの割合がy軸にとってある。
価格とその取扱量の大小と解しても問題ないだろう。
diamonds
の概要だけでも調べてみよう。
summary(diamonds) から、color
だけ抜書する。
color
D:
6775
E:
9797
F:
9542
G:11292
H:
8304
I:
5422
J:
2808ax.
色の記号は、具体的な色を表示したものではないことがわかる。