2020年2月27日木曜日

統計ソフトを使って、グラフを作成してみよう。その6


無料の統計ソフトが普及して使い勝手がいい。
 人工知能なるものへの導入部としても使ってみる価値はありそうだ。

 先日、田舎へ移転したらお金をあげるたら—という記事があって、なんと情けないアイデアだと思った。
 金を使うというなら、田舎にこそ、巨大な「人工知能開発センター」を作って、田舎の人間を研究員にしてしまえばいい。
 日本は、その他おおぜい社会だ。
 田舎の百姓であろう漁師であろうと老人であろうと、「ビシビシ鍛えれば使いものになる」さ。

 話がそれた。
 Rに組み込まれた5万個ぐらいのdiamonds というオープンデータから、filter 関数をもちいて、絞り込み、500個ぐらいのサンプルから、ヒストグラムと確率密度曲線を重ねてみよう。

 まず、絞り込みから。

dih1<-diamonds
dih3 <- dih1%>%filter(color=="G",cut=="Ideal",clarity=="SI2")

 color cut clarity を一つ選んで、500個程度のサンプル数を得た。

 これから、ヒストグラムと 確率密度曲線を重ねたグラフを作成してみた。

 ggplot(dih3,aes(x=price,y=..density..))+geom_histogram(fill="red",alpha=0.2,color="grey",size=.5)+geom_density(fill="green",alpha=0.2,size=.5)

 histogram alpha は透過度、 color は線の色、size は線の太さを意味する。
 確率密度曲線 のfill は色塗りの色、alpha は透過度 sizeは線の太さ を意味する。