基礎統計学講座 @ ウィキ内検索 / 「データフレーム」で検索した結果

検索 :
  • データフレーム,Excelとの連携
    ...説明します. データフレームの作成 Rで作成することのできるデータの構造には、ベクトルのほか行列?、配列?、これらを組み合わせたリスト?などがありますが、まずはExcel形式と親和性の高いデータフレームについて説明します。データフレームはRの標準的なデータ構造ですから、ベクトルとデータフレームさえ知っていればかなり色々なことができるようになります。 データフレームは同じ長さのベクトルを複数個集めたものだと考えるとわかり易いと思います。データフレームはdata.frame()関数により作成します。引数としては同じ長さのベクトルを与えます。 name - c("a", "b", "c", "d", "e", "f") point - c(...
  • Rの一般的な使い方
    ...いた計算t検定 データフレーム,Excelとの連携 データフレームの作成代入と呼び出し エクセルからデータを持ってくる 2. Rによるプログラミング 繰り返し処理によるシミュレーション 繰り返し処理for文 for文を使ったシミュレーション事例ブートストラップ法 関数の作成 関数を作る関数複数行の処理と返り値 関数の例フィボナッチ数の計算for文を使った解法 再帰呼び出しを使った解法 一般項を求める式を用いた解法 まとめ
  • 関数の解説
    ...character データフレームの生成data.flame read.delim オブジェクトの操作代入 参照 計算 グラフの描画 数値計算一般gamma, factorial, lgamma, lfactorial 統計mean var, sd 統計処理 基本的な操作、関数 パッケージの読み込み Rはそのままの状態でも多くの関数が使えますが、パッケージと呼ばれるものを読み込むと使える関数がさらに多くなります。パッケージと言うのは関数が詰まった辞書みたいなものだと思ってもらえばいいですが、中にはウィンドウが開いて特殊な操作ができるようになるようなものまであります。また、起動時に関数が使えるのも起動時に自動的に読み込まれるパッケージがいくつかあるためです。 パッケージの読み込みはlibrary関数により行います。例えば基本パッケージ(追加ダウンロードの必要が無い)の一...
  • Rの基本操作
    ...みが返ってきます. データフレーム Rが扱えるベクトル以外のデータ形式としては,データを2次元に並べた行列(matrix),3次元以上に並べた配列(array),異なる形式のオブジェクトをまとめたリスト(list)などがありますが,なかでも良く使うであろう形式にデータフレーム(dataframe)というものがあります.例えばExcelなどからデータを読み込む場合は大抵がデータフレームになります. データフレームは複数のベクトルをまとめたもので,外見はExcelのデータシートのような2次元配列です.1つの列が1つのベクトルに対応し,ベクトル内での型は同じでないといけませんが列間の型は異なっていてもかまいません.データフレームはdata.farame()関数で作成します. a - 1 5 b - c(T, F, T, T, T) # TRUE,FALSE は省略して書ける...
  • R
    ...扱いベクトルと代入 データフレーム,Excelとの連携 2. Rによるプログラミング繰り返し処理によるシミュレーション 関数の作成 関数の解説 このWiki中に出てきたRの関数をまとめておきます。
  • ベクトルと代入
    ...並び方をした配列?やデータフレーム?などもありますが,基本はベクトルです.データフレームなどもバラせばベクトルになります.これらは必要になったときに改めて解説します. オブジェクトと代入、要素へのアクセス ベクトルの作り方はわかりました.しかしベクトルを作ってみても現時点ではコンソールに表示して終了です.これでは面白くありません.せっかく作ったベクトルをどこかへ一時的に保管しておきたいところです. そこで使われるのが「オブジェクト」です.Rではデータや関数を含め、全てが「オブジェクト」として扱われます。オブジェクトには小さなものから大きなものまで、数値から文字列、論理値まで、割と何でもしまうことが可能です.オブジェクトへの収納の仕方はこうです. x - 1 10 ここでオブジェクトは「x」で,半角の記号2つで作った矢印「 -」によって「xのなかに『1 10』...
  • ブートストラップ法
    ブートストラップと呼ばれる統計の手法があります。これは標本のデータから重複を許したサンプリング(普通は標本数と同じだけ)を行い、新たな標本を作製する、といった作業を何度も繰り返す手法です。この標本からのサンプリングという作業をリサンプリングと呼びます。こうして作られた複数の標本から計算される統計量(例えば平均、分散)のばらつき方は、母集団からサンプリングを何度も繰り返した時のばらつき方に近いという性質があります。つまり、複雑で難解な確率密度関数や中心極限定理を使うことなく、平均値や分散といった統計量がどのようにばらつく可能性を秘めているのかをあぶりだすことが可能なわけです。 なにはともあれやってみましょう。まずは標本データのベクトルを用意します。 x - c(1, 2, 3, 5, 3, 4, 4, 7, 8, 10, 1) 全部で10の要素からなるデータです。ここからリ...
  • 2. バラツキはばらせという話
    分散分析法に関する話です。 以下レジメ 睡眠薬の効果をためす実験 6人の被験者をランダムに3人ずつ2組にわける。一方の3人には睡眠薬を与え、他方の3人には睡眠効果の無い粉を睡眠薬だと偽って投与し、それぞれの睡眠時間を記録する。前節のゴルフとのデータの相違点は、データに対応がないことである。どのようにして、睡眠薬の効果を評価できるか。 データを分解する 各グループの平均値を求めることはできるが、そのデータには、被験者のもつ個人差、そのときの条件が影響した偶然誤差が含まれている。そのような誤差に隠されている薬効差を見出す必要がある。 →データを総平均、薬効差、誤差の3つに分解する(表53、p.123)。 薬効差を検定する考え方 「薬効の差」をどのように検定するか? →薬効差によるバラつきの大きさが個人差や偶然誤差のバラつきと同程度ならば、実用上、薬効に差がな...
  • 1. パン屋のインチキをあばく話
    レジメのPDFファイルをアップしておきます。また、このページの最後にレジメ中のグラフ作成に使用したRのソースコードとその解説を記載しておきます。Rのコンソールへコピペすることで同様のグラフが描画されるはずです。よろしければ参考にしてください。 以下PDFファイルの中身と同様のレジメです。 米をパンに切り替えたら血圧が下がるのか? 白米に比べライ麦パンなどはカリウムを多く含むため、血圧上昇の予防になる。パンでなくとも玄米でも可。 ヒストグラム 「横軸にパンの重さをとり、縦軸にパンの数をとって(p38)」描いた次にようなグラフをヒストグラムと呼ぶ。 図1.ヒストグラム 本文中では60、70、80…グラムのパンの重さを数えたと書いてあるが、実際にはパンの重さがそのような調度の値だけをとるということはありえない。本文中表10(p39)は正しくは次のような...
  • 相関係数の幾何的解釈
    ここでは、通常「ピアソンの積率相関係数」と呼ばれるものについて解説します。 相関係数の定義正の相関、負の相関 相関係数の計算 相関係数の幾何的解釈 相関係数の定義 正の相関、負の相関 身長と体重、気温と湿度、葉面積と果実重量...などといった、「2組の数値がセットになったデータ」があったとしましょう。抽象的なもので説明をするために、2組の数値を文字を使って次のように表すことにします。 ここで、と、と、...、とがそれぞれ1つのセットになっています。 この2つの数値間に「相関係数」と呼ばれる値を計算することができます。相関係数は-1~1までの値をとり、1に近ければ「正の相関」、0に近ければ「相関なし」、-1に近ければ「負の相関」であるといわれます。相関が正であるというのは、の値が増えればの値が増加するということを意味し、相関が負であるというのは...
  • 最小二乗法
    ※wikiで編集すんの面倒なのでたまたま見つけたブログへのリンクを貼っておきます。 http //anchoret.seesaa.net/article/108419878.html 回帰直線 2つの連続型変数が一組となったデータ(ex. 身長と体重、国語の成績と数学の成績、温度と湿度など)があるとします。このようなデータは散布図によって図示するのが最も適しているでしょう。例えばここに適当に作ったxとyという2組のデータを用いて散布図を描いて見ましょう。 x - c(1, 3, 4, 5, 7, 2, 8, 9, 10, 6) y - c(0, 4, 3, 7, 3, 4, 7, 9, 12, 8) plot(x, y, pch=16) xとyの間に何らかの関係を見て取るかもしれません。もしもxの関数としてyを予測することが出来たならば大変に有用なことでしょう。つま...
  • 1. ゴルファーの腕比べの話
    平均値の差の検定に関する話です。同じように「平均値の差」を検定しても、結果が異なることがある、というようなことが述べられています。 以下レジメ 2人のゴルファーAとBが腕比べをした。 ゴルフ場のコースは様々なので、公平にするために、6箇所のゴルフ場で勝負を決めることにした。 成績は以下の様になった。 ゴルファー\ゴルフ場 イ ロ ハ ニ ホ ヘ 平均 A 209 205 210 208 207 207 207.7 B 201 197 211 200 208 199 202.7 A-B +8 +8 -1 +8 -1 +8 +5 符号検定 各ゴルフ場ごとにAのスコアからBのスコアを引き、+と-の符号の数で検定する。 (+ 4個、- 2個) 帰無仮説:AとBの腕前という母集団の平均値に差がない   →正しいならば、+ 3個、- 3個が期待できる。 ...
  • 4. 人工なまずの話
    デンバー地震 「デンバー地震(デンバーじしん)とはアメリカ合衆国コロラド州のデンバー市の北の地域で1962年の春頃から1965年11月ごろまで地震が頻発した現象である。一ヶ月に数十回から多いときで60回以上も地震が発生していた。(Wikipedia「デンバー地震」より)」  当時、コロラド鉱山大学の大学院生と地質コンサルタントにより、震源地周辺の工場が汚水を地下に注入しているのが原因だ、との指摘がなされた。  はたしてこの指摘は本当だろうか?(当時は陸軍、地質学者、米国地質研究所から否定を食らった)  相関係数を用いて地震の発生回数と汚水注入量の関係を調べてもよいが、ここでは「時間」という情報を生かすために時系列に沿って地震発生回数と汚水注入量をプロットしたグラフより双方の関係を調べる。  具体的には、グラフの「波」に注目する。 大波の検定  地震回数と汚水注入量のグラフ...
  • 2. 美人コンテストの審査員を審査する話
    第4章 第二項 「美人コンテストの審査員を審査する話」 本項概要  本項は「審査員の審査の正当性」を例題とし,スピアマンの順位相関係数(Spearman’s correlation coefficient by rank test)について解説する.本検定で順位相関係数を導くための手順を本書を元に解説する,最後に一般にスピアマンの順位相関係数を導く一般式を紹介し,式についての説明を行なう. 検定の目的 スピアマンの順位相関係数は順位データから得られる相関の指標であり,順位一致の程度を示す.ピアソンの相関係数の検定に比べ,分布の正規性を仮定しなくても良いと言う利点がある.したがって,例題のような審査員の順位の一致度(一致するものではないが,全く一致しない場合は審査員の資質が問われる)のデータに用いられる. 相関係数の導き方 本書では3項目の順位付けを例とし,2つの順...
  • 2. 飲んべえ族に耳寄りな話
    と 正規分布する母集団のんぷの中心を示す母集団、および分布のひろがりを示す母標準偏差は、通常は直接知ることができない。 →母集団から抽出した資料から求めた資料平均をの推定値。資料の標準偏差をの推定値とする。 →との精度はどのくらいか? (検討ポイント) 平均値、標準偏差の正規分布する母集団から、資料をこ抽出して求めたの平均値の分布は?またその分布から何がわかるか? ノーマルチップス シューハートのノーマル・チップス(表27)をグラフ化すると以下のような正規分布になる。 図1.シューハートのノーマル・チップス。総枚数998枚。 平均値30、標準偏差10の正規分布。 この中から無作為にチップを抜き出す行為は、が30、が1の正規分布する母集団から試料を抽出することに値する。このときのの分布はどのようになるか? シミュレーション よくかきまぜ...
  • 2. 舌自慢を検定する話
    棄却検定という手法の中核をなす概念である、「帰無仮説」と「危険率」という2つのキーワードに関するお話です。 1. 帰無仮説(null hypothesis)1) 帰無仮説の特質 2) 帰無仮説の設定 2. 危険率1) 危険率の意味 2) 危険率の設定 仮説検定の誤り 第一種の過誤と第二種の過誤のいずれに注意すべき? 引用・参考文献 そのほかの情報 カード合わせの問題 以下レジメ 1. 帰無仮説(null hypothesis) 1) 帰無仮説の特質 一般に、仮説というものは、それを正しいものと仮定して利用するか、あるいは、仮説を証明しようという意図で設定されるものであるが、統計的仮説検定における帰無仮説は、捨てられる(棄却できる)かどうかを検定するために設定される。 つまり、「データが偏っているので2つの変数の間には関係がある」という積極的な仮説を立てるので...
  • 1. 誤った観察が身近にしばしばあるという話
    独立性・相関といった話題の導入部分です。 以下レジメ 誤った調査から誤った結論を導き出すことは、日常の身近な観察の場合にしばしばみられる。 予防注射の効果 ある地区の保健所が、200人の住民について調査したところ、その中の80人が冬の間に流感*にかかったことがわかった。その80人のうち、予防注射を受けていたものは40人で、受けていなかったものも40人であった。受けたものも受けなかったものも同数であるということから、予防注射の効果はないと考えてよいか?     *流感:流行性感冒(インフルエンザ) 独立性の検定 流感にかかった人、かからなかった人双方について、予防注射の有無を調べると表55のようなデータが得られた。 流感にかかった 流感にかからなかった 計 予防注射を受けた 40 100 40 予防注射を受けなかった 40 20 60 計 80 1...
  • ノーマル・チップスを用いたシミュレーションをRで再現する
    ノーマル・チップスの作成 サンプリング チップ実験1、の分布 練習問題問題 1 問題 2 問題 3 問題の解答問題 1 問題 2 問題 3 ノーマル・チップスの作成 テキストp72、「シューハートのノーマル・チップス」をベクトルとして作成する。 norm.tips - rep(0 60, c( 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5, 7, 8, 9,11,13,15,17,19,22, 24,27,29,31,33,35,37,38,39,40, 40,40,39,38,37,35,33,31,29,27, 24,22,19,17,15,13,1...
  • 中心極限定理
    中心極限定理というのは大ざっぱにいって次のような定理のことです。 平均、分散である何らかの分布からサンプリングされたデータの平均値は、平均がで分散が/(サンプリング数)の正規分布に従う。 実際にはサンプル数が無限大という制限がありますが、別に無限大じゃなくても十分に大きければ漸近的に正規分布します。 どんな分布をする集団でも半ば強引に正規分布にしてしまえるこの定理は統計学において極めて重要なもので、ノンパラメトリック(分布に関するパラメータを使わない)を称する検定の多くも統計量が漸近的に正規分布することを利用していたりします。 …とだけ言っても何のことやら分からないかもしれませんので、以下で多少丁寧にその中身を確認していきましょう。 母集団の設定 確認していきましょう、とか偉そうなことを言ってはみましたが、別に中身が理解できているわけでも証明ができる...
  • 参考文献,情報
    参考情報 統計学一般 書籍 ※リンク先はAmazonです. 佐藤 信『推計学のすすめ』 課題図書その1. 柳井 晴夫ほか『やさしい統計入門』 これもブルーバックスですが、多少統計の教科書に近いスタイルかもしれません。広く浅く、それでいて高度なことまで扱っています。知識0から内容を全て理解するには説明不足ですが、概観をつかむのにはいいかもしれません。また、まともに入手可能な唯一のC.R.ラオの日本語テキストでもあります(Amazonの著者情報には載ってませんが)。インドの統計学者であるC.R.ラオ(Calyampudi Radhakrishna Rao)のテキストは評価の高いものが多いのですが、どれもこれも入手が困難となっています。興味のある人は図書館などで探してみると良いかもしれません。 ウェブサイト 我楽多頓陳館「統計学入門」 『数学者達の裏をかいて、彼等を...
  • Rの基本的な使い方
    基本操作入力 Rエディタの使い方 基本操作 入力 インストールが終了したら,デスクトップに出現したアイコンなどをクリックしてみてください.次のような画面が現われるはずです. これはRのコンソールと呼ばれるもので,ここに直接アイコンを打ち込んでいくことで計算をしたりグラフを描画したりすることができます.カーソルキーの↑を押すと今までに入力したコマンドの履歴が呼び出せたり,何文字か入力した状態でTabキーを2度押すとその文字を含むコマンド(関数)の一覧を表示してくれたりといくつかの機能があります. 実際にいくつかのコマンドを入力してみましょう. ここでは次のように入力しました. 7+8 #足し算 2*3 #掛け算 sin(2*pi) #三角関数と円周率pi exp(10) #指数関数 「...
  • 繰り返し処理によるシミュレーション
    関数の使い方(参考:Rの基本的な使い方)とベクトルの扱い(参考:ベクトルと代入)がある程度理解できてきたら、あとはそれに繰り返し処理の知識を加えることによってシミュレーションができるようになります。ここでは繰り返し処理に関する解説をします。 繰り返し処理for文 for文を使ったシミュレーション事例ブートストラップ法 繰り返し処理 for文 まずはfor文です。というかそもそも「繰り返し処理」とは何ぞという疑問があるかも知れません。簡単に言えば、「どこかの数値をちょっとずつ変えながら同じような命令を何度も実行させる」ということです。例を見て、実際に実行させてみれば理解できると思います。 for文はこのような構造をしています。 for(i in M){式} ここでiというのが繰り返しのたびに変化させる数値で、「変数」といいます。そして、inの後ろのMですが、こ...
  • 推計学のすすめ
    目次 「推計学のすすめ」です(リンク先Amazon)。 最初の課題図書です。 議論はちょっぴり浅いかもしれませんが、感覚的な理解に焦点を絞り、(擬似的な)シミュレーションによって各種の分布を作り出していくやり方は入門書にぴったりだと思います。出版当時(1968年!)はカードをシャッフルして引いて~なんていう「シミュレーション」しか無理でしたが、いまや我々はPCを自由に使えますし、Rという簡単な統計ソフトandプログラミング言語も手にしています。ほんのすこしRの勉強に力を傾ければ、実際に本物のシミュレーションを行ってみることができます。それによって統計の勉強がよりスムーズに進められることでしょう。 ブルーバックスじゃないかーとかくさらずに頑張っていきましょー ※節のタイトルをクリックするとレジメへ飛びます! 第1章 偶然か特殊能力か? ―仮説検定という考え方―1. 精神力...
  • 3. 時計メーカーを選ぶ話
    2 つの標本の分散(不偏分散) が異なっているとき、その違いが偶然に生じうる程度のものであるか、あるいは偶然に生ずるとはいえない程度のものであるかはどのように判断すべきか? 分散比 分散の比較はその値で行ってもいいが、統計学では2 つの分散の比の大きさ、分散比を利用する。ポイントは「1 つの母集団から抽出された2 つの標本の分散比はどのように分布するか」、すなわち分散比F は偶然によってどのような分布となるかという点にある。 分布 同じ母集団から2 つの標本を抽出した場合、その標本間の分散比は分布に従う。分布は、分散比を計算するときに分子にした標本の自由度、分母にした標本の自由度という2 つの情報によって決定される。分子の自由度は第一自由度、分母の自由度は第二自由度と呼ばれることが多い。 分布表 多くの統計学の教科書に付録として付いている分布表は、「それ以上の分散比...
  • Rのインストールと設定
    インストールと初期設定 Windows XP,Vistaを想定しています.他のOSでも大差無いとは思いますが細かいことは分かりません. Windowsの場合,http //cran.md.tsukuba.ac.jp/bin/windows/base/より最新版のインストーラをダウンロードしてきて実行するだけでインストールは完了します.ただし次の点に注意して下さい. Windows Vistaの場合は管理者権限でインストールする(インストーラ右クリック→管理者として実行) 「バージョン番号をレジストリに保存する」のチェックを外さない(R User configrationにより設定する場合) 次に設定です.設定ファイルの作成や環境変数の設定ですが,今回は簡単のためR User Configrationというツールを使用します. http //androids.happy.nu/d...
  • カード合わせの問題
    問題を解くにあたっての仮定 確率の定義 「全てのカードが異なる引きかた」のパターンmiss(0) miss(1) miss(2) miss(3) miss(4) miss(5) miss(n) 全てのカードが異なる確率 Rを使って計算 これは次のような問題です。 1~nまでの番号が書いてあるカードのセットがある(各番号はひとつのセットに1枚ずつしか入っていない) 2人の人間がこのセットをそれぞれ1つずつ持つ それぞれセットの中から適当に選び出した1枚のカードを見せ合う カードはセットに戻さず、再び1枚のカードを選び出し、見せ合う 最後の一枚まで3~4の試行を繰り返したとき、2人が一度も同じカードを引かない確率というのはカードのセットの総数にかかわらずおよそ1/3程度である ぱっと考えたくらいでは「カードが全て合わない確率が1/3」というのが納得しにくいですね。カードの総数が増...
  • Rの実行環境構築
    Rの実行環境の構築 インストールした直後の状態だと,Rの実行環境としてはRterm.exeやRgui.exeが存在していると思います.RguiにはRのスクリプトを編集して実行する最低限の機能が備わったReditorが付属していますが,あくまで最低限の機能が付属しているだけです.特にRの編集に適しているわけではありません. そこでここではRを外部のエディタから利用する方法を解説します.これにも様々な方法がありますが,今回利用するのはEmacsというテキストエディタとESSというプログラムです. Emacs(Meadow)のインストールと設定 Windows向けのEmacs実装としてMeadowと呼ばれるものがあります.これにはネットインストーラが用意されているので比較的簡単にインストールすることができます. 環境変数の設定 Meadowに限らずHOMEという環境変数を利用するアプリケ...
  • @wiki全体から「データフレーム」で調べる

更新順にページ一覧表示 | 作成順にページ一覧表示 | ページ名順にページ一覧表示 | wiki内検索