zuknow learn together

新しい教材を作成

統計分析用語集

カード 48枚 作成者: Yuji Yamada (作成日: 2014/01/22)

  • オーバーフィッティング

解説面  クリックしてカードを裏返す

アプリをダウンロードして、このコンテンツを学習しよう! AppStore / Google Play

教材の説明:

統計分析に関する基本的な用語の解説(140字以内)を集めた暗記帳です。
定期的に @stats_terms_bot でもつぶやきます。随時更新中。

公開範囲:

公開

言語:

  • カード表 : 日本語
  • カード裏 : 日本語
  • このエントリーをはてなブックマークに追加
  • 1

    オーバーフィッティング

    補足(例文と訳など)

    答え

    • 統計モデルが、モデルの構築に使用したサンプルデータの特徴を過度に取り入れた結果として、過剰に適合している状態を指す。このような状態のモデルを使用して予測を行うと、極端に大きな(あるいは小さい)値を取ることがあり、あまり望ましい状態とは言えない。

    解説

  • 2

    回帰係数

    補足(例文と訳など)

    答え

    • 回帰分析において求められる回帰式y=ax+bのうち、aのことを指す。回帰係数が大きいほど、x(説明変数)がy(目的変数)に及ぼす影響が大きいことを表す。ただし係数の大小と「係数が信頼できるか」は無関係であり、その検証には回帰係数の検定を行う必要がある。

    解説

  • 3

    回帰分析

    補足(例文と訳など)

    答え

    • 2組のデータにおいて、中心的な傾向を表す直線(回帰直線)を求める分析手法のこと。一般的に最小二乗法によって求められる。 1つのデータに対して1つのデータを用いる場合は単回帰分析、1つに対して2つ以上のデータを用いる場合は重回帰分析と呼ぶ。

    解説

  • 4

    回帰平方和(SSR)

    補足(例文と訳など)

    答え

    • 「予測値」と「被説明変数の平均値」の差の平方和のことであり、回帰式によって現実のデータの変動をどの程度説明できているかを示す。回帰平方和と残差平方和を加えるたものが全平方和である。

    解説

  • 5

    回帰面

    補足(例文と訳など)

    答え

    • 2つの説明変数によって目的変数を説明する場合、説明式を図示すると3次元空間における回帰面として表現される。2次元における回帰線と意味合いは同じである。さらに言えば4次元以上の場合も意味合いは同じだが、図としては表現することが出来ない。

    解説

  • 6

    階級

    補足(例文と訳など)

    答え

    • 量的データにおいて、「データの値の範囲」をクラス分けしたもの。さらに、【階級幅】はその階級の上限と下限の差を表し、【階級値】は上限と下限の平均を指す。

    解説

  • 7

    外挿法

    補足(例文と訳など)

    答え

    • 既知のデータを用いた分析によって得られた結果に対して、既知のデータの範囲に含まれない数値を用いた予測を行うこと。既知のデータの範囲外であるため、予測精度の信頼性が下がる可能性がある。

    解説

  • 8

    確率密度関数

    補足(例文と訳など)

    答え

    • 確率分布のヒストグラムの階級の幅(=長方形の横幅)を極限まで狭めることによって得られる滑らかな曲線のこと。縦軸に確率密度、横軸に階級を取るグラフで表現され、確率は「面積」によって求められる。そのため、一つの値を取る確率は「0」となる。代表的なものに正規分布がある。

    解説

  • 9

    カテゴリーデータ

    補足(例文と訳など)

    答え

    • 定性的なデータの総称。分類するための整理番号として用いる「名義尺度」と、順位などの並び順を表す「順序尺度」が含まれる。別名:質的データ、カテゴリカルデータ

    解説

  • 10

    間隔尺度

    補足(例文と訳など)

    答え

    • 定量データのうち、原点(0)と目盛りが等間隔に定義されているもの。和や差は計算できるが、割り算に意味はない。例えば温度(℃)は間隔尺度だが、「20℃は16℃より4℃高い」ことは正しいが、「10℃は5℃の2倍熱い」わけではない。

    解説

  • 11

    記述統計学

    補足(例文と訳など)

    答え

    • 「既に手元に存在しているデータ」から情報を読み解くための分析を指す。例えば、平均値を計算する、グラフで表現する、などのこと。これに対して、手元にあるデータを「全体の中の一部」として捉え、一部から全体を推測する分析を推測統計学という。

    解説

  • 12

    共分散分析

    補足(例文と訳など)

    答え

    • 回帰分析と分散分析を組み合わせたような統計解析法であり、2水準以上の母集団においてそれぞれ回帰分析を行った結果、それら回帰係数がそれぞれ同じであると検定評価された場合に、各水準間でその平均値に有意差がないかどうか(回帰直線のy切片が異なるかどうか)を検定する手法。

    解説

  • 13

    クロスセクションデータ

    補足(例文と訳など)

    答え

    • ある一時点において、いくつかの異なった対象について調査・実験を行い、観測値を得た場合のデータ。例えば、2010年(ある一時点)の47都道府県(いくつかの異なった対象)における失業率データ(調査)などが該当する。別名:横断面データ

    解説

  • 14

    系列相関

    補足(例文と訳など)

    答え

    • 特に時系列分析において、誤差項間が相関している状態を指す。この場合、分析に際して悪影響が出るため、ダービンワトソン検定によって系列相関が起きているかをチェックする必要がある。別名:自己相関

    解説

  • 15

    決定係数

    補足(例文と訳など)

    答え

    • 説明変数が目的変数のどの程度を説明できるかを表す。0〜1の値を取り、より説明できているほど1に近づく。この値が低いということは、得られた重回帰式の予測能力が低いことを意味する。回帰平方和を全平方和で割ることによって計算される。別名:R2

    解説

  • 16

    誤差

    補足(例文と訳など)

    答え

    • 観測値と「母集団の回帰式から計算される推計値」のズレを指す。母集団の回帰式は知ることが出来ないため、誤差は実質的に知ることは不可能である。似たような言葉に「残差」があるが、残差は観測値と「標本の回帰式から計算される推計値」とのズレを指し、こちらは計算で求めることが出来る。

    解説

  • 17

    最頻値

    補足(例文と訳など)

    答え

    • 度数の最も大きい値のこと。最頻値と平均値、中央値を比較することで、分布の目安をつけることが出来る。また、最頻値が複数ある場合は、異なる性質のデータが混ざっている可能性も考慮する必要がある。別名:モード

    解説

  • 18

    最良線形不偏推定量(BLUE)

    補足(例文と訳など)

    答え

    • 線形の不偏推定量の中で、最も分散が小さいもののこと。推定された変数は必ず分散を持っているが、その分散が小さい状態のことを表す。最小二乗法を使うことが最も望ましい状態ときにその状態が成り立つが、実際問題としては奇麗に成り立つようなことはほぼない。

    解説

  • 19

    残差

    補足(例文と訳など)

    答え

    • 観測値と、「標本の回帰式から計算される推計値」とのズレのことを指す。似たような言葉に「誤差」があるが、誤差は観測値と「母集団の回帰式から計算される推計値」のズレを指す。母集団の回帰式は知ることが出来ないため、誤差は実質的に知ることは不可能である。

    解説

  • 20

    残差グラフ

    補足(例文と訳など)

    答え

    • 残差をグラフに表現したもの。残差グラフがプラスマイナスにランダムに上下していれば、予測の精度は信頼できると判断できる。逆にプラスかマイナスのどちらかに偏っていたり、規則性のある上下動や拡散・収束をしている時は他の要因の影響を疑う必要がある。

    解説

  • 21

    残差平方和(SSE)

    補足(例文と訳など)

    答え

    • 現実のデータの変動と回帰式による予測値との間の不一致を評価する尺度である。小さい値はデータに対してモデルがぴったりとフィットしていること示している。回帰平方和と残差平方和を加えるたものが全平方和である。

    解説

  • 22

    算術平均

    補足(例文と訳など)

    答え

    • 全てのデータを足してデータの個数で割ったもの。日常的に平均と言われるのは算術平均のこと。外れ値や分布の偏りによる影響を受けやすいという性質を持つため、中央値やモードと併記することが多い。別名:相加平均

    解説

  • 23

    サンプルサイズ

    補足(例文と訳など)

    答え

    • 観測されたデータの数。例えば、1991年から2010年(つまり20年分)の日本の失業率データがあったとしたら、そのサンプルサイズは20となる。別名:標本数

    解説

  • 24

    四分位線

    補足(例文と訳など)

    答え

    • データ全体を4つに分けたときに、それぞれの境目となる値のこと。データ全体を二等分する値が中央値であり、下から1/4の境目が第一四分位線、下から3/4が第二四分位線と呼ばれる。

    解説

  • 25

    重決定係数

    補足(例文と訳など)

    答え

    • 重回帰分析における決定係数。すなわち、n次元に広がる分布のうち、回帰面がどの程度を説明できるかを表す。決定係数と同様に、0〜1の値を取る。ただし、重回帰分析であっても決定係数と言われることが多く、重決定係数という言葉はあまり使われない。

    解説

  • 26

    重相関係数

    補足(例文と訳など)

    答え

    • 重回帰式の右辺を1つの変数と考え、それと目的変数(すなわち重回帰式の左辺)の相関係数のこと。なお、重相関係数の2乗は決定係数と呼ばれ、重回帰分析において説明変数が目的変数のどの程度を説明できるかを表す指標として用いられる。

    解説

  • 27

    自由度調整済み決定係数

    補足(例文と訳など)

    答え

    • 自由度によって調整した決定係数を指す。自由度が大きければ大きいほど決定係数からの乖離が少ないが、自由度が小さいときは決定係数よりも小さい値を取りやすい。なお、決定係数とは異なり、マイナスの値も取りうる。別名:調整済重決定係数、Adj R2

    解説

  • 28

    ステップワイズ回帰

    補足(例文と訳など)

    答え

    • 変数を増減させながら説明変数の数を決定していく方法。変数増加法では、一度採用された変数は落されることがなく、また変数減少法では一度落された変数は、採用されることはないという問題があるが、これによって双方のデメリットを克服することが出来る。別名:変数増減法

    解説

  • 29

    全平方和(SST)

    補足(例文と訳など)

    答え

    • 被説明変数の標本平均からの偏差の自乗和のこと。全平方和と合わせて残差平方和(SSE)を併せて用いることで、決定係数が計算される。逆にそれ以外の場面ではこの数字自体はあまり使われない。別名:全変動、TSS

    解説

  • 30

    ダービンワトソンの統計量

    補足(例文と訳など)

    答え

    • 系列相関を起こしているかどうかを検定するための統計量であり、誤差項の規則性の有無を判断するために用いる。0から4の値を取り、1.1から2.9くらいの範囲であればおおよそランダム性が保たれていると判断する。

    解説

  • 31

    タイムシリーズデータ

    補足(例文と訳など)

    答え

    • ある現象の時間的な変化に沿って計測されたデータのことを指す。例えば、2000年から2010年の東京におけるGDPや失業率等の経済統計はタイムシリーズデータに含まれ、日常的なレベルでは「ある店舗の月ごとの売上推移」なども同様である。別名:時系列データ

    解説

  • 32

    多重共線性

    補足(例文と訳など)

    答え

    • 重回帰分析において、説明変数間で非常に強く相関しているものが含まれている状況を指す。このような場合、t値が極端に悪くなる、決定係数が計算できなくなるなどの悪影響が生じるため、説明変数を減らす等して調整する必要がある。別名:マルチコ、マルチコリニアリティ

    解説

  • 33

    ダミー変数

    補足(例文と訳など)

    答え

    • 数字で表現できない定性的、属性的な要因を分析するために作る、「0」と「1」からなる変数。例えば天候であれば雨を1、晴れを0とした数列を作り、雨による影響を考慮した分析を行うことが出来る。

    解説

  • 34

    外れ値

    補足(例文と訳など)

    答え

    • 統計において他の値から大きく外れた値。外れ値が存在するデータを分析する際、外れ値によって決定係数が下がったり、モデルそのものの値が歪んだものとなってしまうため、ダミー変数を用いる等して対処する必要がある。

    解説

  • 35

    パネルデータ

    補足(例文と訳など)

    答え

    • 定めた一定範囲の対象に対して時系列データを集めたもの。言い換えれば、クロスセクションデータとタイムシリーズデータをミックスしたようなデータである。例えば、2000年から2010年の47都道府県における失業率データなどが該当する。

    解説

  • 36

    標準正規分布

    補足(例文と訳など)

    答え

    • 平均が0、分散が1の正規分布のこと。どのような正規分布も「平均を引き標準偏差で割る」ことで標準正規分布へ変換できる。平均から標準偏差±1の間に約68%、±2の間に約95%の分布が入る。

    解説

  • 37

    不均一分散

    補足(例文と訳など)

    答え

    • 誤差項の分散のランダム性が保たれていない状態。重回帰分析では誤差項の分散が均一であると仮定されているが、これが満たされていない場合(不均一分散の場合)、検定結果の信頼性が下がる。不均一分散の検定には、ホワイトの検定等の検定手法を用いる、グラフによる目視などがある。

    解説

  • 38

    分散拡大要因(VIF)

    補足(例文と訳など)

    答え

    • 多重共線性を検出するための指標のひとつである。ある一つの説明変数を、他のすべての説明変数で回帰したときの決定係数R2を用いて計算される。VIF=1/(1-R2)。VIFが10を越えた場合は多重共線性が存在すると判断される。

    解説

  • 39

    平均残差平方

    補足(例文と訳など)

    答え

    • 残差平方和(SSE)を自由度で割ったもの。これを平方根で表したものが推定された標準誤差となる。主として自由度調整済み決定係数を計算するときに使われるものであり、この値自体を探索的に使うことはほぼない。別名:平均平方残差

    解説

  • 40

    偏回帰係数

    補足(例文と訳など)

    答え

    • 重回帰式における説明変数の係数のことを指す。基本的には回帰係数と同じ意味であるが、回帰係数が重回帰式における説明変数全般を指しているのに対し、偏回帰係数と言う場合には、重回帰式における「ある一つの」説明変数の係数を指している。

    解説

  • 41

    変数減少法

    補足(例文と訳など)

    答え

    • 説明変数の候補すべてが含まれたモデル(フルモデル)からスタートして、変数を1つずつ減少させる方法。実用的には、外してはいけない変数を固定した上で、様々な組み合わせを試すことが多く、厳密に変数増加法を適用することは少ない。

    解説

  • 42

    変数増加法

    補足(例文と訳など)

    答え

    • 説明変数が1つも含まれないモデルからスタートして、変数を1つずつ増加させる方法。実用的には、外してはいけない変数を固定した上で、様々な組み合わせを試すことが多く、厳密に変数増加法を適用することは少ない。

    解説

  • 43

    名義尺度

    補足(例文と訳など)

    答え

    • 分類するための「記号」として便宜的に数字を割り当てたデータ。この数字を計算する事に意味はない。例えば野球ではポジションごとに「ピッチャー:1」「キャッチャー:2」など数字が割り振られているが、「1+2」は計算できないし、「2の方が1より良い」ということももちろんない。

    解説

  • 44

    回帰式

    補足(例文と訳など)

    答え

    • 回帰分析において求められるy=ax+bという数式のこと。それぞれ、y→目的変数(or 従属変数)、x→説明変数(or 独立変数)、a→回帰係数、b→定数項と呼ばれる。右辺の説明変数が2つ以上になったものは重回帰式と呼ばれる。

    解説

  • 45

    推測統計学

    補足(例文と訳など)

    答え

    • 手元にあるデータを「全体の中の一部」として捉え、部分から全体を予測する分析のことを指す。これに対し、手元にあるデータを読み解くための分析は記述統計学と呼ばれる。実務的に分析を行う場合、データの全体(これは母集団と呼ばれる)を集められないことが大半である。

    解説

  • 46

    線型結合

    補足(例文と訳など)

    答え

    • ベクトルの定数倍を加え合わせたもの。n個のベクトルが存在するとき、各ベクトルがただ一通りの表示を持つならば線型独立、少なくとも 2 通りの表示が可能であるならば線型従属という。

    解説

  • 47

    対数変換

    補足(例文と訳など)

    答え

    • 全てのデータのlogを取って分析に用いること。代表的には、乗法モデルを線形モデルとして分析する場合に用いられる。対数変換をした場合は、出てくる係数は弾力性となる。

    解説

  • 48

    同時信頼領域

    補足(例文と訳など)

    答え

    • 説明変数が2個以上の重回帰分析を行う際、それぞれの説明変数の係数が同時に信頼区間となっている領域を指す。実際には、同時信頼領域という言葉を使うことはあまりない。

    解説

56997

セットの学習コンテンツ

公開初月で
60,000
ダウン
ロード!

無料アプリはこちら!

英単語をウェブサイト
からzuknowに簡単登録

覚えたい単語を選択するだけ!
簡単にzuknowに登録することが
できます

Get the free Chrome Extension

トップ