zuknow learn together

新しい教材を作成

データマイニング関連英単語

カード 22枚 作成者: haruchaco (作成日: 2015/10/15)

  • document-term matrix


    The document-term matrix contains rows corresponding to the documents and columns corresponding to the terms.

解説面  クリックしてカードを裏返す

アプリをダウンロードして、このコンテンツを学習しよう! AppStore / Google Play

教材の説明:

データ解析・データマイニング・人工知能に関連した英単語帳です。

公開範囲:

公開

言語:

  • カード表 : 英語
  • カード裏 : 日本語

クイズの回答選択肢:

指定する

  • このエントリーをはてなブックマークに追加
  • 1

    document-term matrix

    補足(例文と訳など)

    • The document-term matrix contains rows corresponding to the documents and columns corresponding to the terms.

    答え

    • 各文書の単語出現頻度データ
    • 誤答選択肢 文書の生存時間
    • 文書の分類データ
    • 文書間距離データ
    • 文書データ

    解説

    LDAのインプットは、document-term matrixという各文書の単語出現頻度データです。

  • 2

    hierarchical

    補足(例文と訳など)

    • A hierarchical database model is a data model in which the data is organized into a tree-like structure.

    答え

    • 階層的
    • 誤答選択肢 潜在的
    • 魅惑的
    • 現代的
    • 伝統的

    解説

    クラスタリング手法は大きく,最短距離法などの階層的手法 (hierarchical) と,k-means法などの分割最適化手法 (partitioning-optimization) に分けられます

  • 3

    k-means

    補足(例文と訳など)

    • K-means is one of the simplest unsupervised learning algorithms that solve the well known clustering problem.

    答え

    • K平均法
    • 誤答選択肢 Kの意味
    • Kの心
    • Kとは
    • Kとか

    解説

    k平均法(kへいきんほう、英: k-means clustering)は、非階層型クラスタリングのアルゴリズム。クラスタの平均を用い、与えられたクラスタ数k個に分類することから、MacQueen がこのように命名した。k-平均法(k-means)、c-平均法(c-means)とも呼ばれる。 何度か再発見されており、まず、Hugo Steinhus が1957年に発表し[1]、Stuart Lloyd が1957年に考案し、E.W.Forgy が1965年に発表し[2]、James MacQueen が1967年に発表し k-means と命名した[3]。

  • 4

    partitioning-optimization

    補足(例文と訳など)

    答え

    • 分割最適化手法
    • 誤答選択肢 閾値削減法
    • 分割手続き手法
    • 分離剥離法
    • 間違い

    解説

  • 5

    agglomerative

    補足(例文と訳など)

    • In the general case, the complexity of agglomerative clustering is O(n3).

    答え

    • 凝集型
    • 誤答選択肢 密集型
    • 潜在型
    • 集合型
    • 数値型

    解説

    階層型クラスタリングの型

  • 6

    divisive

    補足(例文と訳など)

    • Divisive: This is a "top down" approach: all observations start in one cluster, and splits are performed recursively as one moves down the hierarchy.

    答え

    • 分枝型
    • 誤答選択肢 破綻型
    • 破滅型
    • 分割型
    • 分類型

    解説

    階層的クラスタリング分枝型手法

  • 7

    Latent Dirichlet Allocation

    補足(例文と訳など)

    • Latent Dirichlet allocation (LDA) is a generative model that allows sets of observations to be explained by unobserved groups that explain why some parts of the data are similar.

    答え

    • LDAトピック解析
    • 誤答選択肢 トピック解析
    • 配置
    • 分割
    • クラスタリング

    解説

    トピック解析の手法の一つ。単語分割した文章のベクトルから話題を類推する。

  • 8

    Topic model

    補足(例文と訳など)

    • In machine learning and natural language processing, a topic model is a type of statistical model for discovering the abstract "topics".

    答え

    • トピックモデル解析
    • 誤答選択肢 トピック解析
    • 話題のファッションモデル
    • 話題型
    • 変換型

    解説

  • 9

    Term Frequency / Inverse Document Frequency

    補足(例文と訳など)

    • tf–idf, short for term frequency–inverse document frequency, is a numerical statistic that is intended to reflect how important a word is to a document in a collection or corpus.

    答え

    • TF-IDF法
    • 誤答選択肢 要約
    • 逆文書頻度
    • テキスト分析
    • 展開法

    解説

    tf-idfは、文書中の単語に関する重みの一種であり、主に情報検索や文章要約などの分野で利用される。 tf-idfは、tf(英: Term Frequency、単語の出現頻度)とidf(英: Inverse Document Frequency、逆文書頻度)の二つの指標にもとづいて計算される。

  • 10

    normalization

    補足(例文と訳など)

    • In statistics and applications of statistics, normalization can have a range of meanings.

    答え

    • 規格化
    • 誤答選択肢 定性化
    • 定量化
    • 安定化
    • ノーマルです

    解説

    TF・IDF法によって生成した検索語・文書行列について、各文書ベクトル(2列目からの各文書列 dvk→ )の長さ ||dvk→|| を 1 にすることを規格化(normalization)という。

  • 11

    Latent Semantic Analysis

    補足(例文と訳など)

    • Latent semantic analysis (LSA) is a technique in natural language processing, in particular in vectorial semantics, of analyzing relationships between a set of documents and the terms they contain by producing a set of concepts related to the documents and terms.

    答え

    • 潜在意味解析
    • 誤答選択肢 頻出構文解析
    • 最適平均解析
    • 特徴意味解析
    • 述語項構造解析

    解説

    潜在意味解析(英: Latent Semantic Analysis, LSA)は、ベクトル空間モデルを利用した自然言語処理の技法の1つで、文書群とそこに含まれる用語群について、それらに関連した概念の集合を生成することで、その関係を分析する技術である。潜在的意味解析とも。 1988年、アメリカ合衆国でLSAの特許が取得されている[1]。情報検索の分野では、潜在的意味索引または潜在意味インデックス(英: Latent Semantic Indexing, LSI)とも呼ばれている。

  • 12

    natural language processing

    補足(例文と訳など)

    • Natural language processing (NLP) is a field of computer science, artificial intelligence, and computational linguistics concerned with the interactions between computers and human (natural) languages.

    答え

    • 自然言語処理
    • 誤答選択肢 天然言語対応
    • 自然言語適正
    • 自然に言語が変わっていく

    解説

    自然言語処理(しぜんげんごしょり、英語: natural language processing、略称:NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。「計算言語学」(computational linguistics)との類似もあるが、自然言語処理は工学的な視点からの言語処理をさすのに対して、計算言語学は言語学的視点を重視する手法をさす事が多い[1]。データベース内の情報を自然言語に変換したり、自然言語の文章をより形式的な(コンピュータが理解しやすい)表現に変換するといった処理が含まれる。応用例としては予測変換、IMEなどの文字変換が挙げられる。

  • 13

    Morphological Analysis

    補足(例文と訳など)

    • Morphological analysis refers to the analysis of morphology in any of the many fields to use the term.

    答え

    • 形態素解析
    • 誤答選択肢 もっと解析
    • 深層解析
    • 機械学習

    解説

    形態素解析(けいたいそかいせき、Morphological Analysis)とは、コンピュータ等の計算機を用いた自然言語処理の基礎技術のひとつ。かな漢字変換等にも応用されている。 対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの品詞を判別する作業を指す。

  • 14

    n-gram models

    補足(例文と訳など)

    • An n-gram model models sequences, notably natural languages, using the statistical properties of n-grams.

    答え

    • Nグラム
    • 誤答選択肢 重量モデル
    • 重み付けモデル
    • ボトムアップ

    解説

    N文字インデックス法」「Nグラム法」などともいう。検索対象を単語単位ではなく文字単位で分解し、後続の N-1 文字を含めた状態で出現頻度を求める方法。Nの値が1なら「ユニグラム(uni-gram)」、2なら「バイグラム(bi-gram)」、3なら「トライグラム(tri-gram)」と呼ばれる。たとえば「全文検索技術」という文字列の場合、「全文」「文検」「検索」「索技」「技術」「術(終端)」と2文字ずつ分割して索引化を行ってやれば、検索漏れが生じず、辞書の必要も無い。形態素解析によるわかち書きに比べると、2つの欠点がある。意図したものとは異なる検索結果(いわゆる検索ノイズ)の発生と、インデックスサイズの肥大化である。検索ノイズの一例として、「京都」で検索すると「東京都庁」という適合しない検索結果が返ってくる場合が挙げられる。

  • 15

    Cluster analysis

    補足(例文と訳など)

    • Cluster analysis or clustering is the task of grouping a set of objects in such a way that objects in the same group (called a cluster) are more similar (in some sense or another) to each other than to those in other groups (clusters).

    答え

    • クラスタリング・クラスタ解析
    • 誤答選択肢 電線
    • 分割
    • プロット

    解説

    クラスタリング (clustering)、クラスタ解析(クラスタかいせき)、クラスター分析(クラスターぶんせき)は、データ解析手法(特に多変量解析手法)の一種。教師なしデータ分類手法、つまり与えられたデータを外的基準なしに自動的に分類する手法。また、そのアルゴリズム。さまざまな手法が提案されているが、大きく分けるとデータの分類が階層的になされる階層型手法と、特定のクラスタ数に分類する非階層的手法とがある。それぞれの代表的な手法としてウォード法、K平均法などがある。

  • 16

    Data mining

    補足(例文と訳など)

    • Data mining (the analysis step of the "Knowledge Discovery in Databases" process, or KDD),[1] an interdisciplinary subfield of computer science,[2][3][4] is the computational process of discovering patterns in large data sets ("big data") involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems.[2] The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use.

    答え

    • データマイニング
    • 誤答選択肢 データトレーニング
    • データヒーリング
    • 思いつかぬ

    解説

    データマイニング(英語: Data mining)とは、統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術のことである。DMと略して呼ばれる事もある。通常のデータの扱い方からは想像が及びにくい、ヒューリスティク(heuristic、発見的)な知識獲得が可能であるという期待を含意していることが多い。とくにテキストを対象とするものをテキストマイニング、そのなかでもウェブページを対象にしたものをウェブマイニングと呼ぶ。英語では"Data mining"の語の直接の起源となった研究分野であるknowledge-discovery in databases(データベースからの知識発見)の頭文字をとってKDDとも呼ばれる。

  • 17

    multivariate analysis

    補足(例文と訳など)

    • Multivariate analysis (MVA) is based on the statistical principle of multivariate statistics, which involves observation and analysis of more than one statistical outcome variable at a time. In design and analysis, the technique is used to perform trade studies across multiple dimensions while taking into account the effects of all variables on the responses of interest.

    答え

    • 多変量解析
    • 誤答選択肢 多次元解析
    • 多量解析
    • 変数分析

    解説

    多変量解析(英語版)(たへんりょうかいせき、英: multivariate analysis)あるいは多変量統計(英語版)(たへんりょうとうけい、英: multivariate statistics)とは、複数の結果変数からなる多変量データを統計的に扱う手法。主成分分析、因子分析、クラスター分析などがある。一般に、多変量解析を行うためには計算負荷が高く手計算ではきわめて困難だが、コンピュータの発展により、容易に実行できるようになった。 近年では共分散構造分析(「構造方程式モデリング」とも言う)が普及してきている。一方、探索的多変量解析で総称される各種の手法がデータマイニングなどでよく使われるようになっている。

  • 18

    Self-organizing maps

    補足(例文と訳など)

    • A self-organizing map (SOM) or self-organizing feature map (SOFM) is a type of artificial neural network (ANN) that is trained using unsupervised learning to produce a low-dimensional (typically two-dimensional), discretized representation of the input space of the training samples, called a map. Self-organizing maps are different from other artificial neural networks as they apply competitive learning as opposed to error-correction learning (such as backpropagation with gradient descent), and in the sense that they use a neighborhood function to preserve the topological properties of the input space.

    答え

    • 自己組織化写像
    • 誤答選択肢 自己投影配列
    • 連想配列

    解説

    自己組織化写像(じこそしきかしゃぞう、英: Self-organizing maps, SOM, Self-organizing feature maps, SOFM)はニューラルネットワークの一種であり、大脳皮質の視覚野をモデル化したものである。 自己組織化写像はコホネンによって提案されたモデルであり、教師なし学習によって入力データを任意の次元へ写像することができる。 主に1~3次元への写像に用いられ、多次元のデータの可視化が可能である。 出力となる空間をマップ(map)、競合層(competitive layer)、もしくは出力層(output layer)と呼ぶ。 出力層に対して入力データの空間を入力層(input layer)と呼ぶこともある。 自己組織化写像はコホネンマップ(Kohonen map)、コホネンネットワーク(Kohonen network)、自己組織化マップ、ソム(SOM)などと呼ぶこともある。 Self-organizing maps, SOM, Self-organizing feature maps, SOFM)

  • 19

    Artificial neural network

    補足(例文と訳など)

    • In machine learning and cognitive science, artificial neural networks (ANNs) are a family of statistical learning models inspired by biological neural networks (the central nervous systems of animals, in particular the brain) and are used to estimate or approximate functions that can depend on a large number of inputs and are generally unknown.

    答え

    • ニューラルネットワーク
    • 誤答選択肢 脳幹
    • 脊髄
    • 手足

    解説

    ニューラルネットワーク(神経回路網、英: neural network, NN)は、脳機能に見られるいくつかの特性を計算機上のシミュレーションによって表現することを目指した数学モデルである。研究の源流は生体の脳のモデル化であるが、神経科学の知見の改定などにより次第に脳モデルとは乖離が著しくなり、生物学や神経科学との区別のため、人工ニューラルネットワーク(人工神経回路網、英: artificial neural network, ANN)とも呼ばれる。

  • 20

    ward's method

    補足(例文と訳など)

    • In statistics, Ward's method is a criterion applied in hierarchical cluster analysis. Ward's minimum variance method inaccurate, see talk is a special case of the objective function approach originally presented by Joe H. Ward, Jr.

    答え

    • ウォード法
    • 誤答選択肢 ワード法
    • ワンド法

    解説

    Ward法(ウォードほう)は、クラスター分析の時に使用される、クラスター間の距離を定義する距離関数のひとつ。 今、集合PとQがあるとき、Ward法では、 d(P,Q) = E(P ∪ Q) - E(P) - E(Q) で定義されるd(P,Q)を、PとQの距離とする。 ただし、E(A)は、Aのすべての点からAの質量中心までの距離の二乗の総和。 特徴[編集] ウォード法は、クラスタの各値からその質量中心までの距離を最小化する。そのため、一般に、他の距離関数に比べて分類感度が高いといわれる。

  • 21

    Statistical classification

    補足(例文と訳など)

    • In machine learning and statistics, classification is the problem of identifying to which of a set of categories (sub-populations) a new observation belongs, on the basis of a training set of data containing observations (or instances) whose category membership is known.

    答え

    • 統計分類法
    • 誤答選択肢 統計学クラス
    • 安定分類法
    • 静的分類法

    解説

    統計分類(とうけいぶんるい、英: Statistical classification)とは、個体をグループ分けする統計的手続きの一つであり、分類対象に固有な1つ以上の特性についての数値化された情報に基づいて実施される。このとき、事前にラベル付けされた訓練例(英: training set)を用いる。統計的識別ともいう。

  • 22

    nearest neighbor method

    補足(例文と訳など)

    • The Nearest-Neighbor Algorithm (NN) is an approximate algorithm for finding a ( possibly) sub-optimal solution to the TSP.

    答え

    • 最短距離法
    • 誤答選択肢 近隣懐柔法
    • 接点法
    • 粘着近隣法

    解説

    d(C1,C2)=minx1∈C1,x2∈C2d(x1,x2) 単連結法 (single linkage method)

56678

セットの学習コンテンツ

公開初月で
60,000
ダウン
ロード!

無料アプリはこちら!

英単語をウェブサイト
からzuknowに簡単登録

覚えたい単語を選択するだけ!
簡単にzuknowに登録することが
できます

Get the free Chrome Extension

トップ