固有表現抽出
-
固有表現抽出
- 非構造化テキスト内の固有表現を自動的に検出してカテゴリー化する処理
固有表現抽出の用途
検索結果のナビゲーション
-
楽天
- キーワードと紐づくジャンル
-
ワードごとの関連性
- 人物相関的な関連の表示方法
- 同一指示(co-reference)
- ブースティング
- フィルタリング
大まかな要約
- 大量のデータを人力では限界がある
- Rosette
other
- データマイニング
- e-Discovery
- 評判分析
Rosette 固有表現抽出システム(REX)の特徴
-
ガゼティア(各種用語辞書)
-
単語および対応する固有表現タイプのリスト
野茂英雄 松井秀喜 松坂大輔 ---> PERSON:BASEBALL
-
単語および対応する固有表現タイプのリスト
-
正規表現
-
カスタマイズ可能な文字パターンおよび対応する固有表現タイプ
[日月火水木金土]曜日 --> TEMPORAL:DAY_OF_WEEK
-
カスタマイズ可能な文字パターンおよび対応する固有表現タイプ
-
統計的モデル
- コンテキスト依存
- 手作業でタグ付けされた大規模コーパスで訓練
- 文脈を見て、固有表現を解析する。
-
このモデルの作成は、統計を使う。
川崎さんは川崎を出ました。 ---- ---- PERSON LOCATION
固有表現編集
- 3つの固有表現抽出プロセッサの競合を解決
- ヒューリスティック・ブラックリストで優先順位(カスタマイズ可能)
標準で用意される固有表現タイプ
- 人名
- 宗教
- 組織名
- 国籍
- 地名
-
etc..