辛辞苑
ホーム
タグ
カテゴリー
このページについて
ja
#テキストマイニング
TF-IDF - てぃーえふあいでぃーえふ
TF-IDFとは、テキスト中の単語を数値化してえこひいきする魔法の秤。文書コーパスの広大さと頻出語のうるささを天秤にかけ、たかが単語をまるで王侯貴族扱いする技。単語が文書に何回現れるかと、コーパス全体でどれだけ珍しいかを掛け合わせるだけで、神々しく重要度を決定する。だが本質的には、ユーザに「数式を信じろ」と迫るだけの詐欺師の一種である。あらゆる文脈を無視して「数値だけが真実」と言い張る、デジタル時代のカルト信仰。
固有表現抽出 - こゆうひょうげんちゅうしゅつ
固有表現抽出とは、大量のテキストという名のジャングルから人名や地名、組織名といった特権階級を収穫し、人間の言語が管理可能だと錯覚させるデジタルの狩猟術。多くの場合、抽出結果はブラックボックスと化し、誰もその精度を真に理解できない。実務では「もうちょっとチューニングでどうにかなる」という魔法の言葉と共に、ひたすらパラメータがいじり倒される。時には、見落とされていた珍妙な固有表現が漏れ出し、システムの信用を一瞬で破壊する爆弾となる。結局、データサイエンティストは朝までログと戦いながら「人の名前ごときにこんな苦労して…」と嘆く羽目になる。