2018-07-01から1ヶ月間の記事一覧

ノードの関係から全体図を書いてみる

黒字はPhrase Label、赤字はWord Label

Excercises:日本語コーパスを使った検索の練習帖

PPの配下にあるのは? NP? PP配下にあるIP-ADVを調べる PP配下にあるIP-ADVを調べる② PP配下にあるIP-ADVを調べる ③:タラ条件文はどこに? PP配下にあるADVPを調べる PP配下にあるCP-THTを調べる IP-RELの上位下位のノードは何? IPの配下にある要素とは?…

Phrase Label

A ADVP adverb phrase 副詞句 B CND* conditional 条件 CONJ* coordinate conjunction 並列接続 CONJP conjunction phrase 句接続詞句 CP-EXL exclamative 感嘆節 CP-FINAL projection for sentence final particle 終助詞節 CP-QUE question 疑問節 CP-THT …

Tregex Patterns:検索パターン一覧

検索パターンは下記。よく使われるのは、支配関係、先後関係、親子関係、姉妹関係。使用方法は練習帳を。 *オリジナルサイトは、TregexPattern (Stanford JavaNLP API) Symbol Meaning 支配関係 A < B A immediately dominates B(AがBを直接支配) A > B A…

Tregex:コーパス検索ツール

TregexはStanford大学によって開発されたNLPプログラムの一部、ソフトはMac、Linux、Windowsで利用可能。GUI画面は下記 ① 選択されたコーパス ② 検索欄:検索パターンを記入 ③ 検索結果 ④ 検索結果の個数 ⑤ 検索結果のツリー図 *Downloadサイト The Stanfor…

コーパスの検索

Searching Corpus Tregex(コーパス検索ツール) Tregex Patterns(検索パターン一覧) Tregex and "Regular Expression"(検索における正規表現) Keyaki Treebank(日本語コーパス) Tagging Label of Keyaki Treebank 1(Tag付けラベル) : Word Label Ta…

IPの配下にある要素とは?

tregex: IP-MAT : 4241 tregex: IP-MAT < @PP : 6294 tregex: IP-MAT < /VB/ :4496 tregex: P-MAT < /ADJ/ : 345 tregex: IP-MAT < @NP : 7010 tregex: IP-MAT !< @PP : 649 tregex: IP-MAT !< @PP & !< @NP : 19 tregex: IP-MAT !< @PP & !< @NP !< @multi …

PP配下にあるCP-THTを調べる

PP配下にあるCP-THT tregex: CP-THT > PP : 21

PP配下にあるADVPを調べる

PP配下にあるADVP tregex: ADVP > PP : 74 tregex: ADVP > (PP < (P < と)) : 21 ゆっくりと、次々と tregex: ADVP > (PP < (P < は)) :19 基本的には、まずは tregex: ADVP > (PP < (P < は)) : 4 現在も、少しでも tregex: ADVP > (PP < (P < の)) : 10 一…

PP配下にあるIP-ADVを調べる ③:タラ条件文はどこに?

タラ条件文は、PP配下ではなく、IP直下に、IP-ADV配下のP:タラとしてアノテーションされている tregex: IP-ADV < (P <たら) : 27 tregex: IP-ADV > @IP < (P < たら) : 27 バ条件文も、同様 tregex: IP-ADV < (P <ば) : 84 tregex: IP-ADV > @IP < (P < ば) :…

PP配下にあるIP-ADVを調べる ②

IP-ADV、CONJの場合のPPの主要部の種類 tregex: PP <, IP-ADV & $. CONJ & < (P < が) : 158 も : 1など : 1だけでなく : 3し : 5とか : 1にもかかわらず : 1 IP-ADV、CNDの場合のPPの主要部の種類 tregex: PP <, IP-ADV & $. CND & < (P <と) : 66 ては/て…

IP-RELの上位下位のノードは何?

IP-RELは常にNP配下にあるわけだが、さらにその上位は? まずはPPがあげられる。その場合の下位構造を調べてみよう 第一にその述語は イ形容詞:IP-REL > (NP > PP) & < ADJI : 204 ナ形容詞:IP-REL > (NP > PP) & < ADJN : 324 動詞:IP-REL > (NP > PP) & …

PP配下にあるIP-ADVを調べる

アノテーションタグとしてCND等が記述されているので、まず tegrex: PP <, IP-ADV & $. CND : 117 tegrex: PP <, IP-ADV & $. SCON : 127 tegrex: PP <, IP-ADV & $. CONJ : 170 アノテーションタグが記述されていない tregex: PP <, IP-ADV & !$. SCON & !$…

PPの配下にあるのは? NP?

PPの配下に現れる要素は? まず、PPの総数: tregex: PP : 16,873 NPを下位にもたないPPは? tregex: PP !< NP : 725 NPを配下にもつPP : 16,148 さらに、下位がIP-ADPでない場合? tregex: PP !< NP & !< IP-ADV : 172 IP-ADVを配下にもつPP : 553 さらに、…

Word Label

QUOT quote 引用符 -LRB- left bracket 左括弧 -RRB- right bracket 右括弧 PU punctuation 句読点 A ADJI イ-adjective イ形容詞 ADJN ナ-adjective ナ形容詞 ADV adverb 副詞 AX auxiliary verb 助動詞 AXD auxiliary verb, past tense 助動詞;過去テンス…

助詞句:PP

助詞は、句を駆動し、水の溜り場である節を目指す。 (節はまた、風の中、襤褸のように舞い、旗のようにはためく。文とは旗のようなものである。) 主要格助詞:が、を ヲ格は馬の鞍部であり、ガ格はその鞍部に乗る騎手である。 ヲ格は、また領域である場所…

正規表現:否定

2項目否定 IP-ADV [< (AX !< *) & (AX !< で)]

副詞節

副詞節(IP-ADV):姉妹関係($) たら節 IP-ADV < ( (VB < あっ) $ (P < たら) ) (IP-ADV (PP (NP (IP-REL (NP-SBJ *T*) (ADJN 巨大) (AX な)) (N 地震)) (P が)) (NP-SBJ *が*) (VB あっ) (P たら))

Keyaki Treebank と Stanford Tregex について

Keyaki Treebank は、統語解析されたコーパスであり、日本語文法の様々な文法現象を例示するための基盤となりうる。 Stanford Tregexは、統語解析されたコーパスに対する検索ツールであり、Tree状コーパスのNode への正規表現によって検索が可能となるGUIツ…

叙述補部構文(SCV): 名詞

Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD) Treebank: news_KAHOKU_* from Keyaki Treebank Match stats: 635/3785 下位分類:です(でした、) Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD $ (AX < です)) Match stats: 44/3785 Tregex Pattern: IP-MAT <…

Tregex: negative検索

IP-MAT < (NP-SBJ $ IP-SMC $ VB) & !< NP-OB1 & !< NP-OB2 IP-MATの直接支配下にあり、同時に姉妹関係をもつNP-SBJ と IP-SMC と VB、ただしNP-OB1 と NP-OB2は存在してはいけない。 Tregex Pattern:IP-MAT < (NP-SBJ $ IP-SMC $ VB) & !< NP-OB1 Treebank:…

二重目的語構文(SOOV)

Tregex Pattern: IP-MAT < (VB $ NP-OB1 $ NP-OB2) Treebank: news_KAHOKU_* from Keyaki Treebank Match stats: 25/3785

他動詞構文(SOV)

Tregex Pattern: IP-MAT < (VB $ NP-OB1) Treebank: news_KAHOKU_* from Keyaki Treebank Match stats: 1393/3785 Memo: このパターン検索だと、pp-を、pp-に、等を拾ってしまうので、NP-OB1の下位分類を見てみよう。 Tregex Pattern: IP-MAT < (VB $ (NP-OB…