Word Label

QUOT quote 引用符
-LRB- left bracket 左括弧
-RRB- right bracket 右括弧
PU punctuation 句読点
A
ADJI イ-adjective イ形容詞
ADJN ナ-adjective ナ形容詞
ADV adverb 副詞
AX auxiliary verb 助動詞
AXD auxiliary verb, past tense 助動詞;過去テンス
C
CL classifier 助数詞
CONJ coordinating conjunction 並列接続詞
D
D determiner 限定詞
F
FW foreign word 外来語
I
INTJ interjection 間投詞
M
MD modal element モーダル要素
N
N noun 名詞
NEG negation 否定辞
NPR proper noun 固有名詞
NUM numeral 数詞
P
P particle 助詞
PASS passive 受動助動詞
PNL prenominal 連体詞
PRO pronoun 代名詞
Q
Q quantifier 量化詞
QN noun with quantifier 量化名詞
S
SYM symbol 記号
V
VB verb or verb stem 動詞(語幹)
VB0 light verb 軽動詞
VB2 secondary verb 補助動詞
W
WADV indeterminate adverb 疑問副詞
WD indeterminate determiner 疑問限定詞
WNUM indeterminate numeral 疑問数詞
WPRO   疑問代名詞

助詞句:PP

助詞は、句を駆動し、水の溜り場である節を目指す。

(節はまた、風の中、襤褸のように舞い、旗のようにはためく。文とは旗のようなものである。)

主要格助詞:が、を

ヲ格は馬の鞍部であり、ガ格はその鞍部に乗る騎手である。

ヲ格は、また領域である場所を示し、場所は起点(カラ格)と着点(ニ格)をもって線条を表し、方向(ヘ格)が示される。デ格は線条の交差する場所である、風の交わる場所だ。

ト格は神の言葉を受ける箱のようなもの、あるいは遠来の客を迎える車。ヨリ格は神の宿る樹木、神聖な基準。

ノ格は偏在する主語、私も含めた偏在する魂。

副詞節

副詞節(IP-ADV):姉妹関係($)

たら節

IP-ADV < ( (VB < あっ) $ (P < たら) )

(IP-ADV (PP  (NP  (IP-REL  (NP-SBJ *T*)
                (ADJN 巨大)
                (AX な))
           (N 地震))
        (P が))
     (NP-SBJ *が*)
     (VB あっ)
     (P たら)) 

 

Keyaki Treebank と Stanford Tregex について

 Keyaki Treebank は、統語解析されたコーパスであり、日本語文法の様々な文法現象を例示するための基盤となりうる。

 Stanford Tregexは、統語解析されたコーパスに対する検索ツールであり、Tree状コーパスのNode への正規表現によって検索が可能となるGUIツール。(tree regular expressions の略称)

 

Keyaki Treebank: http://www.compling.jp/keyaki/

Stanford Tregex: https://nlp.stanford.edu/software/tregex.sh

叙述補部構文(SCV): 名詞

Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD)

Treebank: news_KAHOKU_* from Keyaki Treebank

Match stats: 635/3785

下位分類:です(でした、)

Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD $ (AX < です))

Match stats: 44/3785

Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD $ (AX < でし))

Match stats: 14/3785

 

下位分類:だ(だった、)

Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD $ (AX < だ))

Match stats: 122/3785

Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD $ (AX < だっ))

Match stats: 37/3785

 

下位分類:だろう、でしょう、なのでしょう*

Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD $ (AX < だろ))

Match stats: 2/3785

Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD $ (AX < でしょ))

Match stats: 2/3785

 

下位分類:助動詞なし(、ゼロ)

Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD $ (AX < *))

Match stats: 387/3785

Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD) & !< AX

Match stats: 7/3785

 

下位分類:で(もある、ある、はありません、はない、あった、ありたい*

Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD $ (AX < で))

Match stats: 26/3785

 

下位分類:のだ、んだ、のでしょう*、(はず)のです*

Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD $ (AX < で))

Match stats: 5/3785

 

下位分類:はずのです*

下位分類:ありたい*

Total:646

Tregex: negative検索

IP-MAT < (NP-SBJ $ IP-SMC $ VB) & !< NP-OB1 & !< NP-OB2

IP-MATの直接支配下にあり、同時に姉妹関係をもつNP-SBJ と IP-SMC と VB、ただしNP-OB1 と NP-OB2は存在してはいけない。

 

Tregex Pattern:IP-MAT < (NP-SBJ $ IP-SMC $ VB) & !< NP-OB1

Treebank: news_KAHOKU_* from Keyaki Treebank

Match stats: 16/3785

 

Tregex Pattern:IP-MAT < (NP-SBJ $ IP-SMC $ VB) & !< NP-OB1 & !< NP-OB2

Treebank: news_KAHOKU_* from Keyaki Treebank

Match stats: 15/3785

注記:叙述補部を持つ構文(SCV, SOCV)の検索パターンを見つける途中にて、。