QUOT | quote | 引用符 |
-LRB- | left bracket | 左括弧 |
-RRB- | right bracket | 右括弧 |
PU | punctuation | 句読点 |
A | ||
ADJI | イ-adjective | イ形容詞 |
ADJN | ナ-adjective | ナ形容詞 |
ADV | adverb | 副詞 |
AX | auxiliary verb | 助動詞 |
AXD | auxiliary verb, past tense | 助動詞;過去テンス |
C | ||
CL | classifier | 助数詞 |
CONJ | coordinating conjunction | 並列接続詞 |
D | ||
D | determiner | 限定詞 |
F | ||
FW | foreign word | 外来語 |
I | ||
INTJ | interjection | 間投詞 |
M | ||
MD | modal element | モーダル要素 |
N | ||
N | noun | 名詞 |
NEG | negation | 否定辞 |
NPR | proper noun | 固有名詞 |
NUM | numeral | 数詞 |
P | ||
P | particle | 助詞 |
PASS | passive | 受動助動詞 |
PNL | prenominal | 連体詞 |
PRO | pronoun | 代名詞 |
Q | ||
Q | quantifier | 量化詞 |
QN | noun with quantifier | 量化名詞 |
S | ||
SYM | symbol | 記号 |
V | ||
VB | verb or verb stem | 動詞(語幹) |
VB0 | light verb | 軽動詞 |
VB2 | secondary verb | 補助動詞 |
W | ||
WADV | indeterminate adverb | 疑問副詞 |
WD | indeterminate determiner | 疑問限定詞 |
WNUM | indeterminate numeral | 疑問数詞 |
WPRO | 疑問代名詞 |
正規表現:否定
2項目否定
IP-ADV [< (AX !< *) & (AX !< で)]
Keyaki Treebank と Stanford Tregex について
Keyaki Treebank は、統語解析されたコーパスであり、日本語文法の様々な文法現象を例示するための基盤となりうる。
Stanford Tregexは、統語解析されたコーパスに対する検索ツールであり、Tree状コーパスのNode への正規表現によって検索が可能となるGUIツール。(tree regular expressions の略称)
Keyaki Treebank: http://www.compling.jp/keyaki/
Stanford Tregex: https://nlp.stanford.edu/software/tregex.sh
叙述補部構文(SCV): 名詞
Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD)
Treebank: news_KAHOKU_* from Keyaki Treebank
Match stats: 635/3785
下位分類:です(でした、)
Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD $ (AX < です))
Match stats: 44/3785
Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD $ (AX < でし))
Match stats: 14/3785
下位分類:だ(だった、)
Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD $ (AX < だ))
Match stats: 122/3785
Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD $ (AX < だっ))
Match stats: 37/3785
下位分類:だろう、でしょう、なのでしょう*
Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD $ (AX < だろ))
Match stats: 2/3785
Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD $ (AX < でしょ))
Match stats: 2/3785
下位分類:助動詞なし(*、ゼロ)
Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD $ (AX < *))
Match stats: 387/3785
Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD) & !< AX
Match stats: 7/3785
下位分類:で(でもある、である、ではありません、ではない、であった、でありたい*
Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD $ (AX < で))
Match stats: 26/3785
下位分類:なのだ、なんだ、なのでしょう*、(はず)なのです*
Tregex Pattern: IP-MAT < (NP-SBJ $ NP-PRD $ (AX < で))
Match stats: 5/3785
下位分類:はずなのです*
下位分類:でありたい*
Total:646
Tregex: negative検索
IP-MAT < (NP-SBJ $ IP-SMC $ VB) & !< NP-OB1 & !< NP-OB2
IP-MATの直接支配下にあり、同時に姉妹関係をもつNP-SBJ と IP-SMC と VB、ただしNP-OB1 と NP-OB2は存在してはいけない。
Tregex Pattern:IP-MAT < (NP-SBJ $ IP-SMC $ VB) & !< NP-OB1
Treebank: news_KAHOKU_* from Keyaki Treebank
Match stats: 16/3785
Tregex Pattern:IP-MAT < (NP-SBJ $ IP-SMC $ VB) & !< NP-OB1 & !< NP-OB2
Treebank: news_KAHOKU_* from Keyaki Treebank
Match stats: 15/3785
注記:叙述補部を持つ構文(SCV, SOCV)の検索パターンを見つける途中にて、。