Penn Treebank

Penn Treebank とは?

Penn Treebankは、自然言語処理の分野において広く使用されるコーパス(言語データベース)の1つです。1989年から1996年にかけて、ペンシルバニア大学の計算言語学センターによって作成されました。

Penn Treebankは、主に英語の新聞記事から構成されており、約4.5百万の単語が含まれています。

このコーパスには、単語の品詞タグ付け、句構造解析、共参照解析などの注釈が付けられています。

これらの注釈は、自然言語処理のタスクにおいて重要な前処理ステップとして使用されます。

Penn Treebankは、自然言語処理の分野でよく知られたデータセットであり、多くの研究者によって使用されています。これは、自然言語処理の研究や開発の進歩にとって非常に重要なリソースです。

NLTKで使用される品詞タグの略語は

NLTKで使用される品詞タグの略語は、Penn Treebank のタグセットが広く使われています。

以下に、Penn Treebank タグセットに含まれる主要な品詞タグの略語とその説明を示します。

略語説明
CC接続詞 (coordinating conjunction)
CD基数 (cardinal number)
DT限定詞 (determiner)
EX存在の疑問詞 (existential there)
FW外来語 (foreign word)
IN前置詞 (preposition) / 従属接続詞 (subordinating conjunction)
JJ形容詞 (adjective)
JJR比較級の形容詞 (adjective, comparative)
JJS最上級の形容詞 (adjective, superlative)
LSリスト項目マーカー (list item marker)
MD情態動詞 (modal)
NN名詞 (noun, singular or mass)
NNS名詞 (noun, plural)
NNP固有名詞 (proper noun, singular)
NNPS固有名詞 (proper noun, plural)
PDT前置限定詞 (predeterminer)
POS所有格マーカー (possessive ending)
PRP人称代名詞 (personal pronoun)
PRP$所有格代名詞 (possessive pronoun)
RB副詞 (adverb)
RBR比較級の副詞 (adverb, comparative)
RBS最上級の副詞 (adverb, superlative)
RP粒子 (particle)
SYM記号 (symbol)
TOto
UH間投詞 (interjection)
VB動詞 (verb, base form)
VBD過去形の動詞 (verb, past tense)
VBG現在分詞の動詞 (verb, gerund or present participle)
VBN過去分詞の動詞 (verb, past participle)
VBP現在形の動詞 (verb, non-3rd person singular present)
VBZ現在形の動詞 (verb, 3rd person singular present)
WDTWh-限定詞 (wh-determiner)
WPWh-代名詞 (wh-pronoun)
WP$Wh-所有格代名詞 (possessive wh-pronoun)
WRBWh-副詞 (wh-adverb)

これ以外にも多くの品詞タグが存在しますが、省略します。

タイトルとURLをコピーしました