spaCy

自然言語処理ライブラリ「spaCy」の説明です。

spaCyとは?

spaCyは、Pythonで書かれたオープンソースの自然言語処理ライブラリであり、高速で効率的な文書処理が可能です。

spaCyは、形態素解析、固有表現抽出、構文解析、依存関係解析など、多様な自然言語処理タスクに対応しています。

また、多言語にも対応しており、多くの言語に対するモデルが提供されています。

導入方法は簡単で、pipコマンドを用いてインストールすることができます。

pip install spacy

使い方は、まずテキストを nlp() 関数に渡して、 Doc オブジェクトを作成します。この Doc オブジェクトには、文書中の単語や文、句読点などが含まれています。そして、 Doc オブジェクトを使って、形態素解析や固有表現抽出、構文解析、依存関係解析などのタスクを実行することができます。

以下は、spaCyを用いた単純なテキストの処理例です。

import spacy

nlp = spacy.load("en_core_web_sm")
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")

for token in doc:
print(token.text, token.pos_, token.dep_)

このコードは、英語のテキストを en_core_web_sm モデルで処理し、各単語のテキスト、品詞、依存関係ラベルを出力します。

具体的には、次のようになります。

Apple PROPN nsubj
is AUX aux
looking VERB ROOT
at ADP prep
buying VERB pcomp
U.K. PROPN compound
startup NOUN dobj
for ADP prep
$ SYM quantmod
1 NUM compound
billion NUM pobj

以上が、spaCyの概要、導入方法、使い方、サンプルコードについての説明です。

タイトルとURLをコピーしました