la_core_web_lg / functions.py

Update spaCy pipeline

936f034 verified 4 months ago

4.8 kB

	import spacy
	from spacy.language import Language
	from typing import List
	from spacy.util import registry, compile_suffix_regex

	que_exceptions = [] # type: List[str]

	# quisque / quique
	que_exceptions += [
	"quisque",
	"quidque",
	"quicque",
	"quodque",
	"cuiusque",
	"cuique",
	"quemque",
	"quamque",
	"quoque",
	"quaque",
	"quique",
	"quaeque",
	"quorumque",
	"quarumque",
	"quibusque",
	"quosque",
	"quasque",
	]

	# uterque
	que_exceptions += [
	"uterque",
	"utraque",
	"utrumque",
	"utriusque",
	"utrique",
	"utrumque",
	"utramque",
	"utroque",
	"utraque",
	"utrique",
	"utraeque",
	"utrorumque",
	"utrarumque",
	"utrisque",
	"utrosque",
	"utrasque",
	]

	# quiscumque
	que_exceptions += [
	"quicumque",
	"quidcumque",
	"quodcumque",
	"cuiuscumque",
	"cuicumque",
	"quemcumque",
	"quamcumque",
	"quocumque",
	"quacumque",
	"quicumque",
	"quaecumque",
	"quorumcumque",
	"quarumcumque",
	"quibuscumque",
	"quoscumque",
	"quascumque",
	]

	# unuscumque
	que_exceptions += [
	"unusquisque",
	"unaquaeque",
	"unumquodque",
	"unumquidque",
	"uniuscuiusque",
	"unicuique",
	"unumquemque",
	"unamquamque",
	"unoquoque",
	"unaquaque",
	]

	# plerusque
	que_exceptions += [
	"plerusque",
	"pleraque",
	"plerumque",
	"plerique",
	"pleraeque",
	"pleroque",
	"pleramque",
	"plerorumque",
	"plerarumque",
	"plerisque",
	"plerosque",
	"plerasque",
	]

	# misc
	que_exceptions += [
	"absque",
	"abusque",
	"adaeque",
	"adusque",
	"aeque",
	"antique",
	"atque",
	"circumundique",
	"conseque",
	"cumque",
	"cunque",
	"denique",
	"deque",
	"donique",
	"hucusque",
	"inique",
	"inseque",
	"itaque",
	"longinque",
	"namque",
	"neque",
	"oblique",
	"peraeque",
	"praecoque",
	"propinque",
	"qualiscumque",
	"quandocumque",
	"quandoque",
	"quantuluscumque",
	"quantumcumque",
	"quantuscumque",
	"quinque",
	"quocumque",
	"quomodocumque",
	"quomque",
	"quotacumque",
	"quotcumque",
	"quotienscumque",
	"quotiensque",
	"quotusquisque",
	"quousque",
	"relinque",
	"simulatque",
	"torque",
	"ubicumque",
	"ubique",
	"undecumque",
	"undique",
	"usque",
	"usquequaque",
	"utcumque",
	"utercumque",
	"utique",
	"utrimque",
	"utrique",
	"utriusque",
	"utrobique",
	"utrubique",
	]


	@Language.component("normer")
	def normer(doc):
	def norm(text):
	return (
	text.replace("v", "u").replace("j", "i").replace("V", "U").replace("J", "I")
	)

	for token in doc:
	token.norm_ = norm(token.norm_)
	return doc


	@registry.callbacks("customize_tokenizer")
	def make_customize_tokenizer():
	def customize_tokenizer(nlp):
	suffixes = nlp.Defaults.suffixes + [
	"que",
	"qve",
	]
	suffix_regex = compile_suffix_regex(suffixes)
	nlp.tokenizer.suffix_search = suffix_regex.search

	for item in que_exceptions:
	nlp.tokenizer.add_special_case(item, [{"ORTH": item}])
	nlp.tokenizer.add_special_case(item.lower(), [{"ORTH": item.lower()}])
	nlp.tokenizer.add_special_case(item.title(), [{"ORTH": item.title()}])
	nlp.tokenizer.add_special_case(item.upper(), [{"ORTH": item.upper()}])

	return customize_tokenizer


	# ----- lookup_lemmatizer ----- #
	from spacy.language import Language
	from spacy.lookups import load_lookups
	from spacy.tokens import Token
	from spacy.lookups import Lookups
	import string

	blank_nlp = spacy.blank("la")
	lookups = Lookups()


	lookups_data = load_lookups(lang=blank_nlp.vocab.lang, tables=["lemma_lookup"])
	LOOKUPS = lookups_data.get_table("lemma_lookup")

	predicted_lemma_getter = lambda token: token.lemma_
	Token.set_extension(
	"predicted_lemma", getter=predicted_lemma_getter
	) # TODO: test that this works


	@Language.component(name="lookup_lemmatizer")
	def make_lookup_lemmatizer_function(doc):
	for token in doc:
	# Handle punctuation
	if token.text in string.punctuation:
	token.lemma_ = token.text
	token.pos_ = "PUNCT"
	token.tag_ = "punc"

	# Handle "que" enclitics
	if token.text == "que" and (
	token.pos_ == "CCONJ" or token.tag_ == "conjunction"
	):
	token.lemma_ = token.text

	# Lookup lemmatizer
	token.lemma_ = LOOKUPS.get(token.text, token.lemma_)

	# Better handle capitalization
	if token.text[0].isupper() and token.text not in LOOKUPS:
	token.lemma_ = LOOKUPS.get(token.text.lower(), token.lemma_)
	return doc


	# ---------- #