DeepMount00
/

GLiNER_PII_ITA

Token Classification

Model card Files Files and versions Community

GLiNER_PII_ITA / README.md

DeepMount00's picture

Update README.md

7873f1c verified 4 months ago

|

history blame contribute delete

3.07 kB

	---
	license: apache-2.0
	language:
	- it
	pipeline_tag: token-classification
	library_name: gliner
	---
	### Model Card: Gliner - Modello Generalista per l'Identificazione di PII

	#### Descrizione del Modello
	Il modello è progettato per identificare e classificare informazioni personali identificabili (PII) all'interno di documenti di testo. Il modello è stato addestrato per essere generalista, ovvero in grado di riconoscere una vasta gamma di tag PII, ma con una specializzazione nell'identificazione dei tag più comuni e rilevanti nell'ambito amministrativo, legale e finanziario.

	#### Ambiti di Applicazione
	Particolarmente efficace nell'analisi di documenti legali, contratti, registri finanziari, e documenti amministrativi dove è fondamentale identificare e classificare correttamente le informazioni personali per la conformità alle normative sulla privacy (come il GDPR).

	#### Tag Supportati
	Il modello è stato addestrato con un totale di 11706 tag differenti. Alcuni esempi di tag che il modello può riconoscere includono:

	- Nome del cliente: Identifica il nome completo di un cliente.
	- Comune di nascita: Riconosce il comune in cui una persona è nata.
	- Indirizzo di residenza: Riconosce l'indirizzo di residenza di una persona.
	- Codice fiscale: Riconosce il codice fiscale di un individuo o di un'azienda.
	- Numero di documento: Identifica numeri di documenti identificativi come passaporti, carte d'identità, ecc.
	- Importo della transazione: Riconosce importi monetari relativi a transazioni finanziarie.
	- Particella catastale: Identifica il numero di particella catastale relativo a un immobile.
	- Nome dell'azienda: Riconosce il nome ufficiale di un'azienda.
	- IBAN: Identifica numeri di conti bancari in formato IBAN.
	- Indirizzo IP: Riconosce indirizzi IP associati a utenti o dispositivi.

	#### Performance
	Il modello è stato addestrato su un ampio dataset contenente circa 200K di esempi annotati manualmente per ciascun tipo di PII.

	#### Limitazioni
	- Variabilità dei Dati: Gliner può avere difficoltà nell'identificare PII in documenti non strutturati o con formattazioni molto diverse da quelle presenti nel set di addestramento.
	- Tag Rari: Il modello può mostrare performance ridotte su tag meno comuni o su quelli che non erano ben rappresentati nel set di addestramento.
	- Bias: Come tutti i modelli di machine learning, Gliner può essere soggetto a bias derivanti dal dataset di addestramento.

	## Installation
	To use this model, you must install the GLiNER Python library:
	```
	!pip install gliner
	```

	## Usage
	Once you've downloaded the GLiNER library, you can import the GLiNER class. You can then load this model using `GLiNER.from_pretrained` and predict entities with `predict_entities`.

	```python
	from gliner import GLiNER

	model = GLiNER.from_pretrained("DeepMount00/GLiNER_PII_ITA")

	text = """..."""

	labels = ["label1", "label2"]

	entities = model.predict_entities(text, labels)

	for entity in entities:
	print(entity["text"], "=>", entity["label"])
	```