Spaces:
Runtime error
Runtime error
Added INSTRUCTIONS file
Browse files- .gitignore +1 -1
- INSTRUCTIONS.TXT +82 -0
- main.py +0 -1
.gitignore
CHANGED
@@ -163,4 +163,4 @@ cython_debug/
|
|
163 |
|
164 |
/data
|
165 |
/output
|
166 |
-
.env
|
|
|
163 |
|
164 |
/data
|
165 |
/output
|
166 |
+
.env
|
INSTRUCTIONS.TXT
ADDED
@@ -0,0 +1,82 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
# INSTRUCTIONS
|
2 |
+
|
3 |
+
## 1. Requisitos
|
4 |
+
|
5 |
+
- Docker instalado na máquina (Para instalar e configurar, siga as instruções no site oficial do Docker: https://docs.docker.com/get-docker/)
|
6 |
+
- Arquivo CSV contendo os textos a serem rotulados
|
7 |
+
- Criar um arquivo `.env` baseado no `.env.example` fornecido
|
8 |
+
|
9 |
+
## 2. Preparando Ambiente
|
10 |
+
|
11 |
+
Na pasta 'porttagger-DANTE' faça o seguinte:
|
12 |
+
|
13 |
+
1. Crie uma pasta chamada `data` e adicione dentro dela os arquivos .csv que se deseja rotular.
|
14 |
+
2. Crie uma pasta `output` (nela será armazenada a saída do rotulador).
|
15 |
+
|
16 |
+
## 3. Configuração do .env
|
17 |
+
|
18 |
+
1. Copie o arquivo `.env.example` para um novo arquivo chamado `.env`
|
19 |
+
2. Abra o arquivo `.env` e configure as variáveis conforme a necessidade. Abaixo é como o arquivo está antes de ser configurado:
|
20 |
+
|
21 |
+
```
|
22 |
+
DEFAULT_MODEL=Nome do modelo aqui (News / Tweets (stock market) / Oil and Gas (academic texts) / Multigenre)
|
23 |
+
ID_COLUMN=nome da coluna com os ids dos tweets
|
24 |
+
CONTENT_COLUMN=nome da coluna com o conteudo dos tweets
|
25 |
+
PREFIX=prefixo para adicionar ao id dos tweets
|
26 |
+
DATA_PATH=caminho para o arquivo .csv dos tweets
|
27 |
+
OUTPUT_PATH=caminho para o arquivo de saída .conllu
|
28 |
+
KEEP_REPLACE_CONTRACTION=Se a forma original das contrações deve ser mantida (True/False)
|
29 |
+
```
|
30 |
+
|
31 |
+
## 4. Configuração do Container Docker
|
32 |
+
|
33 |
+
No terminal, navegue até o diretório onde o Dockerfile está localizado e execute os comandos abaixo em ordem:
|
34 |
+
|
35 |
+
1. Construir a imagem Docker:
|
36 |
+
|
37 |
+
```
|
38 |
+
docker build -t porttaggerdante .
|
39 |
+
```
|
40 |
+
|
41 |
+
2. Executar o container Docker:
|
42 |
+
|
43 |
+
```
|
44 |
+
docker run -v "caminho/pro/arquivo/de/saida:/app/output" porttaggerdante
|
45 |
+
```
|
46 |
+
|
47 |
+
Nota: Substitua `caminho/pro/arquivo/de/saida` pelo caminho completo onde você deseja salvar o arquivo de saída `.conllu`.
|
48 |
+
|
49 |
+
## 5. Exemplos de Uso
|
50 |
+
|
51 |
+
### Exemplo 1: Configuração do arquivo `.env`
|
52 |
+
|
53 |
+
```
|
54 |
+
DEFAULT_MODEL=Tweets (stock market)
|
55 |
+
ID_COLUMN=ID_Tweet
|
56 |
+
CONTENT_COLUMN=Content
|
57 |
+
PREFIX=dante_02_
|
58 |
+
DATA_PATH=data/tweets.csv
|
59 |
+
OUTPUT_PATH=output/tweets.conllu
|
60 |
+
KEEP_REPLACE_CONTRACTION=True
|
61 |
+
```
|
62 |
+
|
63 |
+
### Exemplo 2: Comandos Docker
|
64 |
+
|
65 |
+
1. Construir a imagem Docker:
|
66 |
+
|
67 |
+
```
|
68 |
+
docker build -t porttaggerdante .
|
69 |
+
```
|
70 |
+
|
71 |
+
2. Executar o container Docker e mapear a saída:
|
72 |
+
|
73 |
+
```
|
74 |
+
docker run -v "C:/emanuel/desktop/porttagger-DANTE/output:/app/output" porttaggerdante
|
75 |
+
```
|
76 |
+
|
77 |
+
## 6. Contato
|
78 |
+
|
79 |
+
Para dúvidas, sugestões ou reportar problemas, entre em contato com:
|
80 |
+
|
81 |
+
- Nome: Norton Trevisan Roman
|
82 |
+
- Email: norton@usp.br
|
main.py
CHANGED
@@ -61,7 +61,6 @@ def predict(text, logger=None) -> Tuple[List[str], List[str]]:
|
|
61 |
tokens = [token.text if not isinstance(token, str) else token for token in doc]
|
62 |
|
63 |
logger.info("Starting predictions for sentence: {}".format(text))
|
64 |
-
print("Using model {}".format(myapp.model.config.__dict__["_name_or_path"]))
|
65 |
|
66 |
input_tokens = myapp.tokenizer(
|
67 |
tokens,
|
|
|
61 |
tokens = [token.text if not isinstance(token, str) else token for token in doc]
|
62 |
|
63 |
logger.info("Starting predictions for sentence: {}".format(text))
|
|
|
64 |
|
65 |
input_tokens = myapp.tokenizer(
|
66 |
tokens,
|