felmateos commited on
Commit
177ae4d
1 Parent(s): a3c956b

Added INSTRUCTIONS file

Browse files
Files changed (3) hide show
  1. .gitignore +1 -1
  2. INSTRUCTIONS.TXT +82 -0
  3. main.py +0 -1
.gitignore CHANGED
@@ -163,4 +163,4 @@ cython_debug/
163
 
164
  /data
165
  /output
166
- .env
 
163
 
164
  /data
165
  /output
166
+ .env
INSTRUCTIONS.TXT ADDED
@@ -0,0 +1,82 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # INSTRUCTIONS
2
+
3
+ ## 1. Requisitos
4
+
5
+ - Docker instalado na máquina (Para instalar e configurar, siga as instruções no site oficial do Docker: https://docs.docker.com/get-docker/)
6
+ - Arquivo CSV contendo os textos a serem rotulados
7
+ - Criar um arquivo `.env` baseado no `.env.example` fornecido
8
+
9
+ ## 2. Preparando Ambiente
10
+
11
+ Na pasta 'porttagger-DANTE' faça o seguinte:
12
+
13
+ 1. Crie uma pasta chamada `data` e adicione dentro dela os arquivos .csv que se deseja rotular.
14
+ 2. Crie uma pasta `output` (nela será armazenada a saída do rotulador).
15
+
16
+ ## 3. Configuração do .env
17
+
18
+ 1. Copie o arquivo `.env.example` para um novo arquivo chamado `.env`
19
+ 2. Abra o arquivo `.env` e configure as variáveis conforme a necessidade. Abaixo é como o arquivo está antes de ser configurado:
20
+
21
+ ```
22
+ DEFAULT_MODEL=Nome do modelo aqui (News / Tweets (stock market) / Oil and Gas (academic texts) / Multigenre)
23
+ ID_COLUMN=nome da coluna com os ids dos tweets
24
+ CONTENT_COLUMN=nome da coluna com o conteudo dos tweets
25
+ PREFIX=prefixo para adicionar ao id dos tweets
26
+ DATA_PATH=caminho para o arquivo .csv dos tweets
27
+ OUTPUT_PATH=caminho para o arquivo de saída .conllu
28
+ KEEP_REPLACE_CONTRACTION=Se a forma original das contrações deve ser mantida (True/False)
29
+ ```
30
+
31
+ ## 4. Configuração do Container Docker
32
+
33
+ No terminal, navegue até o diretório onde o Dockerfile está localizado e execute os comandos abaixo em ordem:
34
+
35
+ 1. Construir a imagem Docker:
36
+
37
+ ```
38
+ docker build -t porttaggerdante .
39
+ ```
40
+
41
+ 2. Executar o container Docker:
42
+
43
+ ```
44
+ docker run -v "caminho/pro/arquivo/de/saida:/app/output" porttaggerdante
45
+ ```
46
+
47
+ Nota: Substitua `caminho/pro/arquivo/de/saida` pelo caminho completo onde você deseja salvar o arquivo de saída `.conllu`.
48
+
49
+ ## 5. Exemplos de Uso
50
+
51
+ ### Exemplo 1: Configuração do arquivo `.env`
52
+
53
+ ```
54
+ DEFAULT_MODEL=Tweets (stock market)
55
+ ID_COLUMN=ID_Tweet
56
+ CONTENT_COLUMN=Content
57
+ PREFIX=dante_02_
58
+ DATA_PATH=data/tweets.csv
59
+ OUTPUT_PATH=output/tweets.conllu
60
+ KEEP_REPLACE_CONTRACTION=True
61
+ ```
62
+
63
+ ### Exemplo 2: Comandos Docker
64
+
65
+ 1. Construir a imagem Docker:
66
+
67
+ ```
68
+ docker build -t porttaggerdante .
69
+ ```
70
+
71
+ 2. Executar o container Docker e mapear a saída:
72
+
73
+ ```
74
+ docker run -v "C:/emanuel/desktop/porttagger-DANTE/output:/app/output" porttaggerdante
75
+ ```
76
+
77
+ ## 6. Contato
78
+
79
+ Para dúvidas, sugestões ou reportar problemas, entre em contato com:
80
+
81
+ - Nome: Norton Trevisan Roman
82
+ - Email: norton@usp.br
main.py CHANGED
@@ -61,7 +61,6 @@ def predict(text, logger=None) -> Tuple[List[str], List[str]]:
61
  tokens = [token.text if not isinstance(token, str) else token for token in doc]
62
 
63
  logger.info("Starting predictions for sentence: {}".format(text))
64
- print("Using model {}".format(myapp.model.config.__dict__["_name_or_path"]))
65
 
66
  input_tokens = myapp.tokenizer(
67
  tokens,
 
61
  tokens = [token.text if not isinstance(token, str) else token for token in doc]
62
 
63
  logger.info("Starting predictions for sentence: {}".format(text))
 
64
 
65
  input_tokens = myapp.tokenizer(
66
  tokens,