ner-english-large / training.log

initial commit

9c1cbc3 over 3 years ago

60.2 kB

	2021-02-20 11:56:18,090 ----------------------------------------------------------------------------------------------------
	2021-02-20 11:56:18,093 Model: "SequenceTagger(
	(embeddings): TransformerWordEmbeddings(
	(model): XLMRobertaModel(
	(embeddings): RobertaEmbeddings(
	(word_embeddings): Embedding(250002, 1024, padding_idx=1)
	(position_embeddings): Embedding(514, 1024, padding_idx=1)
	(token_type_embeddings): Embedding(1, 1024)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(encoder): RobertaEncoder(
	(layer): ModuleList(
	(0): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(1): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(2): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(3): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(4): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(5): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(6): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(7): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(8): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(9): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(10): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(11): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(12): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(13): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(14): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(15): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(16): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(17): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(18): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(19): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(20): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(21): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(22): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(23): RobertaLayer(
	(attention): RobertaAttention(
	(self): RobertaSelfAttention(
	(query): Linear(in_features=1024, out_features=1024, bias=True)
	(key): Linear(in_features=1024, out_features=1024, bias=True)
	(value): Linear(in_features=1024, out_features=1024, bias=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(output): RobertaSelfOutput(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	(intermediate): RobertaIntermediate(
	(dense): Linear(in_features=1024, out_features=4096, bias=True)
	)
	(output): RobertaOutput(
	(dense): Linear(in_features=4096, out_features=1024, bias=True)
	(LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	)
	(pooler): RobertaPooler(
	(dense): Linear(in_features=1024, out_features=1024, bias=True)
	(activation): Tanh()
	)
	)
	)
	(word_dropout): WordDropout(p=0.05)
	(locked_dropout): LockedDropout(p=0.5)
	(linear): Linear(in_features=1024, out_features=20, bias=True)
	(beta): 1.0
	(weights): None
	(weight_tensor) None
	)"
	2021-02-20 11:56:18,094 ----------------------------------------------------------------------------------------------------
	2021-02-20 11:56:18,095 Corpus: "MultiCorpus: 16744 train + 3449 dev + 3658 test sentences
	- CONLL_03 Corpus: 14903 train + 3449 dev + 3658 test sentences
	- WIKIGOLD_NER Corpus: 1841 train + 0 dev + 0 test sentences"
	2021-02-20 11:56:18,095 ----------------------------------------------------------------------------------------------------
	2021-02-20 11:56:18,095 Parameters:
	2021-02-20 11:56:18,095 - learning_rate: "5e-06"
	2021-02-20 11:56:18,095 - mini_batch_size: "4"
	2021-02-20 11:56:18,095 - patience: "3"
	2021-02-20 11:56:18,095 - anneal_factor: "0.5"
	2021-02-20 11:56:18,095 - max_epochs: "20"
	2021-02-20 11:56:18,095 - shuffle: "True"
	2021-02-20 11:56:18,095 - train_with_dev: "True"
	2021-02-20 11:56:18,095 - batch_growth_annealing: "False"
	2021-02-20 11:56:18,095 ----------------------------------------------------------------------------------------------------
	2021-02-20 11:56:18,095 Model training base path: "resources/contextdrop/d-flert-en_release-ft+dev-xlm-roberta-large-context+drop-64-True-42"
	2021-02-20 11:56:18,095 ----------------------------------------------------------------------------------------------------
	2021-02-20 11:56:18,095 Device: cuda:1
	2021-02-20 11:56:18,095 ----------------------------------------------------------------------------------------------------
	2021-02-20 11:56:18,095 Embeddings storage mode: none
	2021-02-20 11:56:18,104 ----------------------------------------------------------------------------------------------------
	2021-02-20 11:59:49,493 epoch 1 - iter 504/5049 - loss 0.84988712 - samples/sec: 9.54 - lr: 0.000005
	2021-02-20 12:03:17,203 epoch 1 - iter 1008/5049 - loss 0.64131590 - samples/sec: 9.71 - lr: 0.000005
	2021-02-20 12:06:42,427 epoch 1 - iter 1512/5049 - loss 0.54315957 - samples/sec: 9.82 - lr: 0.000005
	2021-02-20 12:10:12,872 epoch 1 - iter 2016/5049 - loss 0.48025516 - samples/sec: 9.58 - lr: 0.000005
	2021-02-20 12:13:43,522 epoch 1 - iter 2520/5049 - loss 0.46057764 - samples/sec: 9.57 - lr: 0.000005
	2021-02-20 12:17:12,894 epoch 1 - iter 3024/5049 - loss 0.42570537 - samples/sec: 9.63 - lr: 0.000005
	2021-02-20 12:20:41,525 epoch 1 - iter 3528/5049 - loss 0.39857695 - samples/sec: 9.66 - lr: 0.000005
	2021-02-20 12:24:14,564 epoch 1 - iter 4032/5049 - loss 0.38416717 - samples/sec: 9.46 - lr: 0.000005
	2021-02-20 12:27:45,615 epoch 1 - iter 4536/5049 - loss 0.37032747 - samples/sec: 9.55 - lr: 0.000005
	2021-02-20 12:31:13,574 epoch 1 - iter 5040/5049 - loss 0.35966340 - samples/sec: 9.70 - lr: 0.000005
	2021-02-20 12:31:17,124 ----------------------------------------------------------------------------------------------------
	2021-02-20 12:31:17,124 EPOCH 1 done: loss 0.3592 - lr 0.0000050
	2021-02-20 12:33:21,019 TEST : loss 0.17636922001838684 - score 0.9057
	2021-02-20 12:33:21,046 BAD EPOCHS (no improvement): 4
	2021-02-20 12:33:21,047 ----------------------------------------------------------------------------------------------------
	2021-02-20 12:36:49,271 epoch 2 - iter 504/5049 - loss 0.25564826 - samples/sec: 9.68 - lr: 0.000005
	2021-02-20 12:40:20,219 epoch 2 - iter 1008/5049 - loss 0.25560543 - samples/sec: 9.56 - lr: 0.000005
	2021-02-20 12:43:48,750 epoch 2 - iter 1512/5049 - loss 0.24306949 - samples/sec: 9.67 - lr: 0.000005
	2021-02-20 12:47:18,010 epoch 2 - iter 2016/5049 - loss 0.23918902 - samples/sec: 9.63 - lr: 0.000005
	2021-02-20 12:50:49,034 epoch 2 - iter 2520/5049 - loss 0.23745494 - samples/sec: 9.55 - lr: 0.000005
	2021-02-20 12:54:18,224 epoch 2 - iter 3024/5049 - loss 0.23599522 - samples/sec: 9.64 - lr: 0.000005
	2021-02-20 12:57:46,500 epoch 2 - iter 3528/5049 - loss 0.22758435 - samples/sec: 9.68 - lr: 0.000005
	2021-02-20 13:01:14,137 epoch 2 - iter 4032/5049 - loss 0.22602197 - samples/sec: 9.71 - lr: 0.000005
	2021-02-20 13:04:43,356 epoch 2 - iter 4536/5049 - loss 0.22365802 - samples/sec: 9.64 - lr: 0.000005
	2021-02-20 13:08:14,129 epoch 2 - iter 5040/5049 - loss 0.22152549 - samples/sec: 9.57 - lr: 0.000005
	2021-02-20 13:08:17,630 ----------------------------------------------------------------------------------------------------
	2021-02-20 13:08:17,630 EPOCH 2 done: loss 0.2212 - lr 0.0000049
	2021-02-20 13:10:20,643 TEST : loss 0.11124755442142487 - score 0.9279
	2021-02-20 13:10:20,675 BAD EPOCHS (no improvement): 4
	2021-02-20 13:10:20,680 ----------------------------------------------------------------------------------------------------
	2021-02-20 13:13:50,443 epoch 3 - iter 504/5049 - loss 0.17266852 - samples/sec: 9.61 - lr: 0.000005
	2021-02-20 13:17:19,023 epoch 3 - iter 1008/5049 - loss 0.18002962 - samples/sec: 9.67 - lr: 0.000005
	2021-02-20 13:20:49,199 epoch 3 - iter 1512/5049 - loss 0.18510266 - samples/sec: 9.59 - lr: 0.000005
	2021-02-20 13:24:19,385 epoch 3 - iter 2016/5049 - loss 0.19983503 - samples/sec: 9.59 - lr: 0.000005
	2021-02-20 13:27:48,348 epoch 3 - iter 2520/5049 - loss 0.20190812 - samples/sec: 9.65 - lr: 0.000005
	2021-02-20 13:31:15,582 epoch 3 - iter 3024/5049 - loss 0.19944912 - samples/sec: 9.73 - lr: 0.000005
	2021-02-20 13:34:43,944 epoch 3 - iter 3528/5049 - loss 0.19932389 - samples/sec: 9.68 - lr: 0.000005
	2021-02-20 13:38:13,075 epoch 3 - iter 4032/5049 - loss 0.19547160 - samples/sec: 9.64 - lr: 0.000005
	2021-02-20 13:41:42,971 epoch 3 - iter 4536/5049 - loss 0.19618987 - samples/sec: 9.61 - lr: 0.000005
	2021-02-20 13:45:10,066 epoch 3 - iter 5040/5049 - loss 0.19343864 - samples/sec: 9.74 - lr: 0.000005
	2021-02-20 13:45:13,621 ----------------------------------------------------------------------------------------------------
	2021-02-20 13:45:13,622 EPOCH 3 done: loss 0.1938 - lr 0.0000047
	2021-02-20 13:47:17,651 TEST : loss 0.11028687655925751 - score 0.9348
	2021-02-20 13:47:17,678 BAD EPOCHS (no improvement): 4
	2021-02-20 13:47:17,680 ----------------------------------------------------------------------------------------------------
	2021-02-20 13:50:48,046 epoch 4 - iter 504/5049 - loss 0.19022199 - samples/sec: 9.58 - lr: 0.000005
	2021-02-20 13:54:14,852 epoch 4 - iter 1008/5049 - loss 0.17976050 - samples/sec: 9.75 - lr: 0.000005
	2021-02-20 13:57:44,871 epoch 4 - iter 1512/5049 - loss 0.17729127 - samples/sec: 9.60 - lr: 0.000005
	2021-02-20 14:01:14,307 epoch 4 - iter 2016/5049 - loss 0.17812706 - samples/sec: 9.63 - lr: 0.000005
	2021-02-20 14:04:41,981 epoch 4 - iter 2520/5049 - loss 0.18816455 - samples/sec: 9.71 - lr: 0.000005
	2021-02-20 14:08:10,238 epoch 4 - iter 3024/5049 - loss 0.18990221 - samples/sec: 9.68 - lr: 0.000005
	2021-02-20 14:11:38,151 epoch 4 - iter 3528/5049 - loss 0.19181303 - samples/sec: 9.70 - lr: 0.000005
	2021-02-20 14:15:03,479 epoch 4 - iter 4032/5049 - loss 0.19180866 - samples/sec: 9.82 - lr: 0.000005
	2021-02-20 14:18:32,995 epoch 4 - iter 4536/5049 - loss 0.19160628 - samples/sec: 9.62 - lr: 0.000005
	2021-02-20 14:22:00,977 epoch 4 - iter 5040/5049 - loss 0.19256281 - samples/sec: 9.69 - lr: 0.000005
	2021-02-20 14:22:04,481 ----------------------------------------------------------------------------------------------------
	2021-02-20 14:22:04,482 EPOCH 4 done: loss 0.1926 - lr 0.0000045
	2021-02-20 14:24:09,809 TEST : loss 0.10681818425655365 - score 0.9383
	2021-02-20 14:24:09,842 BAD EPOCHS (no improvement): 4
	2021-02-20 14:24:09,844 ----------------------------------------------------------------------------------------------------
	2021-02-20 14:27:37,280 epoch 5 - iter 504/5049 - loss 0.16645148 - samples/sec: 9.72 - lr: 0.000004
	2021-02-20 14:31:05,862 epoch 5 - iter 1008/5049 - loss 0.17264234 - samples/sec: 9.67 - lr: 0.000004
	2021-02-20 14:34:31,375 epoch 5 - iter 1512/5049 - loss 0.18603685 - samples/sec: 9.81 - lr: 0.000004
	2021-02-20 14:37:57,695 epoch 5 - iter 2016/5049 - loss 0.18245931 - samples/sec: 9.77 - lr: 0.000004
	2021-02-20 14:41:25,198 epoch 5 - iter 2520/5049 - loss 0.19293042 - samples/sec: 9.72 - lr: 0.000004
	2021-02-20 14:44:53,631 epoch 5 - iter 3024/5049 - loss 0.19454820 - samples/sec: 9.67 - lr: 0.000004
	2021-02-20 14:48:21,579 epoch 5 - iter 3528/5049 - loss 0.18990338 - samples/sec: 9.70 - lr: 0.000004
	2021-02-20 14:51:51,276 epoch 5 - iter 4032/5049 - loss 0.18768864 - samples/sec: 9.61 - lr: 0.000004
	2021-02-20 14:55:18,914 epoch 5 - iter 4536/5049 - loss 0.18508693 - samples/sec: 9.71 - lr: 0.000004
	2021-02-20 14:58:47,195 epoch 5 - iter 5040/5049 - loss 0.18082235 - samples/sec: 9.68 - lr: 0.000004
	2021-02-20 14:58:50,697 ----------------------------------------------------------------------------------------------------
	2021-02-20 14:58:50,697 EPOCH 5 done: loss 0.1808 - lr 0.0000043
	2021-02-20 15:00:56,633 TEST : loss 0.11206260323524475 - score 0.9387
	2021-02-20 15:00:56,668 BAD EPOCHS (no improvement): 4
	2021-02-20 15:00:56,672 ----------------------------------------------------------------------------------------------------
	2021-02-20 15:04:25,586 epoch 6 - iter 504/5049 - loss 0.15912418 - samples/sec: 9.65 - lr: 0.000004
	2021-02-20 15:07:53,476 epoch 6 - iter 1008/5049 - loss 0.14931369 - samples/sec: 9.70 - lr: 0.000004
	2021-02-20 15:11:20,667 epoch 6 - iter 1512/5049 - loss 0.15761230 - samples/sec: 9.73 - lr: 0.000004
	2021-02-20 15:14:47,624 epoch 6 - iter 2016/5049 - loss 0.16075756 - samples/sec: 9.74 - lr: 0.000004
	2021-02-20 15:18:15,842 epoch 6 - iter 2520/5049 - loss 0.16126459 - samples/sec: 9.68 - lr: 0.000004
	2021-02-20 15:21:44,174 epoch 6 - iter 3024/5049 - loss 0.16137015 - samples/sec: 9.68 - lr: 0.000004
	2021-02-20 15:25:11,675 epoch 6 - iter 3528/5049 - loss 0.16742578 - samples/sec: 9.72 - lr: 0.000004
	2021-02-20 15:28:38,600 epoch 6 - iter 4032/5049 - loss 0.17104120 - samples/sec: 9.74 - lr: 0.000004
	2021-02-20 15:32:04,821 epoch 6 - iter 4536/5049 - loss 0.17299492 - samples/sec: 9.78 - lr: 0.000004
	2021-02-20 15:35:33,611 epoch 6 - iter 5040/5049 - loss 0.17502829 - samples/sec: 9.66 - lr: 0.000004
	2021-02-20 15:35:37,145 ----------------------------------------------------------------------------------------------------
	2021-02-20 15:35:37,146 EPOCH 6 done: loss 0.1752 - lr 0.0000040
	2021-02-20 15:37:42,922 TEST : loss 0.11003755778074265 - score 0.9372
	2021-02-20 15:37:42,957 BAD EPOCHS (no improvement): 4
	2021-02-20 15:37:42,959 ----------------------------------------------------------------------------------------------------
	2021-02-20 15:41:11,469 epoch 7 - iter 504/5049 - loss 0.15970022 - samples/sec: 9.67 - lr: 0.000004
	2021-02-20 15:44:38,687 epoch 7 - iter 1008/5049 - loss 0.16257612 - samples/sec: 9.73 - lr: 0.000004
	2021-02-20 15:48:07,772 epoch 7 - iter 1512/5049 - loss 0.15637818 - samples/sec: 9.64 - lr: 0.000004
	2021-02-20 15:51:34,834 epoch 7 - iter 2016/5049 - loss 0.15584222 - samples/sec: 9.74 - lr: 0.000004
	2021-02-20 15:55:02,825 epoch 7 - iter 2520/5049 - loss 0.15669211 - samples/sec: 9.69 - lr: 0.000004
	2021-02-20 15:58:30,698 epoch 7 - iter 3024/5049 - loss 0.15856211 - samples/sec: 9.70 - lr: 0.000004
	2021-02-20 16:01:58,633 epoch 7 - iter 3528/5049 - loss 0.15671081 - samples/sec: 9.70 - lr: 0.000004
	2021-02-20 16:05:28,295 epoch 7 - iter 4032/5049 - loss 0.15648069 - samples/sec: 9.62 - lr: 0.000004
	2021-02-20 16:08:56,407 epoch 7 - iter 4536/5049 - loss 0.16071403 - samples/sec: 9.69 - lr: 0.000004
	2021-02-20 16:12:23,980 epoch 7 - iter 5040/5049 - loss 0.15912073 - samples/sec: 9.71 - lr: 0.000004
	2021-02-20 16:12:27,258 ----------------------------------------------------------------------------------------------------
	2021-02-20 16:12:27,258 EPOCH 7 done: loss 0.1593 - lr 0.0000036
	2021-02-20 16:14:31,752 TEST : loss 0.1253410428762436 - score 0.9331
	2021-02-20 16:14:31,787 BAD EPOCHS (no improvement): 4
	2021-02-20 16:14:31,791 ----------------------------------------------------------------------------------------------------
	2021-02-20 16:18:01,243 epoch 8 - iter 504/5049 - loss 0.14515327 - samples/sec: 9.63 - lr: 0.000004
	2021-02-20 16:21:29,154 epoch 8 - iter 1008/5049 - loss 0.15844524 - samples/sec: 9.70 - lr: 0.000004
	2021-02-20 16:24:57,953 epoch 8 - iter 1512/5049 - loss 0.15855560 - samples/sec: 9.66 - lr: 0.000004
	2021-02-20 16:28:25,738 epoch 8 - iter 2016/5049 - loss 0.15470104 - samples/sec: 9.70 - lr: 0.000003
	2021-02-20 16:31:54,212 epoch 8 - iter 2520/5049 - loss 0.15710933 - samples/sec: 9.67 - lr: 0.000003
	2021-02-20 16:35:23,560 epoch 8 - iter 3024/5049 - loss 0.15654992 - samples/sec: 9.63 - lr: 0.000003
	2021-02-20 16:38:51,123 epoch 8 - iter 3528/5049 - loss 0.15659144 - samples/sec: 9.71 - lr: 0.000003
	2021-02-20 16:42:19,109 epoch 8 - iter 4032/5049 - loss 0.15848049 - samples/sec: 9.69 - lr: 0.000003
	2021-02-20 16:45:47,760 epoch 8 - iter 4536/5049 - loss 0.15995362 - samples/sec: 9.66 - lr: 0.000003
	2021-02-20 16:49:16,138 epoch 8 - iter 5040/5049 - loss 0.16040715 - samples/sec: 9.68 - lr: 0.000003
	2021-02-20 16:49:19,652 ----------------------------------------------------------------------------------------------------
	2021-02-20 16:49:19,652 EPOCH 8 done: loss 0.1605 - lr 0.0000033
	2021-02-20 16:51:24,065 TEST : loss 0.12391051650047302 - score 0.9411
	2021-02-20 16:51:24,100 BAD EPOCHS (no improvement): 4
	2021-02-20 16:51:24,104 ----------------------------------------------------------------------------------------------------
	2021-02-20 16:54:50,947 epoch 9 - iter 504/5049 - loss 0.14319218 - samples/sec: 9.75 - lr: 0.000003
	2021-02-20 16:58:17,610 epoch 9 - iter 1008/5049 - loss 0.14626190 - samples/sec: 9.76 - lr: 0.000003
	2021-02-20 17:01:45,887 epoch 9 - iter 1512/5049 - loss 0.14569758 - samples/sec: 9.68 - lr: 0.000003
	2021-02-20 17:05:13,774 epoch 9 - iter 2016/5049 - loss 0.15481491 - samples/sec: 9.70 - lr: 0.000003
	2021-02-20 17:08:40,875 epoch 9 - iter 2520/5049 - loss 0.15113900 - samples/sec: 9.74 - lr: 0.000003
	2021-02-20 17:12:07,457 epoch 9 - iter 3024/5049 - loss 0.15237128 - samples/sec: 9.76 - lr: 0.000003
	2021-02-20 17:15:34,821 epoch 9 - iter 3528/5049 - loss 0.15264122 - samples/sec: 9.72 - lr: 0.000003
	2021-02-20 17:19:02,407 epoch 9 - iter 4032/5049 - loss 0.15553964 - samples/sec: 9.71 - lr: 0.000003
	2021-02-20 17:22:30,994 epoch 9 - iter 4536/5049 - loss 0.15608309 - samples/sec: 9.67 - lr: 0.000003
	2021-02-20 17:25:57,168 epoch 9 - iter 5040/5049 - loss 0.15908414 - samples/sec: 9.78 - lr: 0.000003
	2021-02-20 17:26:00,585 ----------------------------------------------------------------------------------------------------
	2021-02-20 17:26:00,585 EPOCH 9 done: loss 0.1590 - lr 0.0000029
	2021-02-20 17:28:05,552 TEST : loss 0.1257738471031189 - score 0.9406
	2021-02-20 17:28:05,583 BAD EPOCHS (no improvement): 4
	2021-02-20 17:28:05,587 ----------------------------------------------------------------------------------------------------
	2021-02-20 17:31:34,037 epoch 10 - iter 504/5049 - loss 0.16538340 - samples/sec: 9.67 - lr: 0.000003
	2021-02-20 17:35:01,686 epoch 10 - iter 1008/5049 - loss 0.16480578 - samples/sec: 9.71 - lr: 0.000003
	2021-02-20 17:38:30,133 epoch 10 - iter 1512/5049 - loss 0.15934007 - samples/sec: 9.67 - lr: 0.000003
	2021-02-20 17:41:57,567 epoch 10 - iter 2016/5049 - loss 0.15438570 - samples/sec: 9.72 - lr: 0.000003
	2021-02-20 17:45:26,625 epoch 10 - iter 2520/5049 - loss 0.14967620 - samples/sec: 9.64 - lr: 0.000003
	2021-02-20 17:48:54,021 epoch 10 - iter 3024/5049 - loss 0.14847286 - samples/sec: 9.72 - lr: 0.000003
	2021-02-20 17:52:21,779 epoch 10 - iter 3528/5049 - loss 0.15086106 - samples/sec: 9.70 - lr: 0.000003
	2021-02-20 17:55:47,985 epoch 10 - iter 4032/5049 - loss 0.14921308 - samples/sec: 9.78 - lr: 0.000003
	2021-02-20 17:59:16,097 epoch 10 - iter 4536/5049 - loss 0.15006289 - samples/sec: 9.69 - lr: 0.000003
	2021-02-20 18:02:43,316 epoch 10 - iter 5040/5049 - loss 0.14961823 - samples/sec: 9.73 - lr: 0.000003
	2021-02-20 18:02:46,866 ----------------------------------------------------------------------------------------------------
	2021-02-20 18:02:46,866 EPOCH 10 done: loss 0.1496 - lr 0.0000025
	2021-02-20 18:04:53,002 TEST : loss 0.1382586508989334 - score 0.9355
	2021-02-20 18:04:53,034 BAD EPOCHS (no improvement): 4
	2021-02-20 18:04:53,040 ----------------------------------------------------------------------------------------------------
	2021-02-20 18:08:21,528 epoch 11 - iter 504/5049 - loss 0.15655231 - samples/sec: 9.67 - lr: 0.000002
	2021-02-20 18:11:49,866 epoch 11 - iter 1008/5049 - loss 0.15351701 - samples/sec: 9.68 - lr: 0.000002
	2021-02-20 18:15:15,360 epoch 11 - iter 1512/5049 - loss 0.16074115 - samples/sec: 9.81 - lr: 0.000002
	2021-02-20 18:18:41,580 epoch 11 - iter 2016/5049 - loss 0.15942462 - samples/sec: 9.78 - lr: 0.000002
	2021-02-20 18:22:09,414 epoch 11 - iter 2520/5049 - loss 0.15244022 - samples/sec: 9.70 - lr: 0.000002
	2021-02-20 18:25:37,073 epoch 11 - iter 3024/5049 - loss 0.15098374 - samples/sec: 9.71 - lr: 0.000002
	2021-02-20 18:29:04,540 epoch 11 - iter 3528/5049 - loss 0.14850464 - samples/sec: 9.72 - lr: 0.000002
	2021-02-20 18:32:31,548 epoch 11 - iter 4032/5049 - loss 0.14682730 - samples/sec: 9.74 - lr: 0.000002
	2021-02-20 18:35:57,985 epoch 11 - iter 4536/5049 - loss 0.14759185 - samples/sec: 9.77 - lr: 0.000002
	2021-02-20 18:39:25,816 epoch 11 - iter 5040/5049 - loss 0.14698340 - samples/sec: 9.70 - lr: 0.000002
	2021-02-20 18:39:29,260 ----------------------------------------------------------------------------------------------------
	2021-02-20 18:39:29,260 EPOCH 11 done: loss 0.1468 - lr 0.0000021
	2021-02-20 18:41:33,245 TEST : loss 0.13701947033405304 - score 0.9387
	2021-02-20 18:41:33,275 BAD EPOCHS (no improvement): 4
	2021-02-20 18:41:33,280 ----------------------------------------------------------------------------------------------------
	2021-02-20 18:45:02,899 epoch 12 - iter 504/5049 - loss 0.14915151 - samples/sec: 9.62 - lr: 0.000002
	2021-02-20 18:48:30,072 epoch 12 - iter 1008/5049 - loss 0.13316084 - samples/sec: 9.73 - lr: 0.000002
	2021-02-20 18:51:53,567 epoch 12 - iter 1512/5049 - loss 0.13759726 - samples/sec: 9.91 - lr: 0.000002
	2021-02-20 18:55:21,958 epoch 12 - iter 2016/5049 - loss 0.14573488 - samples/sec: 9.68 - lr: 0.000002
	2021-02-20 18:58:50,123 epoch 12 - iter 2520/5049 - loss 0.14529516 - samples/sec: 9.69 - lr: 0.000002
	2021-02-20 19:02:16,173 epoch 12 - iter 3024/5049 - loss 0.14807294 - samples/sec: 9.78 - lr: 0.000002
	2021-02-20 19:05:43,697 epoch 12 - iter 3528/5049 - loss 0.15232340 - samples/sec: 9.72 - lr: 0.000002
	2021-02-20 19:09:08,910 epoch 12 - iter 4032/5049 - loss 0.15379466 - samples/sec: 9.82 - lr: 0.000002
	2021-02-20 19:12:36,683 epoch 12 - iter 4536/5049 - loss 0.15073956 - samples/sec: 9.70 - lr: 0.000002
	2021-02-20 19:16:04,449 epoch 12 - iter 5040/5049 - loss 0.15045583 - samples/sec: 9.70 - lr: 0.000002
	2021-02-20 19:16:08,082 ----------------------------------------------------------------------------------------------------
	2021-02-20 19:16:08,082 EPOCH 12 done: loss 0.1504 - lr 0.0000017
	2021-02-20 19:18:12,918 TEST : loss 0.15095502138137817 - score 0.9388
	2021-02-20 19:18:12,953 BAD EPOCHS (no improvement): 4
	2021-02-20 19:18:12,959 ----------------------------------------------------------------------------------------------------
	2021-02-20 19:21:40,048 epoch 13 - iter 504/5049 - loss 0.12902688 - samples/sec: 9.74 - lr: 0.000002
	2021-02-20 19:25:08,962 epoch 13 - iter 1008/5049 - loss 0.13949844 - samples/sec: 9.65 - lr: 0.000002
	2021-02-20 19:28:34,327 epoch 13 - iter 1512/5049 - loss 0.14321999 - samples/sec: 9.82 - lr: 0.000002
	2021-02-20 19:32:01,449 epoch 13 - iter 2016/5049 - loss 0.14469366 - samples/sec: 9.73 - lr: 0.000002
	2021-02-20 19:35:30,176 epoch 13 - iter 2520/5049 - loss 0.14233070 - samples/sec: 9.66 - lr: 0.000002
	2021-02-20 19:38:58,641 epoch 13 - iter 3024/5049 - loss 0.14131748 - samples/sec: 9.67 - lr: 0.000002
	2021-02-20 19:42:27,447 epoch 13 - iter 3528/5049 - loss 0.14047840 - samples/sec: 9.66 - lr: 0.000001
	2021-02-20 19:45:52,955 epoch 13 - iter 4032/5049 - loss 0.14627085 - samples/sec: 9.81 - lr: 0.000001
	2021-02-20 19:49:18,859 epoch 13 - iter 4536/5049 - loss 0.14438495 - samples/sec: 9.79 - lr: 0.000001
	2021-02-20 19:52:48,483 epoch 13 - iter 5040/5049 - loss 0.14466525 - samples/sec: 9.62 - lr: 0.000001
	2021-02-20 19:52:51,977 ----------------------------------------------------------------------------------------------------
	2021-02-20 19:52:51,977 EPOCH 13 done: loss 0.1446 - lr 0.0000014
	2021-02-20 19:54:57,358 TEST : loss 0.14258751273155212 - score 0.9399
	2021-02-20 19:54:57,388 BAD EPOCHS (no improvement): 4
	2021-02-20 19:54:57,392 ----------------------------------------------------------------------------------------------------
	2021-02-20 19:58:27,192 epoch 14 - iter 504/5049 - loss 0.15244849 - samples/sec: 9.61 - lr: 0.000001
	2021-02-20 20:01:54,054 epoch 14 - iter 1008/5049 - loss 0.15439315 - samples/sec: 9.75 - lr: 0.000001
	2021-02-20 20:05:20,574 epoch 14 - iter 1512/5049 - loss 0.15336394 - samples/sec: 9.76 - lr: 0.000001
	2021-02-20 20:08:47,946 epoch 14 - iter 2016/5049 - loss 0.15177470 - samples/sec: 9.72 - lr: 0.000001
	2021-02-20 20:12:16,402 epoch 14 - iter 2520/5049 - loss 0.14492786 - samples/sec: 9.67 - lr: 0.000001
	2021-02-20 20:15:44,769 epoch 14 - iter 3024/5049 - loss 0.14722528 - samples/sec: 9.68 - lr: 0.000001
	2021-02-20 20:19:11,969 epoch 14 - iter 3528/5049 - loss 0.14537507 - samples/sec: 9.73 - lr: 0.000001
	2021-02-20 20:22:40,528 epoch 14 - iter 4032/5049 - loss 0.14247368 - samples/sec: 9.67 - lr: 0.000001
	2021-02-20 20:26:06,304 epoch 14 - iter 4536/5049 - loss 0.14233014 - samples/sec: 9.80 - lr: 0.000001
	2021-02-20 20:29:35,214 epoch 14 - iter 5040/5049 - loss 0.14141983 - samples/sec: 9.65 - lr: 0.000001
	2021-02-20 20:29:38,745 ----------------------------------------------------------------------------------------------------
	2021-02-20 20:29:38,746 EPOCH 14 done: loss 0.1415 - lr 0.0000010
	2021-02-20 20:31:42,742 TEST : loss 0.16016331315040588 - score 0.9396
	2021-02-20 20:31:42,776 BAD EPOCHS (no improvement): 4
	2021-02-20 20:31:42,874 ----------------------------------------------------------------------------------------------------
	2021-02-20 20:35:10,584 epoch 15 - iter 504/5049 - loss 0.16948716 - samples/sec: 9.71 - lr: 0.000001
	2021-02-20 20:38:38,789 epoch 15 - iter 1008/5049 - loss 0.16114678 - samples/sec: 9.68 - lr: 0.000001
	2021-02-20 20:42:08,608 epoch 15 - iter 1512/5049 - loss 0.15736098 - samples/sec: 9.61 - lr: 0.000001
	2021-02-20 20:45:37,135 epoch 15 - iter 2016/5049 - loss 0.15347995 - samples/sec: 9.67 - lr: 0.000001
	2021-02-20 20:49:06,383 epoch 15 - iter 2520/5049 - loss 0.15053243 - samples/sec: 9.64 - lr: 0.000001
	2021-02-20 20:52:34,741 epoch 15 - iter 3024/5049 - loss 0.15367094 - samples/sec: 9.68 - lr: 0.000001
	2021-02-20 20:56:02,251 epoch 15 - iter 3528/5049 - loss 0.15097795 - samples/sec: 9.72 - lr: 0.000001
	2021-02-20 20:59:27,407 epoch 15 - iter 4032/5049 - loss 0.14762646 - samples/sec: 9.83 - lr: 0.000001
	2021-02-20 21:02:55,468 epoch 15 - iter 4536/5049 - loss 0.14764760 - samples/sec: 9.69 - lr: 0.000001
	2021-02-20 21:06:24,604 epoch 15 - iter 5040/5049 - loss 0.14664106 - samples/sec: 9.64 - lr: 0.000001
	2021-02-20 21:06:28,160 ----------------------------------------------------------------------------------------------------
	2021-02-20 21:06:28,160 EPOCH 15 done: loss 0.1468 - lr 0.0000007
	2021-02-20 21:08:34,321 TEST : loss 0.15258659422397614 - score 0.94
	2021-02-20 21:08:34,353 BAD EPOCHS (no improvement): 4
	2021-02-20 21:08:34,355 ----------------------------------------------------------------------------------------------------
	2021-02-20 21:12:02,633 epoch 16 - iter 504/5049 - loss 0.14775549 - samples/sec: 9.68 - lr: 0.000001
	2021-02-20 21:15:29,663 epoch 16 - iter 1008/5049 - loss 0.15171173 - samples/sec: 9.74 - lr: 0.000001
	2021-02-20 21:18:57,081 epoch 16 - iter 1512/5049 - loss 0.15467193 - samples/sec: 9.72 - lr: 0.000001
	2021-02-20 21:22:22,530 epoch 16 - iter 2016/5049 - loss 0.15499647 - samples/sec: 9.81 - lr: 0.000001
	2021-02-20 21:25:49,850 epoch 16 - iter 2520/5049 - loss 0.15723807 - samples/sec: 9.73 - lr: 0.000001
	2021-02-20 21:29:15,774 epoch 16 - iter 3024/5049 - loss 0.15353327 - samples/sec: 9.79 - lr: 0.000001
	2021-02-20 21:32:44,337 epoch 16 - iter 3528/5049 - loss 0.15530051 - samples/sec: 9.67 - lr: 0.000001
	2021-02-20 21:36:13,762 epoch 16 - iter 4032/5049 - loss 0.15354102 - samples/sec: 9.63 - lr: 0.000001
	2021-02-20 21:39:40,865 epoch 16 - iter 4536/5049 - loss 0.15328424 - samples/sec: 9.74 - lr: 0.000001
	2021-02-20 21:43:07,866 epoch 16 - iter 5040/5049 - loss 0.15234921 - samples/sec: 9.74 - lr: 0.000000
	2021-02-20 21:43:11,383 ----------------------------------------------------------------------------------------------------
	2021-02-20 21:43:11,383 EPOCH 16 done: loss 0.1522 - lr 0.0000005
	2021-02-20 21:45:16,386 TEST : loss 0.14317740499973297 - score 0.9434
	2021-02-20 21:45:16,421 BAD EPOCHS (no improvement): 4
	2021-02-20 21:45:16,435 ----------------------------------------------------------------------------------------------------
	2021-02-20 21:48:44,324 epoch 17 - iter 504/5049 - loss 0.17996491 - samples/sec: 9.70 - lr: 0.000000
	2021-02-20 21:52:11,485 epoch 17 - iter 1008/5049 - loss 0.15543252 - samples/sec: 9.73 - lr: 0.000000
	2021-02-20 21:55:39,073 epoch 17 - iter 1512/5049 - loss 0.15122585 - samples/sec: 9.71 - lr: 0.000000
	2021-02-20 21:59:05,347 epoch 17 - iter 2016/5049 - loss 0.14783825 - samples/sec: 9.77 - lr: 0.000000
	2021-02-20 22:02:33,153 epoch 17 - iter 2520/5049 - loss 0.14858434 - samples/sec: 9.70 - lr: 0.000000
	2021-02-20 22:06:00,594 epoch 17 - iter 3024/5049 - loss 0.14719342 - samples/sec: 9.72 - lr: 0.000000
	2021-02-20 22:09:28,634 epoch 17 - iter 3528/5049 - loss 0.14664091 - samples/sec: 9.69 - lr: 0.000000
	2021-02-20 22:12:55,588 epoch 17 - iter 4032/5049 - loss 0.14789258 - samples/sec: 9.74 - lr: 0.000000
	2021-02-20 22:16:23,015 epoch 17 - iter 4536/5049 - loss 0.14772011 - samples/sec: 9.72 - lr: 0.000000
	2021-02-20 22:19:48,689 epoch 17 - iter 5040/5049 - loss 0.14601221 - samples/sec: 9.80 - lr: 0.000000
	2021-02-20 22:19:52,053 ----------------------------------------------------------------------------------------------------
	2021-02-20 22:19:52,053 EPOCH 17 done: loss 0.1459 - lr 0.0000003
	2021-02-20 22:21:56,595 TEST : loss 0.14864514768123627 - score 0.9435
	2021-02-20 22:21:56,631 BAD EPOCHS (no improvement): 4
	2021-02-20 22:21:56,633 ----------------------------------------------------------------------------------------------------
	2021-02-20 22:25:22,139 epoch 18 - iter 504/5049 - loss 0.13554364 - samples/sec: 9.81 - lr: 0.000000
	2021-02-20 22:28:49,994 epoch 18 - iter 1008/5049 - loss 0.14305913 - samples/sec: 9.70 - lr: 0.000000
	2021-02-20 22:32:15,601 epoch 18 - iter 1512/5049 - loss 0.13788820 - samples/sec: 9.81 - lr: 0.000000
	2021-02-20 22:35:43,508 epoch 18 - iter 2016/5049 - loss 0.13837578 - samples/sec: 9.70 - lr: 0.000000
	2021-02-20 22:39:11,318 epoch 18 - iter 2520/5049 - loss 0.14012105 - samples/sec: 9.70 - lr: 0.000000
	2021-02-20 22:42:39,481 epoch 18 - iter 3024/5049 - loss 0.13876418 - samples/sec: 9.69 - lr: 0.000000
	2021-02-20 22:46:07,677 epoch 18 - iter 3528/5049 - loss 0.13934073 - samples/sec: 9.68 - lr: 0.000000
	2021-02-20 22:49:36,353 epoch 18 - iter 4032/5049 - loss 0.14036170 - samples/sec: 9.66 - lr: 0.000000
	2021-02-20 22:53:02,472 epoch 18 - iter 4536/5049 - loss 0.13826052 - samples/sec: 9.78 - lr: 0.000000
	2021-02-20 22:56:29,133 epoch 18 - iter 5040/5049 - loss 0.13982791 - samples/sec: 9.76 - lr: 0.000000
	2021-02-20 22:56:32,612 ----------------------------------------------------------------------------------------------------
	2021-02-20 22:56:32,613 EPOCH 18 done: loss 0.1397 - lr 0.0000001
	2021-02-20 22:58:37,314 TEST : loss 0.1518455296754837 - score 0.9437
	2021-02-20 22:58:37,347 BAD EPOCHS (no improvement): 4
	2021-02-20 22:58:37,349 ----------------------------------------------------------------------------------------------------
	2021-02-20 23:02:03,828 epoch 19 - iter 504/5049 - loss 0.13900759 - samples/sec: 9.76 - lr: 0.000000
	2021-02-20 23:05:30,296 epoch 19 - iter 1008/5049 - loss 0.14452024 - samples/sec: 9.77 - lr: 0.000000
	2021-02-20 23:08:57,447 epoch 19 - iter 1512/5049 - loss 0.14064833 - samples/sec: 9.73 - lr: 0.000000
	2021-02-20 23:12:23,953 epoch 19 - iter 2016/5049 - loss 0.13464772 - samples/sec: 9.76 - lr: 0.000000
	2021-02-20 23:15:51,459 epoch 19 - iter 2520/5049 - loss 0.13777886 - samples/sec: 9.72 - lr: 0.000000
	2021-02-20 23:19:17,489 epoch 19 - iter 3024/5049 - loss 0.13952515 - samples/sec: 9.79 - lr: 0.000000
	2021-02-20 23:22:45,967 epoch 19 - iter 3528/5049 - loss 0.14131733 - samples/sec: 9.67 - lr: 0.000000
	2021-02-20 23:26:13,407 epoch 19 - iter 4032/5049 - loss 0.13939496 - samples/sec: 9.72 - lr: 0.000000
	2021-02-20 23:29:44,085 epoch 19 - iter 4536/5049 - loss 0.13930015 - samples/sec: 9.57 - lr: 0.000000
	2021-02-20 23:33:12,190 epoch 19 - iter 5040/5049 - loss 0.14268221 - samples/sec: 9.69 - lr: 0.000000
	2021-02-20 23:33:15,754 ----------------------------------------------------------------------------------------------------
	2021-02-20 23:33:15,754 EPOCH 19 done: loss 0.1425 - lr 0.0000000
	2021-02-20 23:35:20,374 TEST : loss 0.15170469880104065 - score 0.9433
	2021-02-20 23:35:20,405 BAD EPOCHS (no improvement): 4
	2021-02-20 23:35:20,408 ----------------------------------------------------------------------------------------------------
	2021-02-20 23:38:48,797 epoch 20 - iter 504/5049 - loss 0.11983740 - samples/sec: 9.68 - lr: 0.000000
	2021-02-20 23:42:16,401 epoch 20 - iter 1008/5049 - loss 0.12881478 - samples/sec: 9.71 - lr: 0.000000
	2021-02-20 23:45:42,588 epoch 20 - iter 1512/5049 - loss 0.13435941 - samples/sec: 9.78 - lr: 0.000000
	2021-02-20 23:49:09,566 epoch 20 - iter 2016/5049 - loss 0.13495553 - samples/sec: 9.74 - lr: 0.000000
	2021-02-20 23:52:36,896 epoch 20 - iter 2520/5049 - loss 0.13517442 - samples/sec: 9.72 - lr: 0.000000
	2021-02-20 23:56:06,234 epoch 20 - iter 3024/5049 - loss 0.13889997 - samples/sec: 9.63 - lr: 0.000000
	2021-02-20 23:59:35,831 epoch 20 - iter 3528/5049 - loss 0.13720651 - samples/sec: 9.62 - lr: 0.000000
	2021-02-21 00:03:03,594 epoch 20 - iter 4032/5049 - loss 0.13855230 - samples/sec: 9.70 - lr: 0.000000
	2021-02-21 00:06:30,095 epoch 20 - iter 4536/5049 - loss 0.14032340 - samples/sec: 9.76 - lr: 0.000000
	2021-02-21 00:09:58,484 epoch 20 - iter 5040/5049 - loss 0.13983281 - samples/sec: 9.68 - lr: 0.000000
	2021-02-21 00:10:02,013 ----------------------------------------------------------------------------------------------------
	2021-02-21 00:10:02,013 EPOCH 20 done: loss 0.1398 - lr 0.0000000
	2021-02-21 00:12:06,767 TEST : loss 0.15191785991191864 - score 0.9436
	2021-02-21 00:12:06,801 BAD EPOCHS (no improvement): 4
	2021-02-21 00:12:53,129 ----------------------------------------------------------------------------------------------------
	2021-02-21 00:12:53,129 Testing using best model ...
	2021-02-21 00:15:03,989 0.9408 0.9465 0.9436
	2021-02-21 00:15:03,989
	Results:
	- F1-score (micro) 0.9436
	- F1-score (macro) 0.9374

	By class:
	LOC tp: 1445 - fp: 134 - fn: 69 - precision: 0.9151 - recall: 0.9544 - f1-score: 0.9344
	MISC tp: 627 - fp: 96 - fn: 51 - precision: 0.8672 - recall: 0.9248 - f1-score: 0.8951
	ORG tp: 1679 - fp: 98 - fn: 174 - precision: 0.9449 - recall: 0.9061 - f1-score: 0.9251
	PER tp: 1587 - fp: 8 - fn: 8 - precision: 0.9950 - recall: 0.9950 - f1-score: 0.9950
	2021-02-21 00:15:03,989 ----------------------------------------------------------------------------------------------------
	2021-02-21 00:15:03,989 ----------------------------------------------------------------------------------------------------