AlekseyKorshuk
/

llm-daig-final-models

Model card Files Files and versions Community

AlekseyKorshuk commited on Oct 20

Commit

f59a1a3

•

1 Parent(s): 2c9e29c

Upload folder using huggingface_hub

Browse files

Files changed (40) hide show

backbone_configs/exp179.json +33 -0
backbone_configs/exp184.json +33 -0
backbone_configs/exp200.json +33 -0
backbone_configs/exp222.json +33 -0
backbone_configs/exp477.json +33 -0
backbone_configs/exp478.json +33 -0
backbone_configs/exp489.json +33 -0
backbone_configs/exp492.json +33 -0
backbone_configs/exp500.json +33 -0
backbone_configs/exp510.json +33 -0
backbone_configs/exp511.json +33 -0
backbone_configs/exp512.json +33 -0
configs/exp179.yaml +106 -0
configs/exp184.yaml +106 -0
configs/exp200.yaml +106 -0
configs/exp222.yaml +106 -0
configs/exp477.yaml +106 -0
configs/exp478.yaml +106 -0
configs/exp489.yaml +106 -0
configs/exp492.yaml +106 -0
configs/exp500.yaml +106 -0
configs/exp510.yaml +106 -0
configs/exp511.yaml +106 -0
configs/exp512.yaml +106 -0
models/exp179_weights.pth +3 -0
models/exp184_weights.pth +3 -0
models/exp200_weights.pth +3 -0
models/exp222_weights.pth +3 -0
models/exp477_weights.pth +3 -0
models/exp478_weights.pth +3 -0
models/exp489_weights.pth +3 -0
models/exp492_weights.pth +3 -0
models/exp500_weights.pth +3 -0
models/exp510_weights.pth +3 -0
models/exp511_weights.pth +3 -0
models/exp512_weights.pth +3 -0
tokenizer/added_tokens.json +3 -0
tokenizer/special_tokens_map.json +15 -0
tokenizer/spm.model +3 -0
tokenizer/tokenizer_config.json +58 -0

backbone_configs/exp179.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-large",
+  "attention_dropout": 0.1,
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.05,
+  "hidden_dropout_prob": 0.05,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.34.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128001
+}

backbone_configs/exp184.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-large",
+  "attention_dropout": 0.1,
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.05,
+  "hidden_dropout_prob": 0.05,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.34.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128001
+}

backbone_configs/exp200.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-large",
+  "attention_dropout": 0.05,
+  "attention_probs_dropout_prob": 0.05,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.05,
+  "hidden_dropout_prob": 0.05,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.34.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128001
+}

backbone_configs/exp222.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-large",
+  "attention_dropout": 0.1,
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.05,
+  "hidden_dropout_prob": 0.05,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.34.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128001
+}

backbone_configs/exp477.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-large",
+  "attention_dropout": 0.1,
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.05,
+  "hidden_dropout_prob": 0.05,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.36.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

backbone_configs/exp478.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-large",
+  "attention_dropout": 0.1,
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.05,
+  "hidden_dropout_prob": 0.05,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.36.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

backbone_configs/exp489.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-large",
+  "attention_dropout": 0.1,
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.05,
+  "hidden_dropout_prob": 0.05,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.36.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

backbone_configs/exp492.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-large",
+  "attention_dropout": 0.1,
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.05,
+  "hidden_dropout_prob": 0.05,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.36.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

backbone_configs/exp500.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-large",
+  "attention_dropout": 0.0,
+  "attention_probs_dropout_prob": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.0,
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.36.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

backbone_configs/exp510.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-large",
+  "attention_dropout": 0.0,
+  "attention_probs_dropout_prob": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.0,
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.36.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

backbone_configs/exp511.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-large",
+  "attention_dropout": 0.1,
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.05,
+  "hidden_dropout_prob": 0.05,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.36.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

backbone_configs/exp512.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-large",
+  "attention_dropout": 0.1,
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.05,
+  "hidden_dropout_prob": 0.05,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1024,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.36.2",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

configs/exp179.yaml ADDED Viewed

	@@ -0,0 +1,106 @@

+backbone_config_path: /notebooks/models/exp179
+best_model_path: /notebooks/models/exp179/models/fold_1_42_best.pth
+checkpoint_path: /notebooks/models/exp179/chkp/fold_1_42_chkp.pth
+config_path: /notebooks/models/exp179/config.yaml
+criterion:
+  criterion_type: BCEWithLogitsLoss
+  mcrmse_loss:
+    weights:
+    - 0.5
+    - 0.5
+  mse_loss:
+    reduction: mean
+  rmse_loss:
+    eps: 1.0e-09
+    reduction: mean
+  smooth_l1_loss:
+    beta: 0.1
+    reduction: mean
+data_dir: /notebooks/data
+dataset:
+  bucket_batch_sampler:
+    bucket_size: 400
+    noise_factor: 0.2
+  folds: true
+  labels:
+  - generated
+  max_length: 256
+  sampler_type: StratifiedBatchSampler
+  train_batch_size: 48
+  train_sources:
+  - daigt
+  - persuade
+  - persuade_gpt
+  - persuade_humanized_1
+  - persuade_gpt_patially_rewritten
+  - persuade_gpt_patially_rewritten_05
+  - persuade_humanized_easy_1
+  - daigt_gpt_patially_rewritten
+  - llama-mistral-partially-r
+  - moth
+  - books
+  - neural-chat-7b
+  - nbroad
+  valid_batch_size: 48
+  valid_sources:
+  - none
+debug: false
+exp_name: exp179_seed42
+external_dir: /notebooks/data/external
+fold: 1
+interim_dir: /notebooks/data/interim
+log_path: /notebooks/models/exp179/logs/fold-1.log
+logger:
+  job_type: training
+  project: DAIGT-AIE
+  train_print_frequency: 100
+  use_wandb: true
+  valid_print_frequency: 100
+model:
+  architecture_type: CustomModel
+  attention_dropout: 0.1
+  backbone_type: microsoft/deberta-v3-large
+  dropout: 0.05
+  freeze_embeddings: false
+  freeze_n_layers: 0
+  gem_pooling:
+    eps: 1.0e-06
+    p: 3
+  gradient_checkpointing: false
+  load_embeddings: true
+  load_head: true
+  load_n_layers: 24
+  load_parts: false
+  pooling_type: MeanPooling
+  reinitialize_n_layers: 0
+  state_from_model: None
+models_dir: /notebooks/models
+optimizer:
+  beta1: 0.9
+  beta2: 0.999
+  decoder_lr: 2.0e-05
+  embeddings_lr: 2.0e-05
+  encoder_lr: 2.0e-05
+  eps: 1.0e-06
+  group_lr_multiplier: 1
+  n_groups: 1
+  weight_decay: 0.01
+processed_dir: /notebooks/data/processed
+raw_dir: /notebooks/data/raw
+run_dir: /notebooks/models/exp179
+run_id: exp179_seed42_fold1
+run_name: exp179_seed42_fold1
+scheduler:
+  cosine_schedule_with_warmup:
+    n_cycles: 0.5
+    n_warmup_steps: 0
+  type: cosine_schedule_with_warmup
+seed: 42
+tokenizer: null
+tokenizer_path: /notebooks/models/exp179/tokenizer
+training:
+  apex: true
+  epochs: 3
+  evaluate_n_times_per_epoch: 1
+  gradient_accumulation_steps: 1
+  max_grad_norm: 1000

configs/exp184.yaml ADDED Viewed

	@@ -0,0 +1,106 @@

+backbone_config_path: /notebooks/models/exp184
+best_model_path: /notebooks/models/exp184/models/fold_0_42_best.pth
+checkpoint_path: /notebooks/models/exp184/chkp/fold_0_42_chkp.pth
+config_path: /notebooks/models/exp184/config.yaml
+criterion:
+  criterion_type: BCEWithLogitsLoss
+  mcrmse_loss:
+    weights:
+    - 0.5
+    - 0.5
+  mse_loss:
+    reduction: mean
+  rmse_loss:
+    eps: 1.0e-09
+    reduction: mean
+  smooth_l1_loss:
+    beta: 0.1
+    reduction: mean
+data_dir: /notebooks/data
+dataset:
+  bucket_batch_sampler:
+    bucket_size: 400
+    noise_factor: 0.2
+  folds: true
+  labels:
+  - generated
+  max_length: 256
+  sampler_type: StratifiedBatchSampler
+  train_batch_size: 48
+  train_sources:
+  - daigt
+  - persuade
+  - persuade_gpt
+  - persuade_humanized_1
+  - persuade_gpt_patially_rewritten
+  - persuade_gpt_patially_rewritten_05
+  - persuade_humanized_easy_1
+  - daigt_gpt_patially_rewritten
+  - llama-mistral-partially-r
+  - moth
+  - books
+  - neural-chat-7b
+  - nbroad
+  valid_batch_size: 48
+  valid_sources:
+  - none
+debug: false
+exp_name: exp184_seed42
+external_dir: /notebooks/data/external
+fold: 0
+interim_dir: /notebooks/data/interim
+log_path: /notebooks/models/exp184/logs/fold-0.log
+logger:
+  job_type: training
+  project: DAIGT-AIE
+  train_print_frequency: 20
+  use_wandb: true
+  valid_print_frequency: 20
+model:
+  architecture_type: CustomModel
+  attention_dropout: 0.1
+  backbone_type: microsoft/deberta-v3-large
+  dropout: 0.05
+  freeze_embeddings: false
+  freeze_n_layers: 0
+  gem_pooling:
+    eps: 1.0e-06
+    p: 3
+  gradient_checkpointing: false
+  load_embeddings: true
+  load_head: true
+  load_n_layers: 24
+  load_parts: false
+  pooling_type: MeanPooling
+  reinitialize_n_layers: 0
+  state_from_model: None
+models_dir: /notebooks/models
+optimizer:
+  beta1: 0.9
+  beta2: 0.999
+  decoder_lr: 2.0e-05
+  embeddings_lr: 2.0e-05
+  encoder_lr: 2.0e-05
+  eps: 1.0e-06
+  group_lr_multiplier: 1
+  n_groups: 1
+  weight_decay: 0.01
+processed_dir: /notebooks/data/processed
+raw_dir: /notebooks/data/raw
+run_dir: /notebooks/models/exp184
+run_id: exp184_seed42_fold0
+run_name: exp184_seed42_fold0
+scheduler:
+  cosine_schedule_with_warmup:
+    n_cycles: 0.5
+    n_warmup_steps: 0
+  type: cosine_schedule_with_warmup
+seed: 42
+tokenizer: null
+tokenizer_path: /notebooks/models/exp184/tokenizer
+training:
+  apex: true
+  epochs: 3
+  evaluate_n_times_per_epoch: 4
+  gradient_accumulation_steps: 1
+  max_grad_norm: 1000

configs/exp200.yaml ADDED Viewed

	@@ -0,0 +1,106 @@

+backbone_config_path: /notebooks/models/exp200
+best_model_path: /notebooks/models/exp200/models/fold_0_42_best.pth
+checkpoint_path: /notebooks/models/exp200/chkp/fold_0_42_chkp.pth
+config_path: /notebooks/models/exp200/config.yaml
+criterion:
+  criterion_type: BCEWithLogitsLoss
+  mcrmse_loss:
+    weights:
+    - 0.5
+    - 0.5
+  mse_loss:
+    reduction: mean
+  rmse_loss:
+    eps: 1.0e-09
+    reduction: mean
+  smooth_l1_loss:
+    beta: 0.1
+    reduction: mean
+data_dir: /notebooks/data
+dataset:
+  bucket_batch_sampler:
+    bucket_size: 400
+    noise_factor: 0.2
+  folds: true
+  labels:
+  - generated
+  max_length: 512
+  sampler_type: StratifiedBatchSampler
+  train_batch_size: 12
+  train_sources:
+  - daigt
+  - persuade
+  - persuade_gpt
+  - persuade_humanized_1
+  - persuade_gpt_patially_rewritten
+  - persuade_gpt_patially_rewritten_05
+  - persuade_humanized_easy_1
+  - daigt_gpt_patially_rewritten
+  - llama-mistral-partially-r
+  - moth
+  - books
+  - neural-chat-7b
+  - nbroad
+  valid_batch_size: 12
+  valid_sources:
+  - none
+debug: false
+exp_name: exp200_seed42
+external_dir: /notebooks/data/external
+fold: 0
+interim_dir: /notebooks/data/interim
+log_path: /notebooks/models/exp200/logs/fold-0.log
+logger:
+  job_type: training
+  project: DAIGT-AIE
+  train_print_frequency: 20
+  use_wandb: true
+  valid_print_frequency: 20
+model:
+  architecture_type: CustomModel
+  attention_dropout: 0.05
+  backbone_type: microsoft/deberta-v3-large
+  dropout: 0.05
+  freeze_embeddings: false
+  freeze_n_layers: 0
+  gem_pooling:
+    eps: 1.0e-06
+    p: 3
+  gradient_checkpointing: false
+  load_embeddings: true
+  load_head: true
+  load_n_layers: 24
+  load_parts: false
+  pooling_type: MeanPooling
+  reinitialize_n_layers: 0
+  state_from_model: None
+models_dir: /notebooks/models
+optimizer:
+  beta1: 0.9
+  beta2: 0.999
+  decoder_lr: 1.5e-05
+  embeddings_lr: 1.5e-05
+  encoder_lr: 1.5e-05
+  eps: 1.0e-06
+  group_lr_multiplier: 1
+  n_groups: 1
+  weight_decay: 0.01
+processed_dir: /notebooks/data/processed
+raw_dir: /notebooks/data/raw
+run_dir: /notebooks/models/exp200
+run_id: exp200_seed42_fold0
+run_name: exp200_seed42_fold0
+scheduler:
+  cosine_schedule_with_warmup:
+    n_cycles: 0.5
+    n_warmup_steps: 0
+  type: cosine_schedule_with_warmup
+seed: 42
+tokenizer: null
+tokenizer_path: /notebooks/models/exp200/tokenizer
+training:
+  apex: true
+  epochs: 3
+  evaluate_n_times_per_epoch: 4
+  gradient_accumulation_steps: 1
+  max_grad_norm: 1000

configs/exp222.yaml ADDED Viewed

	@@ -0,0 +1,106 @@

+backbone_config_path: /notebooks/models/exp222
+best_model_path: /notebooks/models/exp222/models/fold_0_2023_best.pth
+checkpoint_path: /notebooks/models/exp222/chkp/fold_0_2023_chkp.pth
+config_path: /notebooks/models/exp222/config.yaml
+criterion:
+  criterion_type: BCEWithLogitsLoss
+  mcrmse_loss:
+    weights:
+    - 0.5
+    - 0.5
+  mse_loss:
+    reduction: mean
+  rmse_loss:
+    eps: 1.0e-09
+    reduction: mean
+  smooth_l1_loss:
+    beta: 0.1
+    reduction: mean
+data_dir: /notebooks/data
+dataset:
+  bucket_batch_sampler:
+    bucket_size: 400
+    noise_factor: 0.2
+  folds: true
+  labels:
+  - generated
+  max_length: 256
+  sampler_type: StratifiedBatchSampler
+  train_batch_size: 48
+  train_sources:
+  - daigt
+  - persuade
+  - persuade_gpt
+  - persuade_humanized_1
+  - persuade_gpt_patially_rewritten
+  - persuade_gpt_patially_rewritten_05
+  - persuade_humanized_easy_1
+  - daigt_gpt_patially_rewritten
+  - llama-mistral-partially-r
+  - moth
+  - books
+  - neural-chat-7b
+  - nbroad
+  valid_batch_size: 48
+  valid_sources:
+  - none
+debug: false
+exp_name: exp222_seed2023
+external_dir: /notebooks/data/external
+fold: 0
+interim_dir: /notebooks/data/interim
+log_path: /notebooks/models/exp222/logs/fold-0.log
+logger:
+  job_type: training
+  project: DAIGT-AIE
+  train_print_frequency: 100
+  use_wandb: true
+  valid_print_frequency: 100
+model:
+  architecture_type: CustomModel
+  attention_dropout: 0.1
+  backbone_type: microsoft/deberta-v3-large
+  dropout: 0.05
+  freeze_embeddings: false
+  freeze_n_layers: 0
+  gem_pooling:
+    eps: 1.0e-06
+    p: 3
+  gradient_checkpointing: false
+  load_embeddings: true
+  load_head: true
+  load_n_layers: 24
+  load_parts: false
+  pooling_type: MeanPooling
+  reinitialize_n_layers: 0
+  state_from_model: None
+models_dir: /notebooks/models
+optimizer:
+  beta1: 0.9
+  beta2: 0.999
+  decoder_lr: 2.0e-05
+  embeddings_lr: 2.0e-05
+  encoder_lr: 2.0e-05
+  eps: 1.0e-06
+  group_lr_multiplier: 1
+  n_groups: 1
+  weight_decay: 0.01
+processed_dir: /notebooks/data/processed
+raw_dir: /notebooks/data/raw
+run_dir: /notebooks/models/exp222
+run_id: exp222_seed2023_fold0
+run_name: exp222_seed2023_fold0
+scheduler:
+  cosine_schedule_with_warmup:
+    n_cycles: 0.5
+    n_warmup_steps: 0
+  type: cosine_schedule_with_warmup
+seed: 2023
+tokenizer: null
+tokenizer_path: /notebooks/models/exp222/tokenizer
+training:
+  apex: true
+  epochs: 4
+  evaluate_n_times_per_epoch: 1
+  gradient_accumulation_steps: 1
+  max_grad_norm: 1000

configs/exp477.yaml ADDED Viewed

	@@ -0,0 +1,106 @@

+backbone_config_path: /home/models/exp477
+best_model_path: /home/models/exp477/models/fold_0_10_best.pth
+checkpoint_path: /home/models/exp477/chkp/fold_0_10_chkp.pth
+config_path: /home/models/exp477/config.yaml
+criterion:
+  criterion_type: BCEWithLogitsLoss
+  mcrmse_loss:
+    weights:
+    - 0.5
+    - 0.5
+  mse_loss:
+    reduction: mean
+  rmse_loss:
+    eps: 1.0e-09
+    reduction: mean
+  smooth_l1_loss:
+    beta: 0.1
+    reduction: mean
+data_dir: /home/data
+dataset:
+  bucket_batch_sampler:
+    bucket_size: 400
+    noise_factor: 0.2
+  folds: true
+  labels:
+  - generated
+  max_length: 1024
+  sampler_type: StratifiedBatchSampler
+  train_batch_size: 6
+  train_sources:
+  - daigt
+  - persuade
+  - persuade_gpt
+  - persuade_humanized_1
+  - persuade_gpt_patially_rewritten
+  - persuade_gpt_patially_rewritten_05
+  - persuade_humanized_easy_1
+  - daigt_gpt_patially_rewritten
+  - llama-mistral-partially-r
+  - moth
+  - books
+  - neural-chat-7b
+  - nbroad
+  valid_batch_size: 6
+  valid_sources:
+  - none
+debug: false
+exp_name: exp477_seed10
+external_dir: /home/data/external
+fold: 0
+interim_dir: /home/data/interim
+log_path: /home/models/exp477/logs/fold-0.log
+logger:
+  job_type: training
+  project: DAIGT-AIE
+  train_print_frequency: 100
+  use_wandb: true
+  valid_print_frequency: 100
+model:
+  architecture_type: CustomModel
+  attention_dropout: 0.1
+  backbone_type: microsoft/deberta-v3-large
+  dropout: 0.05
+  freeze_embeddings: true
+  freeze_n_layers: 23
+  gem_pooling:
+    eps: 1.0e-06
+    p: 3
+  gradient_checkpointing: false
+  load_embeddings: true
+  load_head: false
+  load_n_layers: 24
+  load_parts: true
+  pooling_type: MeanPooling
+  reinitialize_n_layers: 0
+  state_from_model: exp475
+models_dir: /home/models
+optimizer:
+  beta1: 0.9
+  beta2: 0.999
+  decoder_lr: 2.0e-05
+  embeddings_lr: 2.0e-05
+  encoder_lr: 2.0e-05
+  eps: 1.0e-06
+  group_lr_multiplier: 1
+  n_groups: 1
+  weight_decay: 0.01
+processed_dir: /home/data/processed
+raw_dir: /home/data/raw
+run_dir: /home/models/exp477
+run_id: exp477_seed10_fold0
+run_name: exp477_seed10_fold0
+scheduler:
+  cosine_schedule_with_warmup:
+    n_cycles: 0.5
+    n_warmup_steps: 0
+  type: cosine_schedule_with_warmup
+seed: 10
+tokenizer: null
+tokenizer_path: /home/models/exp477/tokenizer
+training:
+  apex: true
+  epochs: 1
+  evaluate_n_times_per_epoch: 1
+  gradient_accumulation_steps: 1
+  max_grad_norm: 1000

configs/exp478.yaml ADDED Viewed

	@@ -0,0 +1,106 @@

+backbone_config_path: /home/models/exp478
+best_model_path: /home/models/exp478/models/fold_0_10_best.pth
+checkpoint_path: /home/models/exp478/chkp/fold_0_10_chkp.pth
+config_path: /home/models/exp478/config.yaml
+criterion:
+  criterion_type: BCEWithLogitsLoss
+  mcrmse_loss:
+    weights:
+    - 0.5
+    - 0.5
+  mse_loss:
+    reduction: mean
+  rmse_loss:
+    eps: 1.0e-09
+    reduction: mean
+  smooth_l1_loss:
+    beta: 0.1
+    reduction: mean
+data_dir: /home/data
+dataset:
+  bucket_batch_sampler:
+    bucket_size: 400
+    noise_factor: 0.2
+  folds: true
+  labels:
+  - generated
+  max_length: 1024
+  sampler_type: StratifiedBatchSampler
+  train_batch_size: 6
+  train_sources:
+  - daigt
+  - persuade
+  - persuade_gpt
+  - persuade_humanized_1
+  - persuade_gpt_patially_rewritten
+  - persuade_gpt_patially_rewritten_05
+  - persuade_humanized_easy_1
+  - daigt_gpt_patially_rewritten
+  - llama-mistral-partially-r
+  - moth
+  - books
+  - neural-chat-7b
+  - nbroad
+  valid_batch_size: 6
+  valid_sources:
+  - none
+debug: false
+exp_name: exp478_seed10
+external_dir: /home/data/external
+fold: 0
+interim_dir: /home/data/interim
+log_path: /home/models/exp478/logs/fold-0.log
+logger:
+  job_type: training
+  project: DAIGT-AIE
+  train_print_frequency: 100
+  use_wandb: true
+  valid_print_frequency: 100
+model:
+  architecture_type: CustomModel
+  attention_dropout: 0.1
+  backbone_type: microsoft/deberta-v3-large
+  dropout: 0.05
+  freeze_embeddings: true
+  freeze_n_layers: 20
+  gem_pooling:
+    eps: 1.0e-06
+    p: 3
+  gradient_checkpointing: false
+  load_embeddings: true
+  load_head: false
+  load_n_layers: 24
+  load_parts: true
+  pooling_type: MeanPooling
+  reinitialize_n_layers: 0
+  state_from_model: exp475
+models_dir: /home/models
+optimizer:
+  beta1: 0.9
+  beta2: 0.999
+  decoder_lr: 2.0e-05
+  embeddings_lr: 2.0e-05
+  encoder_lr: 2.0e-05
+  eps: 1.0e-06
+  group_lr_multiplier: 1
+  n_groups: 1
+  weight_decay: 0.01
+processed_dir: /home/data/processed
+raw_dir: /home/data/raw
+run_dir: /home/models/exp478
+run_id: exp478_seed10_fold0
+run_name: exp478_seed10_fold0
+scheduler:
+  cosine_schedule_with_warmup:
+    n_cycles: 0.5
+    n_warmup_steps: 0
+  type: cosine_schedule_with_warmup
+seed: 10
+tokenizer: null
+tokenizer_path: /home/models/exp478/tokenizer
+training:
+  apex: true
+  epochs: 1
+  evaluate_n_times_per_epoch: 1
+  gradient_accumulation_steps: 1
+  max_grad_norm: 1000

configs/exp489.yaml ADDED Viewed

	@@ -0,0 +1,106 @@

+backbone_config_path: /llm-daig/models/exp489
+best_model_path: /llm-daig/models/exp489/models/fold_0_10_best.pth
+checkpoint_path: /llm-daig/models/exp489/chkp/fold_0_10_chkp.pth
+config_path: /llm-daig/models/exp489/config.yaml
+criterion:
+  criterion_type: BCEWithLogitsLoss
+  mcrmse_loss:
+    weights:
+    - 0.5
+    - 0.5
+  mse_loss:
+    reduction: mean
+  rmse_loss:
+    eps: 1.0e-09
+    reduction: mean
+  smooth_l1_loss:
+    beta: 0.1
+    reduction: mean
+data_dir: /llm-daig/data
+dataset:
+  bucket_batch_sampler:
+    bucket_size: 400
+    noise_factor: 0.2
+  folds: true
+  labels:
+  - generated
+  max_length: 256
+  sampler_type: StratifiedBatchSampler
+  train_batch_size: 48
+  train_sources:
+  - daigt
+  - persuade
+  - persuade_gpt
+  - persuade_humanized_1
+  - persuade_gpt_patially_rewritten
+  - persuade_gpt_patially_rewritten_05
+  - persuade_humanized_easy_1
+  - daigt_gpt_patially_rewritten
+  - llama-mistral-partially-r
+  - moth
+  - books
+  - neural-chat-7b
+  - nbroad
+  valid_batch_size: 48
+  valid_sources:
+  - none
+debug: false
+exp_name: exp489_seed10
+external_dir: /llm-daig/data/external
+fold: 0
+interim_dir: /llm-daig/data/interim
+log_path: /llm-daig/models/exp489/logs/fold-0.log
+logger:
+  job_type: training
+  project: DAIGT-AIE
+  train_print_frequency: 100
+  use_wandb: true
+  valid_print_frequency: 100
+model:
+  architecture_type: CustomModel
+  attention_dropout: 0.1
+  backbone_type: microsoft/deberta-v3-large
+  dropout: 0.05
+  freeze_embeddings: false
+  freeze_n_layers: 0
+  gem_pooling:
+    eps: 1.0e-06
+    p: 3
+  gradient_checkpointing: false
+  load_embeddings: true
+  load_head: false
+  load_n_layers: 24
+  load_parts: true
+  pooling_type: MeanPooling
+  reinitialize_n_layers: 0
+  state_from_model: None
+models_dir: /llm-daig/models
+optimizer:
+  beta1: 0.9
+  beta2: 0.999
+  decoder_lr: 2.0e-05
+  embeddings_lr: 2.0e-05
+  encoder_lr: 2.0e-05
+  eps: 1.0e-06
+  group_lr_multiplier: 1
+  n_groups: 1
+  weight_decay: 0.01
+processed_dir: /llm-daig/data/processed
+raw_dir: /llm-daig/data/raw
+run_dir: /llm-daig/models/exp489
+run_id: exp489_seed10_fold0
+run_name: exp489_seed10_fold0
+scheduler:
+  cosine_schedule_with_warmup:
+    n_cycles: 0.5
+    n_warmup_steps: 0
+  type: cosine_schedule_with_warmup
+seed: 10
+tokenizer: null
+tokenizer_path: /llm-daig/models/exp489/tokenizer
+training:
+  apex: true
+  epochs: 3
+  evaluate_n_times_per_epoch: 4
+  gradient_accumulation_steps: 1
+  max_grad_norm: 1000

configs/exp492.yaml ADDED Viewed

	@@ -0,0 +1,106 @@

+backbone_config_path: /notebooks/models/exp492
+best_model_path: /notebooks/models/exp492/models/fold_0_10_best.pth
+checkpoint_path: /notebooks/models/exp492/chkp/fold_0_10_chkp.pth
+config_path: /notebooks/models/exp492/config.yaml
+criterion:
+  criterion_type: BCEWithLogitsLoss
+  mcrmse_loss:
+    weights:
+    - 0.5
+    - 0.5
+  mse_loss:
+    reduction: mean
+  rmse_loss:
+    eps: 1.0e-09
+    reduction: mean
+  smooth_l1_loss:
+    beta: 0.1
+    reduction: mean
+data_dir: /notebooks/data
+dataset:
+  bucket_batch_sampler:
+    bucket_size: 400
+    noise_factor: 0.2
+  folds: true
+  labels:
+  - generated
+  max_length: 1024
+  sampler_type: StratifiedBatchSampler
+  train_batch_size: 6
+  train_sources:
+  - daigt
+  - persuade
+  - persuade_gpt
+  - persuade_humanized_1
+  - persuade_gpt_patially_rewritten
+  - persuade_gpt_patially_rewritten_05
+  - persuade_humanized_easy_1
+  - daigt_gpt_patially_rewritten
+  - llama-mistral-partially-r
+  - moth
+  - books
+  - neural-chat-7b
+  - nbroad
+  valid_batch_size: 6
+  valid_sources:
+  - none
+debug: false
+exp_name: exp492_seed10
+external_dir: /notebooks/data/external
+fold: 0
+interim_dir: /notebooks/data/interim
+log_path: /notebooks/models/exp492/logs/fold-0.log
+logger:
+  job_type: training
+  project: DAIGT-AIE
+  train_print_frequency: 100
+  use_wandb: true
+  valid_print_frequency: 100
+model:
+  architecture_type: CustomModel
+  attention_dropout: 0.1
+  backbone_type: microsoft/deberta-v3-large
+  dropout: 0.05
+  freeze_embeddings: true
+  freeze_n_layers: 23
+  gem_pooling:
+    eps: 1.0e-06
+    p: 3
+  gradient_checkpointing: false
+  load_embeddings: true
+  load_head: false
+  load_n_layers: 24
+  load_parts: true
+  pooling_type: MeanPooling
+  reinitialize_n_layers: 0
+  state_from_model: exp489
+models_dir: /notebooks/models
+optimizer:
+  beta1: 0.9
+  beta2: 0.999
+  decoder_lr: 2.0e-05
+  embeddings_lr: 2.0e-05
+  encoder_lr: 2.0e-05
+  eps: 1.0e-06
+  group_lr_multiplier: 1
+  n_groups: 1
+  weight_decay: 0.01
+processed_dir: /notebooks/data/processed
+raw_dir: /notebooks/data/raw
+run_dir: /notebooks/models/exp492
+run_id: exp492_seed10_fold0
+run_name: exp492_seed10_fold0
+scheduler:
+  cosine_schedule_with_warmup:
+    n_cycles: 0.5
+    n_warmup_steps: 0
+  type: cosine_schedule_with_warmup
+seed: 10
+tokenizer: null
+tokenizer_path: /notebooks/models/exp492/tokenizer
+training:
+  apex: true
+  epochs: 1
+  evaluate_n_times_per_epoch: 1
+  gradient_accumulation_steps: 1
+  max_grad_norm: 1000

configs/exp500.yaml ADDED Viewed

	@@ -0,0 +1,106 @@

+backbone_config_path: /work/models/exp500
+best_model_path: /work/models/exp500/models/fold_0_42_best.pth
+checkpoint_path: /work/models/exp500/chkp/fold_0_42_chkp.pth
+config_path: /work/models/exp500/config.yaml
+criterion:
+  criterion_type: BCEWithLogitsLoss
+  mcrmse_loss:
+    weights:
+    - 0.5
+    - 0.5
+  mse_loss:
+    reduction: mean
+  rmse_loss:
+    eps: 1.0e-09
+    reduction: mean
+  smooth_l1_loss:
+    beta: 0.1
+    reduction: mean
+data_dir: /work/data
+dataset:
+  bucket_batch_sampler:
+    bucket_size: 400
+    noise_factor: 0.2
+  folds: true
+  labels:
+  - generated
+  max_length: 384
+  sampler_type: StratifiedBatchSampler
+  train_batch_size: 36
+  train_sources:
+  - daigt
+  - persuade
+  - persuade_gpt
+  - persuade_humanized_1
+  - persuade_gpt_patially_rewritten
+  - persuade_gpt_patially_rewritten_05
+  - persuade_humanized_easy_1
+  - daigt_gpt_patially_rewritten
+  - llama-mistral-partially-r
+  - moth
+  - books
+  - neural-chat-7b
+  - nbroad
+  valid_batch_size: 36
+  valid_sources:
+  - none
+debug: false
+exp_name: exp500_seed42
+external_dir: /work/data/external
+fold: 0
+interim_dir: /work/data/interim
+log_path: /work/models/exp500/logs/fold-0.log
+logger:
+  job_type: training
+  project: DAIGT-AIE
+  train_print_frequency: 100
+  use_wandb: true
+  valid_print_frequency: 100
+model:
+  architecture_type: CustomModel
+  attention_dropout: 0.0
+  backbone_type: microsoft/deberta-v3-large
+  dropout: 0.0
+  freeze_embeddings: false
+  freeze_n_layers: 0
+  gem_pooling:
+    eps: 1.0e-06
+    p: 3
+  gradient_checkpointing: false
+  load_embeddings: true
+  load_head: true
+  load_n_layers: 24
+  load_parts: true
+  pooling_type: MeanPooling
+  reinitialize_n_layers: 0
+  state_from_model: None
+models_dir: /work/models
+optimizer:
+  beta1: 0.9
+  beta2: 0.999
+  decoder_lr: 2.0e-05
+  embeddings_lr: 2.0e-05
+  encoder_lr: 2.0e-05
+  eps: 1.0e-06
+  group_lr_multiplier: 1
+  n_groups: 1
+  weight_decay: 0.01
+processed_dir: /work/data/processed
+raw_dir: /work/data/raw
+run_dir: /work/models/exp500
+run_id: exp500_seed42_fold0
+run_name: exp500_seed42_fold0
+scheduler:
+  cosine_schedule_with_warmup:
+    n_cycles: 0.5
+    n_warmup_steps: 0
+  type: cosine_schedule_with_warmup
+seed: 42
+tokenizer: null
+tokenizer_path: /work/models/exp500/tokenizer
+training:
+  apex: true
+  epochs: 3
+  evaluate_n_times_per_epoch: 16
+  gradient_accumulation_steps: 1
+  max_grad_norm: 10

configs/exp510.yaml ADDED Viewed

	@@ -0,0 +1,106 @@

+backbone_config_path: /notebooks/models/exp510
+best_model_path: /notebooks/models/exp510/models/fold_0_42_best.pth
+checkpoint_path: /notebooks/models/exp510/chkp/fold_0_42_chkp.pth
+config_path: /notebooks/models/exp510/config.yaml
+criterion:
+  criterion_type: BCEWithLogitsLoss
+  mcrmse_loss:
+    weights:
+    - 0.5
+    - 0.5
+  mse_loss:
+    reduction: mean
+  rmse_loss:
+    eps: 1.0e-09
+    reduction: mean
+  smooth_l1_loss:
+    beta: 0.1
+    reduction: mean
+data_dir: /notebooks/data
+dataset:
+  bucket_batch_sampler:
+    bucket_size: 400
+    noise_factor: 0.2
+  folds: true
+  labels:
+  - generated
+  max_length: 1024
+  sampler_type: StratifiedBatchSampler
+  train_batch_size: 6
+  train_sources:
+  - daigt
+  - persuade
+  - persuade_gpt
+  - persuade_humanized_1
+  - persuade_gpt_patially_rewritten
+  - persuade_gpt_patially_rewritten_05
+  - persuade_humanized_easy_1
+  - daigt_gpt_patially_rewritten
+  - llama-mistral-partially-r
+  - moth
+  - books
+  - neural-chat-7b
+  - nbroad
+  valid_batch_size: 6
+  valid_sources:
+  - none
+debug: false
+exp_name: exp510_seed42
+external_dir: /notebooks/data/external
+fold: 0
+interim_dir: /notebooks/data/interim
+log_path: /notebooks/models/exp510/logs/fold-0.log
+logger:
+  job_type: training
+  project: DAIGT-AIE
+  train_print_frequency: 100
+  use_wandb: true
+  valid_print_frequency: 100
+model:
+  architecture_type: CustomModel
+  attention_dropout: 0.0
+  backbone_type: microsoft/deberta-v3-large
+  dropout: 0.0
+  freeze_embeddings: true
+  freeze_n_layers: 23
+  gem_pooling:
+    eps: 1.0e-06
+    p: 3
+  gradient_checkpointing: false
+  load_embeddings: true
+  load_head: true
+  load_n_layers: 24
+  load_parts: true
+  pooling_type: MeanPooling
+  reinitialize_n_layers: 0
+  state_from_model: exp489
+models_dir: /notebooks/models
+optimizer:
+  beta1: 0.9
+  beta2: 0.999
+  decoder_lr: 2.0e-05
+  embeddings_lr: 0.0
+  encoder_lr: 1.0e-05
+  eps: 1.0e-06
+  group_lr_multiplier: 1
+  n_groups: 1
+  weight_decay: 0.01
+processed_dir: /notebooks/data/processed
+raw_dir: /notebooks/data/raw
+run_dir: /notebooks/models/exp510
+run_id: exp510_seed42_fold0
+run_name: exp510_seed42_fold0
+scheduler:
+  cosine_schedule_with_warmup:
+    n_cycles: 0.5
+    n_warmup_steps: 0
+  type: cosine_schedule_with_warmup
+seed: 42
+tokenizer: null
+tokenizer_path: /notebooks/models/exp510/tokenizer
+training:
+  apex: true
+  epochs: 1
+  evaluate_n_times_per_epoch: 1
+  gradient_accumulation_steps: 1
+  max_grad_norm: 1000

configs/exp511.yaml ADDED Viewed

	@@ -0,0 +1,106 @@

+backbone_config_path: /notebooks/models/exp511
+best_model_path: /notebooks/models/exp511/models/fold_0_42_best.pth
+checkpoint_path: /notebooks/models/exp511/chkp/fold_0_42_chkp.pth
+config_path: /notebooks/models/exp511/config.yaml
+criterion:
+  criterion_type: BCEWithLogitsLoss
+  mcrmse_loss:
+    weights:
+    - 0.5
+    - 0.5
+  mse_loss:
+    reduction: mean
+  rmse_loss:
+    eps: 1.0e-09
+    reduction: mean
+  smooth_l1_loss:
+    beta: 0.1
+    reduction: mean
+data_dir: /notebooks/data
+dataset:
+  bucket_batch_sampler:
+    bucket_size: 400
+    noise_factor: 0.2
+  folds: true
+  labels:
+  - generated
+  max_length: 1024
+  sampler_type: StratifiedBatchSampler
+  train_batch_size: 6
+  train_sources:
+  - daigt
+  - persuade
+  - persuade_gpt
+  - persuade_humanized_1
+  - persuade_gpt_patially_rewritten
+  - persuade_gpt_patially_rewritten_05
+  - persuade_humanized_easy_1
+  - daigt_gpt_patially_rewritten
+  - llama-mistral-partially-r
+  - moth
+  - books
+  - neural-chat-7b
+  - nbroad
+  valid_batch_size: 6
+  valid_sources:
+  - none
+debug: false
+exp_name: exp511_seed42
+external_dir: /notebooks/data/external
+fold: 0
+interim_dir: /notebooks/data/interim
+log_path: /notebooks/models/exp511/logs/fold-0.log
+logger:
+  job_type: training
+  project: DAIGT-AIE
+  train_print_frequency: 100
+  use_wandb: true
+  valid_print_frequency: 100
+model:
+  architecture_type: CustomModel
+  attention_dropout: 0.1
+  backbone_type: microsoft/deberta-v3-large
+  dropout: 0.05
+  freeze_embeddings: true
+  freeze_n_layers: 23
+  gem_pooling:
+    eps: 1.0e-06
+    p: 3
+  gradient_checkpointing: false
+  load_embeddings: true
+  load_head: true
+  load_n_layers: 24
+  load_parts: true
+  pooling_type: MeanPooling
+  reinitialize_n_layers: 0
+  state_from_model: exp507
+models_dir: /notebooks/models
+optimizer:
+  beta1: 0.9
+  beta2: 0.999
+  decoder_lr: 2.0e-05
+  embeddings_lr: 2.0e-05
+  encoder_lr: 2.0e-05
+  eps: 1.0e-06
+  group_lr_multiplier: 1
+  n_groups: 1
+  weight_decay: 0.01
+processed_dir: /notebooks/data/processed
+raw_dir: /notebooks/data/raw
+run_dir: /notebooks/models/exp511
+run_id: exp511_seed42_fold0
+run_name: exp511_seed42_fold0
+scheduler:
+  cosine_schedule_with_warmup:
+    n_cycles: 0.5
+    n_warmup_steps: 0
+  type: cosine_schedule_with_warmup
+seed: 42
+tokenizer: null
+tokenizer_path: /notebooks/models/exp511/tokenizer
+training:
+  apex: true
+  epochs: 3
+  evaluate_n_times_per_epoch: 1
+  gradient_accumulation_steps: 1
+  max_grad_norm: 1000

configs/exp512.yaml ADDED Viewed

	@@ -0,0 +1,106 @@

+backbone_config_path: /notebooks/models/exp512
+best_model_path: /notebooks/models/exp512/models/fold_0_2024_best.pth
+checkpoint_path: /notebooks/models/exp512/chkp/fold_0_2024_chkp.pth
+config_path: /notebooks/models/exp512/config.yaml
+criterion:
+  criterion_type: BCEWithLogitsLoss
+  mcrmse_loss:
+    weights:
+    - 0.5
+    - 0.5
+  mse_loss:
+    reduction: mean
+  rmse_loss:
+    eps: 1.0e-09
+    reduction: mean
+  smooth_l1_loss:
+    beta: 0.1
+    reduction: mean
+data_dir: /notebooks/data
+dataset:
+  bucket_batch_sampler:
+    bucket_size: 400
+    noise_factor: 0.2
+  folds: true
+  labels:
+  - generated
+  max_length: 1024
+  sampler_type: StratifiedBatchSampler
+  train_batch_size: 6
+  train_sources:
+  - daigt
+  - persuade
+  - persuade_gpt
+  - persuade_humanized_1
+  - persuade_gpt_patially_rewritten
+  - persuade_gpt_patially_rewritten_05
+  - persuade_humanized_easy_1
+  - daigt_gpt_patially_rewritten
+  - llama-mistral-partially-r
+  - moth
+  - books
+  - neural-chat-7b
+  - nbroad
+  valid_batch_size: 6
+  valid_sources:
+  - none
+debug: false
+exp_name: exp512_seed2024
+external_dir: /notebooks/data/external
+fold: 0
+interim_dir: /notebooks/data/interim
+log_path: /notebooks/models/exp512/logs/fold-0.log
+logger:
+  job_type: training
+  project: DAIGT-AIE
+  train_print_frequency: 100
+  use_wandb: true
+  valid_print_frequency: 100
+model:
+  architecture_type: CustomModel
+  attention_dropout: 0.1
+  backbone_type: microsoft/deberta-v3-large
+  dropout: 0.05
+  freeze_embeddings: true
+  freeze_n_layers: 23
+  gem_pooling:
+    eps: 1.0e-06
+    p: 3
+  gradient_checkpointing: false
+  load_embeddings: true
+  load_head: true
+  load_n_layers: 24
+  load_parts: true
+  pooling_type: MeanPooling
+  reinitialize_n_layers: 0
+  state_from_model: exp489
+models_dir: /notebooks/models
+optimizer:
+  beta1: 0.9
+  beta2: 0.999
+  decoder_lr: 2.0e-05
+  embeddings_lr: 2.0e-05
+  encoder_lr: 2.0e-05
+  eps: 1.0e-06
+  group_lr_multiplier: 1
+  n_groups: 1
+  weight_decay: 0.01
+processed_dir: /notebooks/data/processed
+raw_dir: /notebooks/data/raw
+run_dir: /notebooks/models/exp512
+run_id: exp512_seed2024_fold0
+run_name: exp512_seed2024_fold0
+scheduler:
+  cosine_schedule_with_warmup:
+    n_cycles: 0.5
+    n_warmup_steps: 0
+  type: cosine_schedule_with_warmup
+seed: 2024
+tokenizer: null
+tokenizer_path: /notebooks/models/exp512/tokenizer
+training:
+  apex: true
+  epochs: 3
+  evaluate_n_times_per_epoch: 1
+  gradient_accumulation_steps: 1
+  max_grad_norm: 1000

models/exp179_weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:739fd06d3a687dce1a762c3300aa0b071bd548768a7cb83a950873c4bd8e3a6b
+size 1735825398

models/exp184_weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e4f5d832fe53c3543591ab26079f85df6a9343458299be8693a9aed540f7b46
+size 1735825398

models/exp200_weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d37b2f2b0d6d971aa1c1912c7eb0a4f687ab561652072eeec1605e8672457ae4
+size 1735825142

models/exp222_weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:018b08f29fdba158f80b9adede4c4b2bfa6ab499c690cd257ed05aaab372192d
+size 1735815798

models/exp477_weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b3efefc5aacf24be7387c8402f67e4f8b29422df457455653e5f7ea6b9978d9
+size 1735823606

models/exp478_weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d3ff6b6381aefc4408bdf00320ac0d0197539f4cb50af628db08fb27763ae6a2
+size 1735823734

models/exp489_weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd1541ebd70323ae99f89ff85947a9fe5749f97d7ed9441a94a4af510c70b81f
+size 1735840182

models/exp492_weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d9035bda67b861329a5ac9e847a781c67f81bcc4fd37bdd8740c55c03a08bd18
+size 1735824886

models/exp500_weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f718602def5bc201f878ef487c4ba7941b4eff01a3a961b4982c2ed29c34886
+size 1735839798

models/exp510_weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f3a0f1752b937d5324957eb3303f6243333b382fe81c2fb159126d321194009
+size 1735823734

models/exp511_weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c737da2b582bb7c76404582261ae9b5593282be1264b970e96d885a98bae5188
+size 1735824822

models/exp512_weights.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fcfb80b7299b1beabdfd573c68683a4da3999d2d6374afd6bab7b174f55aa1d1
+size 1735824822

tokenizer/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

tokenizer/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

tokenizer/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}