duwuonline's picture
Update README.md
3fdc000
metadata
license: mit
base_model: xlm-roberta-base
tags:
  - generated_from_trainer
metrics:
  - f1
  - accuracy
model-index:
  - name: mymodel-classify-category-news
    results: []
pipeline_tag: text-classification
widget:
  - text: >-
      Chiều 23/7, thông tin từ Đội Tuần tra kiểm soát giao thông đường bộ cao
      tốc số 2 (Đội 2, Cục CSGT) cho biết, trên tuyến cao tốc Hà Nội - Hải Phòng
      vừa xảy ra vụ hỏa hoạn khiến một xe bán tải bị thiêu rụi. Cụ thể, khoảng
      12h30 cùng ngày, ô tô bán tải mang biển kiểm soát 11C-038.XX do 3 du khách
      người người nước ngoài điều khiển đi trên tuyến cao tốc Hà Nội - Hải
      Phòng, hướng về Hà Nội, đến Km52+400 thuộc địa phận huyện Gia Lộc (Hải
      Dương) thì ô tô bất ngờ bốc cháy dữ dội. Tại hiện trường, ô tô bán tải đã
      được đỗ gọn vào làn dừng đường khẩn cấp trên cao tốc, các hành khách trên
      xe kịp thời thoát ra ngoài. Nhận được tin báo, Đội 2 đã cử cán bộ, chiến
      sĩ đến hiện trường phối hợp cùng Phòng Cảnh sát PCCC&CNCH Công an tỉnh Hải
      Dương chữa cháy và phân luồng giao thông. Theo thống kê ban đầu, vụ hỏa
      hoạn không gây thiệt hại về người. Tuy nhiên, ô tô bán tải đã bị thiêu rụi
      hoàn toàn. Công an huyện Gia Lộc (Hải Dương) đang điều tra, làm rõ nguyên
      nhân vụ cháy.
    example_title: Example 1
  - text: >-
      Trước Messi, hai cầu thủ khác là Blaise Matuidi và Gonzalo Higuain đã gia
      nhập Inter Miami vào năm 2020. Để chiêu mộ Olivier Giroud, đội bóng nước
      Mỹ đã đưa ra lời đề nghị cấp cho tiền đạo này một căn hộ tại toà nhà
      Porsche Design. Khu dân cư Thịnh Lang của nhà đầu tư trúng thầu Liên danh
      Sudico - Sudico Hòa Bình. Khu đô thị mới Sông Đà - Hòa Bình tại phường
      Thái Bình và xã Dân Chủ, nhà đầu tư trúng thầu là Công ty CP Đầu tư xây
      dựng và phát triển đô thị Sông Đà. Khu nhà ở Thăng Long Xanh tại xã Phúc
      Tiến của Liên danh Công ty CP Thăng Long Land, Công ty TNHH Xây dựng Thành
      Hưng và Công ty CP Phát triển đô thị An Thịnh. Dự án nhà ở xã hội cho công
      nhân mua, thuê và thuê mua (giai đoạn II), phường Hữu Nghị, nhà đầu tư
      trúng thầu là Công ty CP Thương mại Dạ Hợp. Để tránh những rủi ro trong
      giao dịch và đảm bảo minh bạch và đảm bảo phát triển lành mạnh ổn định của
      thị trường bất động sản, không làm ảnh hưởng đến tình hình an ninh trật tự
      tại địa phương, tránh tình trạng các tổ chức, cá nhân huy động vốn, bán
      sản phẩm bất động sản trái quy định pháp luật trên địa bàn tỉnh, Sở Xây
      dựng khuyến cáo người dân không tham gia giao dịch đối với các bất động
      sản chưa đủ điều kiện đưa vào kinh doanh theo quy định. Cơ quan quản lý
      cũng đề nghị trường hợp các tổ chức, cá nhân có bằng chứng về việc ký hợp
      đồng đặt cọc giữ chỗ mua bán sản phẩm dự án giữa khách hàng và chủ đầu tư
      thì cung cấp về Sở Xây dựng và các cơ quan có liên quan (Công an tỉnh, Sở
      Tài nguyên và Môi trường, UBND các huyện, thành phố nơi có dự án rao bán)
      để xem xét, xử lý theo đúng quy định pháp luật. Cũng theo danh sách công
      bố, có 30 dự án bất động sản đủ điều huy động vốn, bán nhà ở hình thành
      trong tương lai, chuyển nhượng bất động sản.
    example_title: Example 2

mymodel-classify-category-news

This model is a fine-tuned version of xlm-roberta-base on the None dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0370
  • F1: 0.9443
  • Roc Auc: 0.9677
  • Accuracy: 0.9401

Model description

Predict type of Vietnamese news :D

Intended uses & limitations

Input limit is 512 tokens so, when model try to predict long text it will error

from transformers import pipeline

# Split chunk with 512 token (max_len of tokenizer)
chunk_size = 512
chunks = [prompt[i:i + chunk_size] for i in range(0, len(prompt), chunk_size)]

# pipeline to call model uwu
pipe = pipeline("text-classification", model="duwuonline/mymodel-classify-category-news")

# Create list to save predict
results = []

# Call model to predict small chunk and save them in list
for chunk in chunks:
    result = pipe(chunk)
    results.append(result)

# Function to get most common label
def get_most_common_label(results_list):
    label_counts = {}
    for result in results_list:
        label = result[0]['label']
        label_counts[label] = label_counts.get(label, 0) + 1

    most_common_label = max(label_counts, key=label_counts.get)
    return most_common_label

# call funtion get_most_common_label
most_common_label = get_most_common_label(results)
print("The most label appear is:", most_common_label)

Training and evaluation data

I will update later

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 2e-05
  • train_batch_size: 8
  • eval_batch_size: 8
  • seed: 42
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: linear
  • num_epochs: 5

Training results

Training Loss Epoch Step Validation Loss F1 Roc Auc Accuracy
No log 1.0 225 0.0466 0.9354 0.9560 0.9157
No log 2.0 450 0.0505 0.9215 0.9526 0.9113
0.0418 3.0 675 0.0426 0.9330 0.9607 0.9268
0.0418 4.0 900 0.0397 0.9410 0.9664 0.9379
0.0202 5.0 1125 0.0370 0.9443 0.9677 0.9401

Framework versions

  • Transformers 4.31.0
  • Pytorch 2.0.1+cu118
  • Datasets 2.13.1
  • Tokenizers 0.13.3