metadata
license: mit
base_model: xlm-roberta-base
tags:
- generated_from_trainer
metrics:
- f1
- accuracy
model-index:
- name: mymodel-classify-category-news
results: []
pipeline_tag: text-classification
widget:
- text: >-
Chiều 23/7, thông tin từ Đội Tuần tra kiểm soát giao thông đường bộ cao
tốc số 2 (Đội 2, Cục CSGT) cho biết, trên tuyến cao tốc Hà Nội - Hải Phòng
vừa xảy ra vụ hỏa hoạn khiến một xe bán tải bị thiêu rụi. Cụ thể, khoảng
12h30 cùng ngày, ô tô bán tải mang biển kiểm soát 11C-038.XX do 3 du khách
người người nước ngoài điều khiển đi trên tuyến cao tốc Hà Nội - Hải
Phòng, hướng về Hà Nội, đến Km52+400 thuộc địa phận huyện Gia Lộc (Hải
Dương) thì ô tô bất ngờ bốc cháy dữ dội. Tại hiện trường, ô tô bán tải đã
được đỗ gọn vào làn dừng đường khẩn cấp trên cao tốc, các hành khách trên
xe kịp thời thoát ra ngoài. Nhận được tin báo, Đội 2 đã cử cán bộ, chiến
sĩ đến hiện trường phối hợp cùng Phòng Cảnh sát PCCC&CNCH Công an tỉnh Hải
Dương chữa cháy và phân luồng giao thông. Theo thống kê ban đầu, vụ hỏa
hoạn không gây thiệt hại về người. Tuy nhiên, ô tô bán tải đã bị thiêu rụi
hoàn toàn. Công an huyện Gia Lộc (Hải Dương) đang điều tra, làm rõ nguyên
nhân vụ cháy.
example_title: Example 1
- text: >-
Trước Messi, hai cầu thủ khác là Blaise Matuidi và Gonzalo Higuain đã gia
nhập Inter Miami vào năm 2020. Để chiêu mộ Olivier Giroud, đội bóng nước
Mỹ đã đưa ra lời đề nghị cấp cho tiền đạo này một căn hộ tại toà nhà
Porsche Design. Khu dân cư Thịnh Lang của nhà đầu tư trúng thầu Liên danh
Sudico - Sudico Hòa Bình. Khu đô thị mới Sông Đà - Hòa Bình tại phường
Thái Bình và xã Dân Chủ, nhà đầu tư trúng thầu là Công ty CP Đầu tư xây
dựng và phát triển đô thị Sông Đà. Khu nhà ở Thăng Long Xanh tại xã Phúc
Tiến của Liên danh Công ty CP Thăng Long Land, Công ty TNHH Xây dựng Thành
Hưng và Công ty CP Phát triển đô thị An Thịnh. Dự án nhà ở xã hội cho công
nhân mua, thuê và thuê mua (giai đoạn II), phường Hữu Nghị, nhà đầu tư
trúng thầu là Công ty CP Thương mại Dạ Hợp. Để tránh những rủi ro trong
giao dịch và đảm bảo minh bạch và đảm bảo phát triển lành mạnh ổn định của
thị trường bất động sản, không làm ảnh hưởng đến tình hình an ninh trật tự
tại địa phương, tránh tình trạng các tổ chức, cá nhân huy động vốn, bán
sản phẩm bất động sản trái quy định pháp luật trên địa bàn tỉnh, Sở Xây
dựng khuyến cáo người dân không tham gia giao dịch đối với các bất động
sản chưa đủ điều kiện đưa vào kinh doanh theo quy định. Cơ quan quản lý
cũng đề nghị trường hợp các tổ chức, cá nhân có bằng chứng về việc ký hợp
đồng đặt cọc giữ chỗ mua bán sản phẩm dự án giữa khách hàng và chủ đầu tư
thì cung cấp về Sở Xây dựng và các cơ quan có liên quan (Công an tỉnh, Sở
Tài nguyên và Môi trường, UBND các huyện, thành phố nơi có dự án rao bán)
để xem xét, xử lý theo đúng quy định pháp luật. Cũng theo danh sách công
bố, có 30 dự án bất động sản đủ điều huy động vốn, bán nhà ở hình thành
trong tương lai, chuyển nhượng bất động sản.
example_title: Example 2
mymodel-classify-category-news
This model is a fine-tuned version of xlm-roberta-base on the None dataset. It achieves the following results on the evaluation set:
- Loss: 0.0370
- F1: 0.9443
- Roc Auc: 0.9677
- Accuracy: 0.9401
Model description
Predict type of Vietnamese news :D
Intended uses & limitations
Input limit is 512 tokens so, when model try to predict long text it will error
from transformers import pipeline
# Split chunk with 512 token (max_len of tokenizer)
chunk_size = 512
chunks = [prompt[i:i + chunk_size] for i in range(0, len(prompt), chunk_size)]
# pipeline to call model uwu
pipe = pipeline("text-classification", model="duwuonline/mymodel-classify-category-news")
# Create list to save predict
results = []
# Call model to predict small chunk and save them in list
for chunk in chunks:
result = pipe(chunk)
results.append(result)
# Function to get most common label
def get_most_common_label(results_list):
label_counts = {}
for result in results_list:
label = result[0]['label']
label_counts[label] = label_counts.get(label, 0) + 1
most_common_label = max(label_counts, key=label_counts.get)
return most_common_label
# call funtion get_most_common_label
most_common_label = get_most_common_label(results)
print("The most label appear is:", most_common_label)
Training and evaluation data
I will update later
Training procedure
Training hyperparameters
The following hyperparameters were used during training:
- learning_rate: 2e-05
- train_batch_size: 8
- eval_batch_size: 8
- seed: 42
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- num_epochs: 5
Training results
Training Loss | Epoch | Step | Validation Loss | F1 | Roc Auc | Accuracy |
---|---|---|---|---|---|---|
No log | 1.0 | 225 | 0.0466 | 0.9354 | 0.9560 | 0.9157 |
No log | 2.0 | 450 | 0.0505 | 0.9215 | 0.9526 | 0.9113 |
0.0418 | 3.0 | 675 | 0.0426 | 0.9330 | 0.9607 | 0.9268 |
0.0418 | 4.0 | 900 | 0.0397 | 0.9410 | 0.9664 | 0.9379 |
0.0202 | 5.0 | 1125 | 0.0370 | 0.9443 | 0.9677 | 0.9401 |
Framework versions
- Transformers 4.31.0
- Pytorch 2.0.1+cu118
- Datasets 2.13.1
- Tokenizers 0.13.3