hyunkookim
commited on
Commit
•
0c3f839
1
Parent(s):
5297f29
Upload folder using huggingface_hub
Browse files- 1_Pooling/config.json +10 -0
- README.md +647 -0
- config.json +29 -0
- config_sentence_transformers.json +10 -0
- model.safetensors +3 -0
- modules.json +14 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +51 -0
- tokenizer.json +0 -0
- tokenizer_config.json +66 -0
- vocab.txt +0 -0
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 768,
|
3 |
+
"pooling_mode_cls_token": false,
|
4 |
+
"pooling_mode_mean_tokens": true,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,647 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
base_model: hyunkookim/klue-roberta-base-klue-sts
|
3 |
+
datasets: []
|
4 |
+
language: []
|
5 |
+
library_name: sentence-transformers
|
6 |
+
metrics:
|
7 |
+
- pearson_cosine
|
8 |
+
- spearman_cosine
|
9 |
+
- pearson_manhattan
|
10 |
+
- spearman_manhattan
|
11 |
+
- pearson_euclidean
|
12 |
+
- spearman_euclidean
|
13 |
+
- pearson_dot
|
14 |
+
- spearman_dot
|
15 |
+
- pearson_max
|
16 |
+
- spearman_max
|
17 |
+
pipeline_tag: sentence-similarity
|
18 |
+
tags:
|
19 |
+
- sentence-transformers
|
20 |
+
- sentence-similarity
|
21 |
+
- feature-extraction
|
22 |
+
- generated_from_trainer
|
23 |
+
- dataset_size:17552
|
24 |
+
- loss:MultipleNegativesRankingLoss
|
25 |
+
widget:
|
26 |
+
- source_sentence: 일본 소니가 개발한 전지의 kg당 에너지 밀도는?
|
27 |
+
sentences:
|
28 |
+
- "과학적 방법\n \n과학적 방법은 연역과 귀납에 의해 사실을 밝히는 방법론이다. 연역은 사실로 여겨지는 기존의 전제에서 새로운 결론을 논리적으로\
|
29 |
+
\ 유도하고 귀납은 관찰되는 현상에서 일반화된 결론을 이끌어낸다. 이 두 방법은 모두 완전하지 않다. 연역은 전제가 사실이 아니었을 때 필연적으로\
|
30 |
+
\ 결론 역시 잘못되게 되며, 귀납은 새로운 사실이 관찰되었을 때 결론이 붕괴될 수 있다. \"백조는 모두 희다\"는 주장은 검은 백조의 발견으로\
|
31 |
+
\ 붕괴된다. 새로운 사실에 의해 기존의 귀납적 추론이 붕괴되는 것은 흑고니 이론으로 알려져 있으며 과학뿐만아니라 경제, 사회, 철학 등 여러\
|
32 |
+
\ 학문 분야에서 쓰이고 있다.\n\n과학의 역사에서 많은 과학자들은 흑고니와 같이 기존의 설명에 반하는 것을 발견하였을 때 이를 무시하는\
|
33 |
+
\ 경향을 보였다192–94 기존의 과학적 설명은 확증 편향으로서 작용한다. 새로운 발견이 기존의 설명에 들어맞으면 보다 쉽게 수용되지만 그렇지\
|
34 |
+
\ 않은 것은 무시되거나 잘못된 관찰이라는 평가를 받기 쉽다 20세기 초 하버드 대학교의 세실리아 페인은 태양의 스펙트럼을 분석하여 태양을\
|
35 |
+
\ 이루는 물질의 대다수가 수소와 헬륨이라는 사실을 관찰하였다. 그러나 당시 보수적이며 남성중심적이었던 천문학계는 페인의 관찰을 받아드리지\
|
36 |
+
\ 못했다. 페인은 이와 관련한 논문을 발표하면서 지도교수 헨리 노리스 러셀의 강권에 못이겨 논문 말미에 \"이는 사실이 아닐 것\"이라고\
|
37 |
+
\ 써 넣을 수 밖에 없었다. 당시 천문학계는 태양이 대부분 철로 이루어져 있다고 믿고 있었다. 과학자들이 기존의 이론을 고수하려는 확증 편향을\
|
38 |
+
\ 보이기 쉽다고 하더라도 새로운 결과를 지지하는 관찰과 실험이 계속되면 결국 기존의 이론은 폐기되고 새로운 이론이 세워지게 된다 그러나 이러한\
|
39 |
+
\ 변환은 그리 순탄하지 많은 않다. 토머스 쿤은 《과학혁명의 구조》에서 과학 이론의 변화를 대립, 경쟁하는 패러다임의 변환으로 파악한 바\
|
40 |
+
\ 있다. \n\n과학적 발견은 때로 사회가 갖는 확증 편향과 대립하기도 한다. 찰스 다윈의 《종의 기원》은 당시 영국 사회의 일반적 신념인\
|
41 |
+
\ 기독교의 창조론에 반한다는 이유로 큰 논란을 일으켰다. 과학은 종교와 전혀 다른 범주이지만 오늘날에도 일부 근본주의 기독교 신자들은 창조론을\
|
42 |
+
\ 옹호하기 위해 진화 이론을 거부한다."
|
43 |
+
- 리튬이온전지는 1990년 일본 소니가 개발했다. 충전과 재사용이 가능한 2차전지 가운데 에너지 밀도가 높은 편이고 기억 효과가 없어 널리 퍼져나갔다.
|
44 |
+
지금은 스마트폰과 태블릿을 비롯해 전기자동차에까지 쓰이고 있다. 하지만 다가오는 미래에 대응하기엔 리튬이온전지는 에너지가 턱없이 부족한 편이다.
|
45 |
+
이런 상황에서 지난달 24일 한국전기연구원은 세계 최고 수준의 에너지 밀도를 가지면서도 리튬전지 대비 10분의 1의 가격에 제조할 수 있는
|
46 |
+
아연공기전지를 개발해 주목받고 있다. 아연공기전지 개발의 주역인 엄승욱 한국전기연구원 전지연구센터 책임연구원은 지난 7일 “아연공기전지는 폭발
|
47 |
+
위험이 없으면서 납축전지의 다섯 배, 리튬전지의 두 배에 달하는 에너지를 저장할 수 있어 차세대 전지로 각광받고 있다”고 말했다.○세계 최고
|
48 |
+
에너지 밀도 아연공기전지는 말 그대로 아연과 공기중의 산소를 재료로 쓰는 전지다. 엄 책임연구원은 “전지의 음극재로 아연 파우더를 쓰고 양극재로
|
49 |
+
산소를 사용해 전기를 발생시키는 구조”라고 설명했다. 아연이 지구상에서 23번째로 흔한 금속이다 보니 희토류에 속하는 리튬보다 생산 단가가
|
50 |
+
싸다. 아연은 국내에서 고려아연 영풍 같은 업체들이 아연광석을 들여와 제련하고 있지만 리튬은 전량 수입에 의존하고 있기 때문이다. 또 리튬이온전지는
|
51 |
+
열을 받으면 폭발할 위험이 크지만 아연을 쓰면 이런 위험이 없어진다. 그는 “이번 연구 자체가 국방과학연구소에서 군에서 안전하게 쓸 수 있는
|
52 |
+
전지를 만들어 달라는 의뢰를 받아 시작하게 된 것”이라며 “아연공기전지는 전장에서 총알을 맞아도 터지지 않을 정도로 안전하다”고 말했다. 전기연구원에서
|
53 |
+
개발한 아연공기전지는 ㎏당 395Wh로 세계 최고 수준의 에너지 밀도를 갖고 있기 때문에 전장에서도 오랫동안 쓸 수 있다. 리튬이온전지의 에너지
|
54 |
+
밀도는 ㎏당 200Wh 정도다. 그는 “통신 장비뿐 아니라 무인항공기, 미래 병사용 입는 장비 등에 쓸 수 있다”고 내다봤다.○2차전지·간이
|
55 |
+
발전소로 발전아연공기전지의 한 가지 부족한 점은 충전이 안 된다는 것이다. 엄 연구원은 “지금으로선 아연을 다 소모하고 나면 이를 갈아끼우는
|
56 |
+
방법밖에 없다”고 말했다. 하지만 “근본적으로 충전이 안 되는 것은 아니다”고 덧붙였다. 지금은 기술적인 장벽을 넘지 못해 충전을 못하고 있지만
|
57 |
+
언젠가는 리튬이온전지처럼 자유자재로 충전하는 2차 전지로 발전할 것이란 얘기다.
|
58 |
+
- '본래 ‘호자주의’는 엔베르 호자 스스로가 자신의 사상에 대해 명명한 명칭이 아니며, 단지 알바니아를 외부자의 시점으로 관찰한 서구(주로 프랑스)
|
59 |
+
지식인 및 언론인들이 사용했던 용어이다. 엔베르 호자는 스스로의 사상을 단순히 마르크스-레닌주의의 원칙 고수일 뿐이라고 하였다. 이러한 원칙은
|
60 |
+
수정주의를 받아들인 중국공산당과 대립하기 전에 알바니아 내에서 윤곽이 잡혀져 있었다. 엔베르 호자가 스스로를 마오이스트라고 칭하지는 않은 것과
|
61 |
+
무관하게 호자주의는 1960년대 중화인민공화국의 문화대혁명에 영향을 받은 것이었으며, 이론적으로는 마오쩌둥 사상과 흡사했다. 1978년 이후
|
62 |
+
엔베르 호자는 마오쩌둥 사상을 강하게 비판하였고, 그 결과 호자 사상과 마오쩌둥 사상 사이의 차이점을 구분하는 것이 비교적 쉬워졌다. 그러나
|
63 |
+
그 차이점은 아주 세밀한 부분에서의 차이점이기 때문에 마르크스주의자들이 상당히 다루기 어려운 부분이라고 여겨지고 있다. 호자의 사상은 이러한
|
64 |
+
특징 외에도 기술주의(技術主義)에 대한 반대·극단적인 무신론·알바니아 민족주의·엄격한 금욕주의(禁慾主義)·지속적인 문화 혁명 강행이라는 요소도
|
65 |
+
존재하였다.
|
66 |
+
|
67 |
+
|
68 |
+
호자주의는 이오시프 스탈린, 그리고 스탈린 지배 아래 있는 소련이라는 국가 개념을 엄격하게 고수하는 태도를 보이며, 1956년 이후 급격히
|
69 |
+
수정주의의 길로 접어든 소련과 그 영향권 아래에 있는 공산주의 단체를 모두 "수정주의적 마르크스주의"로 강렬히 비판한다.'
|
70 |
+
- source_sentence: 워터블럭의 최대 무상보증 기간은 몇 년인가?
|
71 |
+
sentences:
|
72 |
+
- '제이씨현시스템㈜ (대표: 차현배)는 2020년 11월 18일(수), AORUS Xtreme 지포스 RTX 3080 D6X 10GB 워터포스,
|
73 |
+
워터블럭 그래픽카드 2종을 공식 출시한다. RTX 2세대인 새로운 지포스 RTX 30 GPU는 신규 RT 코어와 텐서 코어, 스트리밍 멀티프로세서로
|
74 |
+
놀라운 비주얼과 향상된 프레임 레이트 및 AI 가속을 게임과 크리에이티브 어플리케이션에 제공한다. 이전 세대 대비 와트 당 최대 1.9 배
|
75 |
+
향상된 성능을 제공하는 엔비디아 암페어 아키텍처 기반 RTX 30 시리즈는 8K 해상도를 포함한 모든 해상도에서 최고의 그래픽 품질을 제공한다.
|
76 |
+
오늘 출시하는 제품 2종은 모두 최대 부스트 기준 GPU 코어클럭 1845 MHz(쿠다코어 8074)를 기록하며, GDDR6X의 19000MHz(320bit)
|
77 |
+
초고대역폭의 메모리를 탑재해 강력한 성능과 함께 본체 전면을 감싸는 RGB LED까지 성능과 디자인에서 당대 최고의 그래픽카드 수준을 보여준다.
|
78 |
+
이 중 워터포스는 수냉쿨링 솔루션(펌프, 냉각수, 튜브, 라디에이터, 냉각팬 등)이 공장 출고 때 부터 일체형(ALL-IN-ONE)의 형태로
|
79 |
+
생산, 출고되어 사용자가 별도의 수냉시스템 부자재를 별도 구입하지 않고도 박스 개봉 후 PC에 바로 장착해서 쓸 수 있다는 장점이 있다. 또한
|
80 |
+
워터블럭은 PCB와 수냉블럭을 결합한 형태로, 펌프와 라디에이터, 냉각팬 등 수냉시스템에 필요한 부품은 별도 구입해야하지만 사용자의 무한한
|
81 |
+
개성에 맞춰 커스터마이징 방식의 수냉시스템을 구성할 수 있다는 점에서 장점으로 부각된다. 기가바이트는 그 동안 극한의 오버클럭 게이밍 환경에서
|
82 |
+
필연적인 높은 GPU 발열과 팬소음에 대한 소비자들의 불편함을 해결하고자 다년간 노력해왔으며, 호환용 올인원 솔루션 또는 수냉블럭을 구입할
|
83 |
+
때 소비자들이 여러고민을 하지 않도록 업계에서는 유일무이하게 이 두가지 형태의 냉각시스템을 자사의 제품에 공식적용해 선보여왔다. 독특한 구조에
|
84 |
+
따른 내구성에 대한 소비자들의 의심을 잠재우고자 일반적인 3년 무상보증 기간을 넘어 최대 4년까지 연장 가능하며, 소비자가 제품 구입 후 한달
|
85 |
+
이내로 지정된 고객등록 홈페이지에 접속해 고객과 제품, 구매정보 등을 직접 등록하면 검수 완료 후 수일 내로 4년 무상보증 연장이 가능해진다.
|
86 |
+
기가바이트 국내 공식 공급원인 제이씨현시스템(주) 관계자는 업계최고의 기술력과 디자인 철학, 업계 최고 수준인 4년무상보증 서비스 제공을 장점으로
|
87 |
+
하드코어 게이밍을 선호하는 진정한 게이머들에게 평가 받을 준비를 마쳤다고 밝혔다.'
|
88 |
+
- "가잔이 태어났을 때 몽골 제국 훌레구 울루스의 지도자는 그의 조부인 아바카 한이었다. 가잔의 아버지 아르군은 아바카 한에 의해 후라산에 파견된\
|
89 |
+
\ 아미르였다. 가잔은 아르군의 장남으로, 두르벤 출신의 쿠틀루크 카툰의 소생이었다. 그는 아바카 한이 총애하는 아내 불루칸 카툰의 오르도에서\
|
90 |
+
\ 자랐다. \n\n가잔은 그의 형 울제이투와 마찬가지로 불교 신자로 자랐다. 몽골인들은 전통적으로 여러 종교에 관용을 베풀었는데, 가잔의\
|
91 |
+
\ 젊었을 때 그에게 불교를 가르친 카안 울루스에서 온 승려에게 몽골 문자와 위구르 문자로 된 문서로 교육을 받았다. \n\n1284년 테쿠데르가\
|
92 |
+
\ 폐위되고 가잔의 아버지 아르군이 칸의 자리에 올랐다. 가잔은 11세의 나이로 아미르가 되고, 불루칸 카툰 오르도의 다른 이들과 후라산으로\
|
93 |
+
\ 옮겼다.\n\n훌레구 이전 페르시아의 통치를 맡았던 오이라트 귀족의 아들 나우루즈(Nawruz)는 1289년 반란을 일으켰다. 나우루즈는\
|
94 |
+
\ 패퇴한 뒤 훌레구 울루스를 떠나 카이두와 동맹을 맺었다. 가잔은 이후 10년간 중앙아시아의 차가타이 울루스의 침입을 막으려 국경지대에 머물렀다.\n\
|
95 |
+
\n1291년 아버지인 아르군이 죽었지만 가잔은 나우루즈의 침입을 막으며 후라산과 니샤푸르의 반란과 기아를 다루느라 재위를 주장하기 힘든 상황이었다.\
|
96 |
+
\ 선대 세 세대의 칸을 보좌했고 아르군의 죽음과 모종의 연관이 있을 것이라 추정되는 군 사령관 타가차르(Taghachar)는 가잔의 삼촌\
|
97 |
+
\ 가이하투를 새로운 칸으로 지지했다. 가잔은 가이하투에게 충성했지만, 후라산의 날씨가 종이를 다루기에는 너무 습하다는 이유를 들어 가이하투가\
|
98 |
+
\ 지폐를 도입하려는 정책은 거절했다. 1294~1295년 가잔은 니샤푸르에서 나우루즈의 항복을 받아냈고, 나우루즈는 가잔의 부관이 되었다.\n\
|
99 |
+
\n가이하투 제위기에 가잔은 쿠쿠친을 아내로 맞이한다. 쿠쿠친은 마르코 폴로도 끼어 있었던, 카안 울루스에서 넘어오는 카라반을 통해 이란 지역으로\
|
100 |
+
\ 넘어왔다. 쿠쿠친은 원래 가잔의 아버지 아르군과 약혼했으나, 쿠쿠친이 먼 길을 이동하는 동안 아르군이 죽었기에 대신 아르군의 아들 가잔과\
|
101 |
+
\ 결혼했다."
|
102 |
+
- 보스턴컨설팅그룹(Boston Consulting Group, BCG)은 2020년 이머징 마켓을 이끄는 100대 테크 기업을 소개하는 ‘2020
|
103 |
+
BCG 테크 챌린저(2020 BCG Tech Challengers)’ 보고서를 발표했다고 17일 밝혔다. BCG 테크 챌린저는 아직 엔비디아나
|
104 |
+
아마존 같은 ‘테크 자이언트’ 는 아니지만, 앞으로 세계 경제와 산업을 선도할 차세대 주자로 무섭게 떠오르는 기업들이다. (*구체적인 선정
|
105 |
+
기준 하단 박스 참고) 100개의 테크 챌린저들은 연평균 70%씩 성장하고 있으며, 이는 기존 테크 기업 보다 6배 높은 성장률이다. 또한
|
106 |
+
이 기업들은 코로나 팬데믹 이후 더 가열차게 기존 시장 질서를 뒤흔들고 있다. BCG는 2006년부터 정기적으로 (2년 주기) 챌린저 기업을
|
107 |
+
발표해 왔다. 디지털 혁명 가속화로 챌린저 명단의 대부분을 테크 기업이 차지하게 됨에 따라, 2020년에는 아예 ‘테크 챌린저’를 선정하게
|
108 |
+
되었다. 특히 이번100대 테크 챌린저 기업에는 국내 기업 8 곳이 포함됐다. 해당 기업은 ▲마켓컬리 ▲쿠팡▲티몬 (리테일) ▲크래프톤▲펄어비스(게임)
|
109 |
+
▲카카오뱅크▲토스(금융) ▲카카오(디지털 커뮤니케이션) 이다. 이 기업들은 다양한 섹터에서 혁신적인 서비스 및 비즈니스 모델로 기존 업계 질서를
|
110 |
+
뒤흔들고, 고객(사용자)으로부터 열광적인 호응을 얻었다. 김윤주 BCG 코리아 MD(매니징 디렉터)파트너는 “카카오뱅크의 경우 혁신적인 상품을
|
111 |
+
제공, 전세계에서 가장 성공적인 디지털 은행으로 거듭났다”면서 “이례적으로 빠른 속도로 대중에 스며들었고 동시에 3년만에 손익분기점에 도달하는
|
112 |
+
등 한국 금융업계에서 전례없는 성공을 거뒀고 혁신적인 고객 중심 상품, 매끄러운 금융서비스 경험, 투명한 청구서 공유와 정산 등으로 호평을
|
113 |
+
받았다”고 말했다. 한편 100개 테크 챌린저는 중국 기반 기업이 40개(디디 추싱, 바이트 댄스 등) 로 가장 많고, 인도 및 남아시아 17개(큐어핏
|
114 |
+
등), 이스라엘 9개(먼데이닷컴 등), 싱가포르등 동남아 8개(고젝, 그랩 등 등), 한국 8개, 러시아와 동유럽 6개(틴코프 뱅크 등) 등이었다.
|
115 |
+
보고서는 과거에는 이머징 마켓의 선도 테크 기업이 대부분 중국에서 설립됐으나 점차 분포가 다양해지고 있다고 밝혔다. 보고서에 따르면 지난 2014년부터
|
116 |
+
이머징 마켓에서 1만 개 이상의 테크 기업이 설립됐고, 이 중 47%가 중국 바깥 지역에서 만들어졌다. 아울러 10억달러(약 1조 원)이상의
|
117 |
+
기업 가치를 평가받은 기업을 뜻하는 유니콘 기업도 3분의 1이 중국 외 지역에서 나오고 있다. 선정된 기업의 3분의 2가 소비자 앱 또는 서비스
|
118 |
+
등 B2C 부문에서 사업을 하고 있었고, 나머지 3분의 1은 B2B 비즈니스로, 통념과 달리 B2B 영역에서도 적잖은 성과가 나타났다. 또
|
119 |
+
보고서에 따르면, 테크 챌린저들은 자국에 머무르지 않고 활발히 글로벌 시장에 진출했다. 100개 중 39개 기업이 미국과 유럽 등에서, 또
|
120 |
+
16개 기업은 설립지 외 다른 이머징 시장에서 성공적으로 사업을 하고 있었다. 반면 다수의 한국 테크(63%)가 자국 시장에 주력하고 있어
|
121 |
+
글로벌화가 한국 테크 챌린저 기업의 다음 성공 키워드가 될 것으로 전망됐다. 테크 챌린저들의 기업 가치는 평균 63억 달러(약 7조원)로 평가되어,
|
122 |
+
유니콘(기업가치 10억달러 이상의 비상장 스타트업)의 가치를 넘었다. 8개 한국 테크 챌린저의 평균 기업가치는 3.5억달러(약 4000억원)
|
123 |
+
이었다. 장진석 BCG 코리아 M파트너는 “테크 챌린저들은 산업을 재창조하는 개척자이고, 또한 현재 자신들이 속한 사업분야를 넘어 언제든 신규
|
124 |
+
분야로 진출할 준비가 되어 있는 쟁쟁한 기업들”이라며 “생태계 전반을 아우르는 챌린저들의 비즈니스 방향성은 이전 기업들에 비해 협력적이고 개방적이어서,
|
125 |
+
기존 선두 기업들은 이들을 가볍게 보아서는 안될 경쟁자로 여기는 것과 동시에, 서로 협력해 혁신을 이룰 수 있는 파트너로도 보아야 한다”고
|
126 |
+
말했다.
|
127 |
+
- source_sentence: 김경현 대표가 2007년까지 홈쇼핑 회사를 경영한 국가는?
|
128 |
+
sentences:
|
129 |
+
- 내년 한국 기업은 해외 시장 중에서 베트남, 인도네시아, 미얀마를 주목해야 한다는 주장이 나왔다.한국무역협회는 17일 서울 삼성동 트레이트타워에서
|
130 |
+
‘2016년 주목해야 할 아세안 톱3 내수시장 진출전략 세미나’를 열고 베트남, 인도네시아, 미얀마 시장 공략 방안을 논의했다.아세안 10개국은
|
131 |
+
올해 말까지 아세안공동체(AEC)를 출범시킬 예정이다. 이 공동체가 출범하면 인구 6억2000만명, 국내총생산(GDP) 2조5000억달러 규모의
|
132 |
+
단일 시장이 형성된다. 무역협회는 “2000년대 높은 성장을 지속할 것으로 보였던 브릭스(BRICS:브라질 러시아 인도 중국 남아프리카공화국)
|
133 |
+
국가들의 경기가 침체되고 있지만 아세안 지역의 베트남, 인도네시아, 미얀마(VIM)는 높은 성장세를 보이고 있다”며 “국내 기업도 국가별 맞춤형
|
134 |
+
전략을 세워 세 나라를 공략할 필요가 있다”고 말했다.이날 세미나에선 국가별 맞춤형 시장 공략 전략도 제시됐다. 2007년부터 인도네시아에서
|
135 |
+
홈쇼핑 회사를 운영하고 있는 김경현 메르디스인터내셔널 대표는 “인도네시아 진출을 위해서는 신뢰를 갖춘 현지 파트너가 필요하다”며 “현지 고용인을
|
136 |
+
지원하고 교육하는 것뿐만 아니라 현지 문화를 이해하고 존중해야 한다”고 말했다.장성 법무법인 지평 미얀마법인장은 “미얀마는 노동력이 풍부한
|
137 |
+
시장이지만 부동산 시장의 공급 부족으로 토지와 사무실 확보가 매우 어렵다”며 “계약을 맺거나 자금을 집행할 때 미얀마 법을 꼼꼼히 확인해야
|
138 |
+
한다”고 했다.
|
139 |
+
- 메디컬TV는 6.25 70주년을 맞아 한국전쟁 당시 의���지원국으로 참전한 스칸디나비아3국의 이야기를 담은 특집 다큐멘터리 <유틀란디아호의 항해>를
|
140 |
+
방송한다. 특히 이 다큐멘터리를 통해 꼬마외교관으로 잘 알려진 캠벨 에이시아가 출연해 의료지원국들의 활약상을 소개하고 참전용사와 그 자손들에게
|
141 |
+
대한민국 국민의 마음을 담은 감사인사를 전달한다. 1951년 1월 23일 덴마크 왕실소유의 상선 유틀란디아(Jutlandia) 호는 최신 의료
|
142 |
+
시설을 갖춘 병원선으로 개조되어 출항준비를 마치고 의료진과 선원 630명과 함께 코펜하겐을 떠나 항해를 시작했다. 43일간의 항해 끝에 도착한
|
143 |
+
부산항에서 그들을 기다린 것은 수많은 전쟁 부상자들이었다. 1950년 6월 25일 북의 남침으로 발발된 한국전쟁에 덴마크가 UN군 의료지원국으로
|
144 |
+
참전한 것이다. 한국전쟁은 미국, 영국, 캐나다, 네덜란드 등의 미주와 유럽은 물론 터키, 태국, 대만 등 아시아 국가들까지 총 63개국이
|
145 |
+
단 하나의 국가를 지원한 역대 전쟁 중 가장 많은 국가가 참전한 전쟁으로 특히 전투병을 파병하지 않았다는 이유로 그 동안 많이 알려져 있지는
|
146 |
+
않았지만, 의료지원국으로 참전한 덴마크, 스웨덴, 노르웨이 등 스칸디나비아 3국은 대한민국의 평화와 인류애를 실천하기 위해 헌신적인 노력을
|
147 |
+
다하였다. 전쟁이 지속된 3년 여간 수만 명의 전쟁 부상자와 일반인 부상자를 치료한 것은 물론 휴전협정으로 전쟁이 멈춘 이후에도 폐허가 된
|
148 |
+
대한민국의 재건을 지원하기 위해 의료기술 및 인력의 지원을 아끼지 않았다. 마침내 1958년 스칸디나비아 3국은 그들의 의료 인력과 비용을
|
149 |
+
지원하여 국립중앙의료원을 설립하였다. 2020년 전 세계를 마비시킨 코로나19, K-방역으로 대한민국은 선진적인 의료기술과 시스템을 세계로부터
|
150 |
+
인정받았다. 대한민국이 의료선진국으로 도약할 수 있었던 것은 과연 우리만의 노력의 결과였을까? 드러나지 않은 곳에서 피 한방울 섞이지 않은
|
151 |
+
머나먼 이국땅의 사람들을 위해 목숨 바쳐 인류애를 실천한 사람들, 그들의 헌신과 노력이야말로 6.25 70주년을 맞은 지금 우리가 함께 기억해야할
|
152 |
+
우리의 역사이다. <유틀란디아호의 항해>는 메디컬TV(KT ch.227, 스카이라이프 ch.199)에서 오는 11월 28일 오전 10시50분과
|
153 |
+
밤 9시 방송된다.
|
154 |
+
- 팔라바국은 기원후 3세기 중엽 심하바르만 1세(275년 ~ 300년)에 의해 건국되었다. 이후 6세기 후반 심하비슈누 왕(570년 ~ 600년)
|
155 |
+
때부터 본격적으로 흥기하기 시작하였다. 심하비슈누는 팔라바국의 본격적인 기반을 이룬 왕으로서, 정통 힌두교도였던 그는 힌두교를 거부한 칼라브라를
|
156 |
+
포함해 다수의 적들을 무찌르고 촐라국을 정복하면서 영토를 넓혀 나갔다. 그 결과 팔라바국의 영토는 카베리 강과 크리슈나 강 사이의 지역으로
|
157 |
+
확장되었다. 아버지 심하비슈누의 뒤를 이은 마헨드라바르만 1세의(600년 ~ 630년) 치세 기간부터 사타바하나의 뒤를 이어 데칸 지역을 지배하던
|
158 |
+
찰루키아와의 대를 이은 전쟁이 시작되었다. 시인이며 음악가이기도 했던 마헨드라바르만은 학문과 예술을 보호하기 위해 많은 노력을 기울였으며,
|
159 |
+
트리치노폴리, 발람, 마헨드라바디 등에 시바와 비슈누신을 위한 힌두교 사원들을 세우기도 하였다. 마헨드라바르만의 후계자는 나라심하바르만 1세(630년
|
160 |
+
~ 668년)로, 이 기간 동안 팔라바 왕국의 주요 항구였던 마하발리푸람은 중요한 교역 중심지가 되어 이곳으로부터 팔라바의 문화적 영향이 동님아시아로
|
161 |
+
확산되었다. 이 시기에는 팔라바 시대 건축물의 최고작으로 평가받는 라트 사원이 마하발리푸람에 세워졌다. 난디바르만 2세 이후 팔라바국은 계속해서
|
162 |
+
이웃 나라들의 공격을 받으면서 점차 쇠퇴하기 시작하였다. 그러다가 880년 아파라지타 왕 때에는 촐라국의 아디트야 1세의 도움으로 간신히 판디아국의
|
163 |
+
침략을 물리치기도 했지만, 결국 893년 촐라국에 흡수되면서 팔라바국은 멸망하였다.
|
164 |
+
- source_sentence: 발명등급제도'를 시행한 인물이 소속된 기관은?
|
165 |
+
sentences:
|
166 |
+
- CJ올리브네트웍스(대표이사 차인혁)가 AI 기술을 활용해 그리운 사람과 만나는 특별한 경험을 선사했다. CJ올리브네트웍스는 Mnet 프로그램
|
167 |
+
‘다시 한번’에 페이스 에디팅 기술을 제공했다고 10일 밝혔다. ‘다시 한번’은 대중이 그리워하는 아티스트들의 모습과 목소리를 음성복원, 페이스
|
168 |
+
에디팅, 홀로그램 등 AI기술로 재현한 내용의 특집 음악방송이다. CJ올리브네트웍스는 9일 방송에서 그룹 거북이의 故터틀맨(임성훈) 얼굴을
|
169 |
+
AI기반의 페이스 에디팅(Face Editing) 기술로 재현해 내며 그를 추억하는 팬들과 동료, 가족에게 감동 넘치는 무대를 선보였다. CJ올리브네트웍스
|
170 |
+
DT융합연구소는 故터틀맨의 과거 사진과 동영상 자료들을 토대로 AI얼굴 학습을 진행했다. 일상 모습부터 무대 위에서 지은 표정까지 다양한 데이터를
|
171 |
+
학습한 AI모델을 통해 故터틀맨의 얼굴을 재현해 낼 수 있었다. 특히 故터틀맨 복원을 위해 AI기술 중 하나인 GAN 기술 (생성적 적대 신경망
|
172 |
+
GAN:Generative Adversarial Network)을 사용했다. 이를 통해 DT융합연구소에서 자체 개발한 얼굴 데이터 분석 및
|
173 |
+
시각화를 통한 최적의 데이터를 추출했고, 얼굴 합성 자동 최적화 기술로 자연스럽고 생동감 있는 표정들을 만들어 냈다. 故터틀맨과 함께 무대에
|
174 |
+
오른 거북이 멤버 지이는 “무대를 보니 어쩌면 이렇게 똑같은지 깜짝 놀랐다”는 소감을 밝혔다. 또 故터틀맨의 형 임준환은 “동생의 살아 생전
|
175 |
+
모습을 보는 것 같아서 저도 모르게 무대에 뛰어 오를 뻔 했다”며눈물의 감상평을 전했다. CJ올리브네트웍스 손종수 DT융합연구소장은”인공지능
|
176 |
+
기술은 산업 발전 뿐 아니라 누군가의 기억 속에 있는 사람들과 새로운 방식으로 추억을 만들수 있는 휴머니즘이 있다”며 “Mnet과의 협업을
|
177 |
+
시작으로 페이스 에디팅 기술을 다양한 분야에 적용될 수 있도록 확대 방안 등을 논의할 계획이다”라고 밝혔다.
|
178 |
+
- 국세청이 부동산 분양시장에서 1조3000억원이 넘는 부가가치세가 증발했다는 사실을 파악하고 시공사 등을 상대로 대대적인 징수에 나섰다. 정부가
|
179 |
+
숨은 세원 파악에 나선 이래 특정 분야에서 조 단위의 체납 사실이 드러난 건 이번이 처음이다.12일 한국경제신문이 단독 입수한 국세청 내부
|
180 |
+
문서에 따르면 국세청은 전국 5006개 분양 시행사에서 1조5123억원(지난해 5월 기준)에 달하는 부가세가 체납된 사실을 파악하고 소송을
|
181 |
+
통한 징수에 착수했다. 이 중 1조3358억원(88.3%)은 시행사 부도 등 폐업을 이유로 국세청이 한 차례 결손 처리했던 돈이다. 그러나
|
182 |
+
국세청은 시공사·신탁사도 이러한 세수 증발에 책임이 있다고 보고 징수를 위해 ‘결손’이 아닌 ‘체납’으로 재분류했다. 국세청이 파악한 징수
|
183 |
+
대상 시공사·신탁사에는 L사, G사 등 대기업 건설사가 다수 포함됐다.부가세 납세 의무를 지는 곳은 원칙적으로 시행사다. 그러나 국내 분양사업은
|
184 |
+
시공사·신탁사 명의로 분양대금 계좌를 만들고 자금을 관리하는 경우가 대부분이다. 시행사는 영세한 곳이 많아 자금 관리를 따로 하는 게 은행
|
185 |
+
대출 등에 유리하기 때문이다. 대신 시공사·신탁사는 시행사와 비용 정산 약정을 맺는다. 이 약정에 따라 시공사·신탁사는 시행사의 부가세를 우선
|
186 |
+
정산해야 한다. 하지만 시공사·신탁사는 시행사가 폐업 처리될 걸 알면서도 공사대금 등 이익금만 챙기고 부가세는 내지 않았다는 게 국세청의 지적이다.
|
187 |
+
국세청은 이렇게 사라진 부가세가 1조3358억원에 달하는 것으로 보고 있다.한 조세 전문가는 “시행사는 부가세를 정산하라고 시공사 등에 요구할
|
188 |
+
권리(채권)가 있지만 미납 세금의 일부를 나눠 가지기 위해 대부분 이 권리를 행사하지 않는다”며 “국세청의 소송은 국세징수법과 민법에 따라
|
189 |
+
시행사의 이 권리를 대신 행사하겠다는 것”이라고 말했다. 국세징수법 41조는 ‘세금 체납자(이 사례의 경우 시행사)가 채권을 갖고 있을 때
|
190 |
+
세무서장은 체납액 범위 내에서 그 권리를 대신 행사한다’고 규정하고 있다. 민법 404조는 ‘채권자(국가)는 자기 채권 보전을 위해 채무자(시행사)의
|
191 |
+
권리를 행사할 수 있다’고 명시하고 있다.국세청은 서울 상계동의 한 오피스텔 신축분양사업 신탁사였던 한국토지신탁을 상대로 소송을 내 지난달
|
192 |
+
승소했다. 서울중앙지방법원 민사48부(부장판사 김연하)는 서울지방국세청이 낸 압류채권 지급 청구 소송에서 “원고는 체납 부가세를 보전하기 위해
|
193 |
+
국세징수법이나 민법에 따라 시행사의 채권을 대신 행사할 수 있다”며 원고의 청구액 31억6000여만원을 전액 인정했다. 민사 소송에서 승소함에
|
194 |
+
따라 국세청은 한국토지신탁을 횡령 혐의로 형사 고발하는 방안도 검토하고 있다. 서울 방배동의 한 아파트를 시공한 D건설사에도 부가세 체납액
|
195 |
+
38억8000여만원을 청구해 다음달 선고를 앞두고 있다.대형 건설사 관계자는 “시공사도 건설경기 악화로 시행사로부터 못 받은 돈이 많은데 세금까지
|
196 |
+
책임져야 한다는 건 동의하기 어렵다”고 말했다. 한국토지신탁 관계자는 “시행사와의 계약에 따르면 시행사가 부가세를 못 냈을 때 신탁사가 대신
|
197 |
+
낼 수도 있다고 돼 있을 뿐 낼 의무가 있는 건 아니다”며 “항소심에서 이를 집중 부각시킬 것”이라고 설명했다.
|
198 |
+
- “한국전자통신연구원(ETRI)을 지식재산의 보고(寶庫), 특허공장(IPR Factory)으로 발전시키겠습니다.” 2일 발표된 미국 특허종합평가에서
|
199 |
+
3년 연속 1위를 차지한 ETRI의 김흥남 원장(사진)이 내놓은 포부다. 특허공장은 에디슨이 만든 ‘발명공장(Invention Factory)’,
|
200 |
+
미국 벨연구소의 ‘아이디어 공장(Idea Factory)’에서 착안해 지은 명칭이다. 김 원장은 “특허는 경제가치와 직결되는 중요한 자산”이라며
|
201 |
+
“창조경제를 실현하는 데 가장 중요한 지식재산 경쟁력을 높이겠다는 의미”라고 설명했다. 2009년 부임한 김 원장은 ETRI의 경쟁력을 높이기
|
202 |
+
위해 특허경영을 강조해왔다. 특허의 질을 높이기 위해 내부 평가를 거쳐 우수 특허만 해외에서 출원하게 하는 ‘발명등급제도’를 시행했고, 특허전략
|
203 |
+
전문가를 육성하기 위한 특허코디 제도도 운영하고 있다. 이 같은 전략이 주효해 ETRI가 지난 5년간 벌어들인 기술료는 1611억원에 달한다.
|
204 |
+
미래창조과학부 산하 산업기술연구회 소속 연구소 전체의 기술료 수입의 50%에 달하는 액수다. 지난해에도 339억원의 기술료를 벌었다. 김 원장은
|
205 |
+
연간 기술료 수입을 500억원대로 확대할 계획이다. 현재 376건 수준인 핵심 국제표준특허도 500건으로 늘릴 방침이다. 현재 ETRI가 보유한
|
206 |
+
전체 특허는 2만5000여건이다.그는 “건당 100억원의 가치를 인정받는 표준 특허를 기준으로 볼 때 ETRI의 경제적 자산가치는 3조원대”라며
|
207 |
+
“이를 5조원대로 높이는 게 목표”라고 말했다. 이어 “4세대 이동통신인 LTE에서는 이전보다 특허의 경제적 가치가 더 높아질 것”으로 전망했다.
|
208 |
+
김태훈 기자
|
209 |
+
- source_sentence: 항량이 항우와 함께 8000명의 군사를 이끈 때는 언제인가?
|
210 |
+
sentences:
|
211 |
+
- '하상 출신으로 그의 아버지는 전국시대 때 진나라에 맞섰던 초나라의 장수 항연이다. 초나라 멸망 후 역양에서 진나라에 사로잡혔으나 진의 장수
|
212 |
+
사마흔의 도움으로 풀려났다.
|
213 |
+
|
214 |
+
|
215 |
+
기원전 209년 진승과 오광의 난이 일어나자 전국각지에서 제후들이 진나라에 대항해 봉기를 일으켰고, 항량 역시 9월에 회계 태수 은통을 살해하고
|
216 |
+
오중에서 군사를 일으켜 조카 항우를 부장으로 삼았다.
|
217 |
+
|
218 |
+
|
219 |
+
기원전 208년 끝내 농민 반란군의 제왕 진승이 진나라 장군 장한의 대공격으로 패퇴하자, 진승의 부장 소평은 항량에게로 합류하고, 8000명의
|
220 |
+
군사를 이끌고 서쪽으로 진군했다. 그 뒤 진영과 영포 등과 합세해 항량의 군대를 크게 불어났으며, 진승의 부장이었던 진가가 경구를 초왕으로
|
221 |
+
세우고 맞서자 진가를 공격해 죽였다.
|
222 |
+
|
223 |
+
|
224 |
+
진과 전투를 벌여 설현을 점령했고, 항우를 보내 양성까지 점령했고, 이후 항량은 곳곳에서 승리해 제나라의 전영, 사마용저와 함께 동아에서 진군을
|
225 |
+
격파했다. 항량은 항우와 유방을 보내 성양을 공격해 점령하도록 하였고, 복양에서도 다시 진군을 격파했다.
|
226 |
+
|
227 |
+
|
228 |
+
항우와 유방은 정을 공격했으나 함락시키지 못하자 서쪽으로 진군하여 옹구에서 진나라 승상 이사의 아들인 삼천 태수 이유를 죽였다. 항량은 동아에서
|
229 |
+
정도까지 수많은 승리를 거두고 큰 승리로 인해 점차 교만해졌다.
|
230 |
+
|
231 |
+
|
232 |
+
그러다가 부하 송의의 말을 듣지 않고 진나라군을 공격하다가 정도에서 장한이 이끄는 진나라군의 습격을 받아 장한의 부하 손승에게 전사했다.'
|
233 |
+
- 예술가들이 서울의 낙후된 부(副)도심을 바꾸고 있다. 홍익대 인근과 대학로에서 활동하던 예술가들이 비싼 임대료를 피해 옮겨간 마포구 망원동
|
234 |
+
합정동, 영등포구 문래동, 성북구 삼선동 돈암동, 종로구 혜화동 등에 자생적인 예술촌이 조성되면서 주변 상가에 이전에 없던 권리금이 붙고 임대료가
|
235 |
+
오르는 등 지역경제가 활기를 띠고 있다. 대규모 상업시설 신축이 제한된 준공업지역인 문래동은 미술작업실이 속속 들어서면서 최근 3년여간 상��
|
236 |
+
임대료가 20% 이상 올랐다. 지하철 6호선 상수역에서 300m 떨어진 상수동 사거리는 최근 60㎡대 작은 창고건물에 이전에 없던 권리금이
|
237 |
+
5000만원 정도 붙었다. 카페거리로 떠오르면서 창업 희망자가 늘어나서다.서울시는 이런 추세에 맞춰 자생 예술촌 지원과 폐시설의 문화시설 활용
|
238 |
+
등 ‘문화 도시재생’ 정책을 올해부터 본격 추진하기로 했다. 이창학 문화관광디자인본부장은 “정보기술(IT)과 바이오 등 신산업 유치와 전통
|
239 |
+
제조업 부활이라는 서울 성장동력의 두 축에 문화를 더해 도시 재생에 방점을 찍을 것”이라고 말했다.
|
240 |
+
- 생물측정학파와 멘델학파의 논쟁은 1930년 무렵 신다윈주의가 등장하며 해결된다. 신다윈주의의 근대적 종합(modern synthesis)은
|
241 |
+
현대 진화론에서 중요한 기반이 되며, 이것이 다윈주의를 기반으로 한 생물측정학파와 도약진화설을 기반으로한 멘델학파와의 논쟁을 끝맺게 만들었다.
|
242 |
+
여기서 근대적 종합은 다윈의 진화론과 유전학의 의견을 모두 수렴하여 결론을 내린다. 결과적으로 기형이 발생하여 이것이 유전적으로 자손에게 전달된다고
|
243 |
+
말하는 도약진화설의 이론을 받아들여 괴물이 단순히 임의적으로 발생하고 자연 도태되는 것이 아닌 후세로 유전을 전달하여 종의 분화에 중요한 역할을
|
244 |
+
갖는다고 생각했다. 한편으로는 이 새로 발생된 종의 지속여부는 자연 선택설에 의해서 결정된다는 생물측정학파의 이론 역시 부분 받아들였다. 따라서
|
245 |
+
이와 같은 근대적 종합의 결론은 생물학적으로 기형의 발생이 한 연구 분야로서 현대 생물학에서 중요한 역할을 가질 수 있음을 확인하며, 진화적
|
246 |
+
과정에서 변이가 어떤 영향을 미치는지 규정한 것과 같다.
|
247 |
+
co2_eq_emissions:
|
248 |
+
emissions: 14.200664922190157
|
249 |
+
energy_consumed: 0.03245109693783428
|
250 |
+
source: codecarbon
|
251 |
+
training_type: fine-tuning
|
252 |
+
on_cloud: false
|
253 |
+
cpu_model: 13th Gen Intel(R) Core(TM) i7-13700
|
254 |
+
ram_total_size: 62.56697463989258
|
255 |
+
hours_used: 0.074
|
256 |
+
hardware_used: 1 x NVIDIA GeForce RTX 4090
|
257 |
+
model-index:
|
258 |
+
- name: SentenceTransformer based on hyunkookim/klue-roberta-base-klue-sts
|
259 |
+
results:
|
260 |
+
- task:
|
261 |
+
type: semantic-similarity
|
262 |
+
name: Semantic Similarity
|
263 |
+
dataset:
|
264 |
+
name: Unknown
|
265 |
+
type: unknown
|
266 |
+
metrics:
|
267 |
+
- type: pearson_cosine
|
268 |
+
value: 0.841265238110956
|
269 |
+
name: Pearson Cosine
|
270 |
+
- type: spearman_cosine
|
271 |
+
value: 0.8398819351799549
|
272 |
+
name: Spearman Cosine
|
273 |
+
- type: pearson_manhattan
|
274 |
+
value: 0.7711366359833569
|
275 |
+
name: Pearson Manhattan
|
276 |
+
- type: spearman_manhattan
|
277 |
+
value: 0.7853216527337423
|
278 |
+
name: Spearman Manhattan
|
279 |
+
- type: pearson_euclidean
|
280 |
+
value: 0.7733274170130211
|
281 |
+
name: Pearson Euclidean
|
282 |
+
- type: spearman_euclidean
|
283 |
+
value: 0.7861876889630471
|
284 |
+
name: Spearman Euclidean
|
285 |
+
- type: pearson_dot
|
286 |
+
value: 0.8252651587104571
|
287 |
+
name: Pearson Dot
|
288 |
+
- type: spearman_dot
|
289 |
+
value: 0.8398819351799549
|
290 |
+
name: Spearman Dot
|
291 |
+
- type: pearson_max
|
292 |
+
value: 0.841265238110956
|
293 |
+
name: Pearson Max
|
294 |
+
- type: spearman_max
|
295 |
+
value: 0.8398819351799549
|
296 |
+
name: Spearman Max
|
297 |
+
---
|
298 |
+
|
299 |
+
# SentenceTransformer based on hyunkookim/klue-roberta-base-klue-sts
|
300 |
+
|
301 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [hyunkookim/klue-roberta-base-klue-sts](https://huggingface.co/hyunkookim/klue-roberta-base-klue-sts). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
302 |
+
|
303 |
+
## Model Details
|
304 |
+
|
305 |
+
### Model Description
|
306 |
+
- **Model Type:** Sentence Transformer
|
307 |
+
- **Base model:** [hyunkookim/klue-roberta-base-klue-sts](https://huggingface.co/hyunkookim/klue-roberta-base-klue-sts) <!-- at revision 05bb69336b0c55ca0c9e0b35c9fae81e4dca6b6b -->
|
308 |
+
- **Maximum Sequence Length:** 512 tokens
|
309 |
+
- **Output Dimensionality:** 768 tokens
|
310 |
+
- **Similarity Function:** Cosine Similarity
|
311 |
+
<!-- - **Training Dataset:** Unknown -->
|
312 |
+
<!-- - **Language:** Unknown -->
|
313 |
+
<!-- - **License:** Unknown -->
|
314 |
+
|
315 |
+
### Model Sources
|
316 |
+
|
317 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
318 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
319 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
320 |
+
|
321 |
+
### Full Model Architecture
|
322 |
+
|
323 |
+
```
|
324 |
+
SentenceTransformer(
|
325 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel
|
326 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
327 |
+
)
|
328 |
+
```
|
329 |
+
|
330 |
+
## Usage
|
331 |
+
|
332 |
+
### Direct Usage (Sentence Transformers)
|
333 |
+
|
334 |
+
First install the Sentence Transformers library:
|
335 |
+
|
336 |
+
```bash
|
337 |
+
pip install -U sentence-transformers
|
338 |
+
```
|
339 |
+
|
340 |
+
Then you can load this model and run inference.
|
341 |
+
```python
|
342 |
+
from sentence_transformers import SentenceTransformer
|
343 |
+
|
344 |
+
# Download from the 🤗 Hub
|
345 |
+
model = SentenceTransformer("sentence_transformers_model_id")
|
346 |
+
# Run inference
|
347 |
+
sentences = [
|
348 |
+
'항량이 항우와 함께 8000명의 군사를 이끈 때는 언제인가?',
|
349 |
+
'하상 출신으로 그의 아버지는 전국시대 때 진나라에 맞섰던 초나라의 장수 항연이다. 초나라 멸망 후 역양에서 진나라에 사로잡혔으나 진의 장수 사마흔의 도움으로 풀려났다.\n\n기원전 209년 진승과 오광의 난이 일어나자 전국각지에서 제후들이 진나라에 대항해 봉기를 일으켰고, 항량 역시 9월에 회계 태수 은통을 살해하고 오중에서 군사를 일으켜 조카 항우를 부장으로 삼았다.\n\n기원전 208년 끝내 농민 반란군의 제왕 진승이 진나라 장군 장한의 대공격으로 패퇴하자, 진승의 부장 소평은 항량에게로 합류하고, 8000명의 군사를 이끌고 서쪽으로 진군했다. 그 뒤 진영과 영포 등과 합세해 항량의 군대를 크게 불어났으며, 진승의 부장이었던 진가가 경구를 초왕으로 세우고 맞서자 진가를 공격해 죽였다.\n\n진과 전투를 벌여 설현을 점령했고, 항우를 보내 양성까지 점령했고, 이후 항량은 곳곳에서 승리해 제나라의 전영, 사마용저와 함께 동아에서 진군을 격파했다. 항량은 항우와 유방을 보내 성양을 공격해 점령하도록 하였고, 복양에서도 다시 진군을 격파했다.\n\n항우와 유방은 정을 공격했으나 함락시키지 못하자 서쪽으로 진군하여 옹구에서 진나라 승상 이사의 아들인 삼천 태수 이유를 죽였다. 항량은 동아에서 정도까지 수많은 승리를 거두고 큰 승리로 인해 점차 교만해졌다.\n\n그러다가 부하 송의의 말을 듣지 않고 진나라군을 공격하다가 정도에서 장한이 이끄는 진나라군의 습격을 받아 장한의 부하 손승에게 전사했다.',
|
350 |
+
'예술가들이 서울의 낙후된 부(副)도심을 바꾸고 있다. 홍익대 인근과 대학로에서 활동하던 예술가들이 비싼 임대료를 피해 옮겨간 마포구 망원동 합정동, 영등포구 문래동, 성북구 삼선동 돈암동, 종로구 혜화동 등에 자생적인 예술촌이 조성되면서 주변 상가에 이전에 없던 권리금이 붙고 임대료가 오르는 등 지역경제가 활기를 띠고 있다. 대규모 상업시설 신축이 제한된 준공업지역인 문래동은 미술작업실이 속속 들어서면서 최근 3년여간 상가 임대료가 20% 이상 올랐다. 지하철 6호선 상수역에서 300m 떨어진 상수동 사거리는 최근 60㎡대 작은 창고건물에 이전에 없던 권리금이 5000만원 정도 붙었다. 카페거리로 떠오르면서 창업 희망자가 늘어나서다.서울시는 이런 추세에 맞춰 자생 예술촌 지원과 폐시설의 문화시설 활용 등 ‘문화 도시재생’ 정책을 올해부터 본격 추진하기로 했다. 이창학 문화관광디자인본부장은 “정보기술(IT)과 바이오 등 신산업 유치와 전통 제조업 부활이라는 서울 성장동력의 두 축에 문화를 더해 도시 재생에 방점을 찍을 것”이라고 말했다.',
|
351 |
+
]
|
352 |
+
embeddings = model.encode(sentences)
|
353 |
+
print(embeddings.shape)
|
354 |
+
# [3, 768]
|
355 |
+
|
356 |
+
# Get the similarity scores for the embeddings
|
357 |
+
similarities = model.similarity(embeddings, embeddings)
|
358 |
+
print(similarities.shape)
|
359 |
+
# [3, 3]
|
360 |
+
```
|
361 |
+
|
362 |
+
<!--
|
363 |
+
### Direct Usage (Transformers)
|
364 |
+
|
365 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
366 |
+
|
367 |
+
</details>
|
368 |
+
-->
|
369 |
+
|
370 |
+
<!--
|
371 |
+
### Downstream Usage (Sentence Transformers)
|
372 |
+
|
373 |
+
You can finetune this model on your own dataset.
|
374 |
+
|
375 |
+
<details><summary>Click to expand</summary>
|
376 |
+
|
377 |
+
</details>
|
378 |
+
-->
|
379 |
+
|
380 |
+
<!--
|
381 |
+
### Out-of-Scope Use
|
382 |
+
|
383 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
384 |
+
-->
|
385 |
+
|
386 |
+
## Evaluation
|
387 |
+
|
388 |
+
### Metrics
|
389 |
+
|
390 |
+
#### Semantic Similarity
|
391 |
+
|
392 |
+
* Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
|
393 |
+
|
394 |
+
| Metric | Value |
|
395 |
+
|:-------------------|:-----------|
|
396 |
+
| pearson_cosine | 0.8413 |
|
397 |
+
| spearman_cosine | 0.8399 |
|
398 |
+
| pearson_manhattan | 0.7711 |
|
399 |
+
| spearman_manhattan | 0.7853 |
|
400 |
+
| pearson_euclidean | 0.7733 |
|
401 |
+
| spearman_euclidean | 0.7862 |
|
402 |
+
| pearson_dot | 0.8253 |
|
403 |
+
| spearman_dot | 0.8399 |
|
404 |
+
| pearson_max | 0.8413 |
|
405 |
+
| **spearman_max** | **0.8399** |
|
406 |
+
|
407 |
+
<!--
|
408 |
+
## Bias, Risks and Limitations
|
409 |
+
|
410 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
411 |
+
-->
|
412 |
+
|
413 |
+
<!--
|
414 |
+
### Recommendations
|
415 |
+
|
416 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
417 |
+
-->
|
418 |
+
|
419 |
+
## Training Details
|
420 |
+
|
421 |
+
### Training Dataset
|
422 |
+
|
423 |
+
#### Unnamed Dataset
|
424 |
+
|
425 |
+
|
426 |
+
* Size: 17,552 training samples
|
427 |
+
* Columns: <code>sentence_0</code> and <code>sentence_1</code>
|
428 |
+
* Approximate statistics based on the first 1000 samples:
|
429 |
+
| | sentence_0 | sentence_1 |
|
430 |
+
|:--------|:----------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|
|
431 |
+
| type | string | string |
|
432 |
+
| details | <ul><li>min: 8 tokens</li><li>mean: 17.64 tokens</li><li>max: 38 tokens</li></ul> | <ul><li>min: 258 tokens</li><li>mean: 440.42 tokens</li><li>max: 512 tokens</li></ul> |
|
433 |
+
* Samples:
|
434 |
+
| sentence_0 | sentence_1 |
|
435 |
+
|:-----------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
436 |
+
| <code>이고르 댜틀로프를 중심으로 만들어진 탐사대에서 다수를 차지한 성별은?</code> | <code>1959년 1월 28일에 이고르 댜틀로프를 중심으로 탐사대를 결성한 우랄 국립공과대학교 소속 스키 하이커 10명(남자 8명, 여자 2명)은 러시아 우랄산맥을 거쳐 오토르텐산을 등반하고 2월 12일에 베이스캠프가 위치한 비자이 마을로 복귀하려는 계획을 세웠다. 그러나 등반 당일이던 1월 28일에 유리 유딘이 열, 두통, 류머티즘, 심장 질환 증세를 보이면서 탐사대에서 이탈했고 나머지 9명이 등반에 나서게 된다.<br><br>탐사대원이 출발한 지 5일이 지난 2월 1일에 폭설로 인해 기상 여건이 악화되면서 비자이 마을에 남아 있던 유딘은 탐사대에게 무전을 보내게 된다. 탐사대장이었던 댜틀로프는 유딘에게 "탐사대원들은 홀라트샤흘산("죽음의 산"이라는 뜻) 능선에 임시 야영지를 설치한 상태에서 휴식을 취하�� 있으며 9명 모두 무사하다."는 답신을 보냈다. 하지만 2월 2일부터 댜틀로프가 이끌던 탐사대와의 연락이 갑자기 두절되었고 복귀 예정일이었던 2월 12일에도 댜틀로프 일행은 돌아오지 않았다.<br><br>우랄 국립공과대학교 탐사대의 실종 소식을 접한 구조대는 홀라트샤흘산에서 실종자 수색에 착수했다. 2월 26일에는 구조대가 탐사의 임시 야영지로 추정되는 곳에서 1.5km 정도 떨어진 곳에서 탐사대원 5명의 시신을 수습했지만 나머지 실종자에 대한 수색 작업은 악천후와 험준한 지형으로 인해 한동안 연기되었다. 구조대는 5월 4일에 소나무 숲에서 약 75m 정도 떨어진 계곡에서 탐사대원 4명의 시신을 수습했다. 하지만 구조대의 수색 작업에서 발견된 시체에는 여러 가지 의문점이 제기되었다.<br><br>* 탐사대원 9명이 살고 있던 텐트에 남아 있는 찢어진 흔적은 외부의 침입이 아니라 안쪽에서 바깥쪽으로 찢겨진 상태로 남아 있다.<br>* 처음 발견된 탐사대원 5명의 시신은 영하 30도에 달하는 상황에서 속옷 차림에 신발도 신지 않은 상태였고 공포에 질린 표정을 띠고 있었다고 한다.<br>* 나중에 발견된 탐사대원 4명의 시신은 물리적인 충격에 의해 심하게 훼손되었고 부패된 상태였다. 등반대장 댜틀로프는 주먹다짐을 한 것마냥 오른손 주먹에 상처가 나 있었다. 또다른 변사자 2명은 머리뼈에 금이 가고 갈비뼈가 부러졌다. 이 가운데 1명의 머리뼈 상태는 너무 심각해서 이동 능력을 상실했을 것으로 추정된다. 또한 여성 대원 1명은 혀가 없어진 상태로 발견되었다.<br>* 현장에서 발견된 전나무는 불에 타 있었다. 탐사대원들의 피부는 주황색으로 변한 상태였고 탐사대원들이 입고 있던 옷에서는 높은 수치의 방사능이 검출되었다.</code> |
|
437 |
+
| <code>다카기 모리미치가 50개의 도루를 기록해 도루왕 타이틀을 받았던 해는?</code> | <code>1960년에 주니치에 입단하여 같은 해 1960년 5월 7일 다이요 웨일스전에서 프로 데뷔 첫 홈런을 때려냈고 1963년에는 2루수의 주전 자리를 차지했다. 그 해 시즌에는 50개의 도루를 기록하여 도루왕 타이틀을 석권했고 작년에 방출된 모리 도루를 대신해서 에토 신이치와 함께 주니치의 새로운 스타 선수가 됐다.<br><br>이후 1965년과 1973년에는 통산 세 번째의 도루왕을 석권하면서 준족에 가세하고 타격에서는 1969년에 24개의 홈런을 기록하는 등 통산 236홈런을 기록해 수비에서는 백 토스, 글러브 토스 등을 종종 보여주면서 1974년에는 팀의 20년 만의 리그 우승에 기여했다. 첫 타석에서 첫 홈런을 기록한 선수로서 통산 200홈런, 통산 2000안타를 기록한 선수는 다카기가 처음이었고 통산 200홈런과 200개의 희생타를 합쳐서 기록한 선수도 다카기가 처음이다. <br><br>1974년에 리그 우승이 결정된 다음날 10월 13일로 예정되어 있던 고라쿠엔 구장에서의 요미우리와의 시즌 최종전에서는 나가시마 시게오의 은퇴 경기였지만 우천으로 인해 14일로 연기되면서 주니치의 우승 퍼레이드와 일정이 겹쳤다. 이 때문에 팀은 오시마 야스노리, 후지나미 유키오 등의 젊은 선수들이나 은퇴 직전이었던 히로노 이사오를 포함한 준주전급 선수들만을 출전시키고 주니치의 주전 선수는 같은 날 나고야에서의 우승 퍼레이드를 위해서 결장하라는 구단의 지시가 내려졌다. 이에 대해 다카기는 “위대한 선수에게는 실례되는 일이다”라고 크게 분개하면서 자신만이라도 출전시켜달라고 구단에게 항의했지만 구단 측은 다카기의 요구를 받아들이지 않았고 다카기는 우승 퍼레이드에서 시종 아연 실색한 표정을 짓고 있었다고 한다. 다카기는 그 후 나가시마에게 전화해서 사과한 것으로 알려졌다(‘월간 Dragons’에서는 당시 호시노 센이치도 나가시마에게 전화를 걸어 사과했다는 내용이 실려 있었다). 같은 해 롯데 오리온스와 맞붙은 일본 시리즈에서는 1차전부터 맹활약을 펼쳤지만 고라쿠엔 구장에서 열린 3차전에서는 자신이 친 타구를 왼발에 맞아 부상으로 퇴장당했다. 검사 결과 골절상을 입었고 1번 타자였던 다카기가 부상으로 빠진 주니치는 롯데에게 패하면서 일본 시리즈 우승 달성에 실패했다. <br><br>1978년부터 1980년까지 선수 겸 코치로 활동했고 2루수로서 베스트 나인 7차례 수상은 일본 프로 야구 사상 최다이며 1980년에는 시력의 이상이 있어 21년간의 현역 생활을 은퇴했다. 시즌 종료 후 나고야 구장에서 열린 센트럴 리그 올스타 동서 대항전에서 1살 위인 자신보다 1년 먼저 프로에 입단한 오 사다하루와 함께 은퇴식을 가졌다.</code> |
|
438 |
+
| <code>고쿠데라의 머리 모양에 영향을 준 것으로 추정되는 사람은?</code> | <code>이탈리아인의 아버지와 일본과 이탈리아 피가 섞인 혼혈인 피아니스트 어머니 사이에서 태어났다. 이탈리아인 피가 3/4정도, 일본인의 피가 1/4정도 흐른다. 대부호 마피아의 집에서 살아왔으나 친하게 지내던 피아노 잘치는 누나가 자신의 어머니였고, 그 어머니가 자신의 아버지에 의해 죽었다는 소식을 듣고 충격을 받는다. 자력으로 마피아가 되고자 몇 번이나 가출을 해왔으며, 8세에 가출했을 때 봉고레에 들어와 활동하게 된 듯하다. 이복누나인 비앙키에게 트라우마가 있는데 이는 비앙키가 자신을 포이즌 쿠킹의 실험대상으로서 사용했었기 때문이다. 만화에서는 담배도 피우지만 애니메이션에서는 미성년자가 담배를 피우는 건 문제가 있어서 삭제되었다. 츠나가 10대 보스로 선택받은 것을 시험하고자 그에게 덤벼왔으나 결국 츠나의 필살모드에 패배하고 장래에 그의 오른팔이 되기로 결심한다. 어떤 지시도 반항하지 않고 따랐으나, 진6조화와의 싸움 전에 딱 한 번 반항을 한다. 후타의 랭킹에 따르면 나미모리중 전투랭킹 3위라고 한다. 교사조차도 두려워하는 불량소년이며 연상의 인간은 죄다 적이라는 말을 서슴없이 하기도 한다. 수업도 잘 듣지 않는데도 불구하고 성적도 최상이며 가히 천재라고 불러도 될만큼 머리가 좋다. 그래서 그런지 무언가를 가르칠 때는 무조건 이론으로 시작한다. 의외로 미신이나 유령을 잘 믿어서 오컬트 잡지를 애독 중이며 심지어 일본식의 퇴마법도 알고 있다. 어렸을 적, Dr.샤멀이 다이너마이트를 쓰는 것을 보고 Dr.샤멀에게 다이너마이트를 가르쳐 달라고 했으며, 고쿠데라의 머리는 Dr.샤멀을 따라한 스타일인 듯하다. 전투 시에는 다이너마이트에 담배불을 붙여서 사용한다. 하지만 애니메이션에서는 담배피우는 설정을 없애버렸기에 자동으로 도화선에 불이 붙여진다. 이 때문에 그의 별명은 원작에서는 '인간폭격기 스모킹 봄 하야토', 애니판에서는 그냥 '허리케인 봄'이다. 무기 성질상 장애물이 많은 곳에서 힘을 발휘한다.</code> |
|
439 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
440 |
+
```json
|
441 |
+
{
|
442 |
+
"scale": 20.0,
|
443 |
+
"similarity_fct": "cos_sim"
|
444 |
+
}
|
445 |
+
```
|
446 |
+
|
447 |
+
### Training Hyperparameters
|
448 |
+
#### Non-Default Hyperparameters
|
449 |
+
|
450 |
+
- `per_device_train_batch_size`: 16
|
451 |
+
- `per_device_eval_batch_size`: 16
|
452 |
+
- `num_train_epochs`: 1
|
453 |
+
- `batch_sampler`: no_duplicates
|
454 |
+
- `multi_dataset_batch_sampler`: round_robin
|
455 |
+
|
456 |
+
#### All Hyperparameters
|
457 |
+
<details><summary>Click to expand</summary>
|
458 |
+
|
459 |
+
- `overwrite_output_dir`: False
|
460 |
+
- `do_predict`: False
|
461 |
+
- `eval_strategy`: no
|
462 |
+
- `prediction_loss_only`: True
|
463 |
+
- `per_device_train_batch_size`: 16
|
464 |
+
- `per_device_eval_batch_size`: 16
|
465 |
+
- `per_gpu_train_batch_size`: None
|
466 |
+
- `per_gpu_eval_batch_size`: None
|
467 |
+
- `gradient_accumulation_steps`: 1
|
468 |
+
- `eval_accumulation_steps`: None
|
469 |
+
- `torch_empty_cache_steps`: None
|
470 |
+
- `learning_rate`: 5e-05
|
471 |
+
- `weight_decay`: 0.0
|
472 |
+
- `adam_beta1`: 0.9
|
473 |
+
- `adam_beta2`: 0.999
|
474 |
+
- `adam_epsilon`: 1e-08
|
475 |
+
- `max_grad_norm`: 1
|
476 |
+
- `num_train_epochs`: 1
|
477 |
+
- `max_steps`: -1
|
478 |
+
- `lr_scheduler_type`: linear
|
479 |
+
- `lr_scheduler_kwargs`: {}
|
480 |
+
- `warmup_ratio`: 0.0
|
481 |
+
- `warmup_steps`: 0
|
482 |
+
- `log_level`: passive
|
483 |
+
- `log_level_replica`: warning
|
484 |
+
- `log_on_each_node`: True
|
485 |
+
- `logging_nan_inf_filter`: True
|
486 |
+
- `save_safetensors`: True
|
487 |
+
- `save_on_each_node`: False
|
488 |
+
- `save_only_model`: False
|
489 |
+
- `restore_callback_states_from_checkpoint`: False
|
490 |
+
- `no_cuda`: False
|
491 |
+
- `use_cpu`: False
|
492 |
+
- `use_mps_device`: False
|
493 |
+
- `seed`: 42
|
494 |
+
- `data_seed`: None
|
495 |
+
- `jit_mode_eval`: False
|
496 |
+
- `use_ipex`: False
|
497 |
+
- `bf16`: False
|
498 |
+
- `fp16`: False
|
499 |
+
- `fp16_opt_level`: O1
|
500 |
+
- `half_precision_backend`: auto
|
501 |
+
- `bf16_full_eval`: False
|
502 |
+
- `fp16_full_eval`: False
|
503 |
+
- `tf32`: None
|
504 |
+
- `local_rank`: 0
|
505 |
+
- `ddp_backend`: None
|
506 |
+
- `tpu_num_cores`: None
|
507 |
+
- `tpu_metrics_debug`: False
|
508 |
+
- `debug`: []
|
509 |
+
- `dataloader_drop_last`: False
|
510 |
+
- `dataloader_num_workers`: 0
|
511 |
+
- `dataloader_prefetch_factor`: None
|
512 |
+
- `past_index`: -1
|
513 |
+
- `disable_tqdm`: False
|
514 |
+
- `remove_unused_columns`: True
|
515 |
+
- `label_names`: None
|
516 |
+
- `load_best_model_at_end`: False
|
517 |
+
- `ignore_data_skip`: False
|
518 |
+
- `fsdp`: []
|
519 |
+
- `fsdp_min_num_params`: 0
|
520 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
521 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
522 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
523 |
+
- `deepspeed`: None
|
524 |
+
- `label_smoothing_factor`: 0.0
|
525 |
+
- `optim`: adamw_torch
|
526 |
+
- `optim_args`: None
|
527 |
+
- `adafactor`: False
|
528 |
+
- `group_by_length`: False
|
529 |
+
- `length_column_name`: length
|
530 |
+
- `ddp_find_unused_parameters`: None
|
531 |
+
- `ddp_bucket_cap_mb`: None
|
532 |
+
- `ddp_broadcast_buffers`: False
|
533 |
+
- `dataloader_pin_memory`: True
|
534 |
+
- `dataloader_persistent_workers`: False
|
535 |
+
- `skip_memory_metrics`: True
|
536 |
+
- `use_legacy_prediction_loop`: False
|
537 |
+
- `push_to_hub`: False
|
538 |
+
- `resume_from_checkpoint`: None
|
539 |
+
- `hub_model_id`: None
|
540 |
+
- `hub_strategy`: every_save
|
541 |
+
- `hub_private_repo`: False
|
542 |
+
- `hub_always_push`: False
|
543 |
+
- `gradient_checkpointing`: False
|
544 |
+
- `gradient_checkpointing_kwargs`: None
|
545 |
+
- `include_inputs_for_metrics`: False
|
546 |
+
- `eval_do_concat_batches`: True
|
547 |
+
- `fp16_backend`: auto
|
548 |
+
- `push_to_hub_model_id`: None
|
549 |
+
- `push_to_hub_organization`: None
|
550 |
+
- `mp_parameters`:
|
551 |
+
- `auto_find_batch_size`: False
|
552 |
+
- `full_determinism`: False
|
553 |
+
- `torchdynamo`: None
|
554 |
+
- `ray_scope`: last
|
555 |
+
- `ddp_timeout`: 1800
|
556 |
+
- `torch_compile`: False
|
557 |
+
- `torch_compile_backend`: None
|
558 |
+
- `torch_compile_mode`: None
|
559 |
+
- `dispatch_batches`: None
|
560 |
+
- `split_batches`: None
|
561 |
+
- `include_tokens_per_second`: False
|
562 |
+
- `include_num_input_tokens_seen`: False
|
563 |
+
- `neftune_noise_alpha`: None
|
564 |
+
- `optim_target_modules`: None
|
565 |
+
- `batch_eval_metrics`: False
|
566 |
+
- `eval_on_start`: False
|
567 |
+
- `eval_use_gather_object`: False
|
568 |
+
- `batch_sampler`: no_duplicates
|
569 |
+
- `multi_dataset_batch_sampler`: round_robin
|
570 |
+
|
571 |
+
</details>
|
572 |
+
|
573 |
+
### Training Logs
|
574 |
+
| Epoch | Step | Training Loss | spearman_max |
|
575 |
+
|:------:|:----:|:-------------:|:------------:|
|
576 |
+
| 0 | 0 | - | 0.8399 |
|
577 |
+
| 0.4558 | 500 | 0.1676 | - |
|
578 |
+
| 0.9116 | 1000 | 0.1165 | - |
|
579 |
+
|
580 |
+
|
581 |
+
### Environmental Impact
|
582 |
+
Carbon emissions were measured using [CodeCarbon](https://github.com/mlco2/codecarbon).
|
583 |
+
- **Energy Consumed**: 0.032 kWh
|
584 |
+
- **Carbon Emitted**: 0.014 kg of CO2
|
585 |
+
- **Hours Used**: 0.074 hours
|
586 |
+
|
587 |
+
### Training Hardware
|
588 |
+
- **On Cloud**: No
|
589 |
+
- **GPU Model**: 1 x NVIDIA GeForce RTX 4090
|
590 |
+
- **CPU Model**: 13th Gen Intel(R) Core(TM) i7-13700
|
591 |
+
- **RAM Size**: 62.57 GB
|
592 |
+
|
593 |
+
### Framework Versions
|
594 |
+
- Python: 3.9.0
|
595 |
+
- Sentence Transformers: 3.0.1
|
596 |
+
- Transformers: 4.44.1
|
597 |
+
- PyTorch: 2.3.1+cu121
|
598 |
+
- Accelerate: 0.33.0
|
599 |
+
- Datasets: 2.19.1
|
600 |
+
- Tokenizers: 0.19.1
|
601 |
+
|
602 |
+
## Citation
|
603 |
+
|
604 |
+
### BibTeX
|
605 |
+
|
606 |
+
#### Sentence Transformers
|
607 |
+
```bibtex
|
608 |
+
@inproceedings{reimers-2019-sentence-bert,
|
609 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
610 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
611 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
612 |
+
month = "11",
|
613 |
+
year = "2019",
|
614 |
+
publisher = "Association for Computational Linguistics",
|
615 |
+
url = "https://arxiv.org/abs/1908.10084",
|
616 |
+
}
|
617 |
+
```
|
618 |
+
|
619 |
+
#### MultipleNegativesRankingLoss
|
620 |
+
```bibtex
|
621 |
+
@misc{henderson2017efficient,
|
622 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
623 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
624 |
+
year={2017},
|
625 |
+
eprint={1705.00652},
|
626 |
+
archivePrefix={arXiv},
|
627 |
+
primaryClass={cs.CL}
|
628 |
+
}
|
629 |
+
```
|
630 |
+
|
631 |
+
<!--
|
632 |
+
## Glossary
|
633 |
+
|
634 |
+
*Clearly define terms in order to be accessible across audiences.*
|
635 |
+
-->
|
636 |
+
|
637 |
+
<!--
|
638 |
+
## Model Card Authors
|
639 |
+
|
640 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
641 |
+
-->
|
642 |
+
|
643 |
+
<!--
|
644 |
+
## Model Card Contact
|
645 |
+
|
646 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
647 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,29 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "hyunkookim/klue-roberta-base-klue-sts",
|
3 |
+
"architectures": [
|
4 |
+
"RobertaModel"
|
5 |
+
],
|
6 |
+
"attention_probs_dropout_prob": 0.1,
|
7 |
+
"bos_token_id": 0,
|
8 |
+
"classifier_dropout": null,
|
9 |
+
"eos_token_id": 2,
|
10 |
+
"gradient_checkpointing": false,
|
11 |
+
"hidden_act": "gelu",
|
12 |
+
"hidden_dropout_prob": 0.1,
|
13 |
+
"hidden_size": 768,
|
14 |
+
"initializer_range": 0.02,
|
15 |
+
"intermediate_size": 3072,
|
16 |
+
"layer_norm_eps": 1e-05,
|
17 |
+
"max_position_embeddings": 514,
|
18 |
+
"model_type": "roberta",
|
19 |
+
"num_attention_heads": 12,
|
20 |
+
"num_hidden_layers": 12,
|
21 |
+
"pad_token_id": 1,
|
22 |
+
"position_embedding_type": "absolute",
|
23 |
+
"tokenizer_class": "BertTokenizer",
|
24 |
+
"torch_dtype": "float32",
|
25 |
+
"transformers_version": "4.44.1",
|
26 |
+
"type_vocab_size": 1,
|
27 |
+
"use_cache": true,
|
28 |
+
"vocab_size": 32000
|
29 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.0.1",
|
4 |
+
"transformers": "4.44.1",
|
5 |
+
"pytorch": "2.3.1+cu121"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": null
|
10 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:9cb82dd167f2c032cdd3ab91f3efe56c23c3550a3d87239d8f6d1b1b1213a226
|
3 |
+
size 442494816
|
modules.json
ADDED
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
}
|
14 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 512,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
special_tokens_map.json
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"bos_token": {
|
3 |
+
"content": "[CLS]",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"cls_token": {
|
10 |
+
"content": "[CLS]",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"eos_token": {
|
17 |
+
"content": "[SEP]",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"mask_token": {
|
24 |
+
"content": "[MASK]",
|
25 |
+
"lstrip": false,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"pad_token": {
|
31 |
+
"content": "[PAD]",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
},
|
37 |
+
"sep_token": {
|
38 |
+
"content": "[SEP]",
|
39 |
+
"lstrip": false,
|
40 |
+
"normalized": false,
|
41 |
+
"rstrip": false,
|
42 |
+
"single_word": false
|
43 |
+
},
|
44 |
+
"unk_token": {
|
45 |
+
"content": "[UNK]",
|
46 |
+
"lstrip": false,
|
47 |
+
"normalized": false,
|
48 |
+
"rstrip": false,
|
49 |
+
"single_word": false
|
50 |
+
}
|
51 |
+
}
|
tokenizer.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|
tokenizer_config.json
ADDED
@@ -0,0 +1,66 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "[CLS]",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "[PAD]",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "[SEP]",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "[UNK]",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"4": {
|
36 |
+
"content": "[MASK]",
|
37 |
+
"lstrip": false,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"bos_token": "[CLS]",
|
45 |
+
"clean_up_tokenization_spaces": true,
|
46 |
+
"cls_token": "[CLS]",
|
47 |
+
"do_basic_tokenize": true,
|
48 |
+
"do_lower_case": false,
|
49 |
+
"eos_token": "[SEP]",
|
50 |
+
"mask_token": "[MASK]",
|
51 |
+
"max_length": 512,
|
52 |
+
"model_max_length": 512,
|
53 |
+
"never_split": null,
|
54 |
+
"pad_to_multiple_of": null,
|
55 |
+
"pad_token": "[PAD]",
|
56 |
+
"pad_token_type_id": 0,
|
57 |
+
"padding_side": "right",
|
58 |
+
"sep_token": "[SEP]",
|
59 |
+
"stride": 0,
|
60 |
+
"strip_accents": null,
|
61 |
+
"tokenize_chinese_chars": true,
|
62 |
+
"tokenizer_class": "BertTokenizer",
|
63 |
+
"truncation_side": "right",
|
64 |
+
"truncation_strategy": "longest_first",
|
65 |
+
"unk_token": "[UNK]"
|
66 |
+
}
|
vocab.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|