thomas0104
commited on
Commit
•
d45c6fc
1
Parent(s):
dc473c6
修正NormText中文部分
Browse files- ryNormText.py +3 -3
ryNormText.py
CHANGED
@@ -26,7 +26,7 @@ def ryNormText(s):
|
|
26 |
|
27 |
punc1= string.punctuation # 這是為英文
|
28 |
punc1
|
29 |
-
punc2= '
|
30 |
|
31 |
punc= f"[{punc1}{punc2}]" ## 這是 regular expression 的 pattern
|
32 |
|
@@ -56,7 +56,7 @@ import unicodedata
|
|
56 |
import re
|
57 |
|
58 |
|
59 |
-
def separ_char_word(inputString= '
|
60 |
|
61 |
inputString= 把怪字修進unicode(inputString)
|
62 |
|
@@ -76,6 +76,6 @@ def separ_char_word(inputString= '我是呂仁園 Renyuan Lyu'):
|
|
76 |
y= re.sub('[ ]+',' ', y) #連續空白只保留1個空白
|
77 |
return y
|
78 |
|
79 |
-
#q= 中英分開('大家好 da jia hao
|
80 |
|
81 |
#print(q)
|
|
|
26 |
|
27 |
punc1= string.punctuation # 這是為英文
|
28 |
punc1
|
29 |
+
punc2= '"#$%&'()*+,-/:;<=>@[\]^_`{|}~⦅⦆「」、、〃《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏·〈〉-。﹐、!?,\n' # 這是為中文,尚未完備!!
|
30 |
|
31 |
punc= f"[{punc1}{punc2}]" ## 這是 regular expression 的 pattern
|
32 |
|
|
|
56 |
import re
|
57 |
|
58 |
|
59 |
+
def separ_char_word(inputString= ''):
|
60 |
|
61 |
inputString= 把怪字修進unicode(inputString)
|
62 |
|
|
|
76 |
y= re.sub('[ ]+',' ', y) #連續空白只保留1個空白
|
77 |
return y
|
78 |
|
79 |
+
#q= 中英分開('大家好 da jia hao')
|
80 |
|
81 |
#print(q)
|