thomas0104 commited on
Commit
d45c6fc
1 Parent(s): dc473c6

修正NormText中文部分

Browse files
Files changed (1) hide show
  1. ryNormText.py +3 -3
ryNormText.py CHANGED
@@ -26,7 +26,7 @@ def ryNormText(s):
26
 
27
  punc1= string.punctuation # 這是為英文
28
  punc1
29
- punc2= '。,﹐、!?::;『』「」…,\n' # 這是為中文,尚未完備!!
30
 
31
  punc= f"[{punc1}{punc2}]" ## 這是 regular expression 的 pattern
32
 
@@ -56,7 +56,7 @@ import unicodedata
56
  import re
57
 
58
 
59
- def separ_char_word(inputString= '我是呂仁園 Renyuan Lyu'):
60
 
61
  inputString= 把怪字修進unicode(inputString)
62
 
@@ -76,6 +76,6 @@ def separ_char_word(inputString= '我是呂仁園 Renyuan Lyu'):
76
  y= re.sub('[ ]+',' ', y) #連續空白只保留1個空白
77
  return y
78
 
79
- #q= 中英分開('大家好 da jia hao 我是呂仁園 I am Renyuan Lyu')
80
 
81
  #print(q)
 
26
 
27
  punc1= string.punctuation # 這是為英文
28
  punc1
29
+ punc2= '"#$%&'()*+,-/:;<=>@[\]^_`{|}~⦅⦆「」、、〃《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏·〈〉-。﹐、!?,\n' # 這是為中文,尚未完備!!
30
 
31
  punc= f"[{punc1}{punc2}]" ## 這是 regular expression 的 pattern
32
 
 
56
  import re
57
 
58
 
59
+ def separ_char_word(inputString= ''):
60
 
61
  inputString= 把怪字修進unicode(inputString)
62
 
 
76
  y= re.sub('[ ]+',' ', y) #連續空白只保留1個空白
77
  return y
78
 
79
+ #q= 中英分開('大家好 da jia hao')
80
 
81
  #print(q)