thomas0104
/

whisper_medium_nan_tw

Automatic Speech Recognition

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

thomas0104 commited on Jun 24

Commit

d45c6fc

•

1 Parent(s): dc473c6

修正NormText中文部分

Files changed (1) hide show

ryNormText.py +3 -3

ryNormText.py CHANGED Viewed

@@ -26,7 +26,7 @@ def ryNormText(s):
     punc1= string.punctuation  # 這是為英文
     punc1
-    punc2= '。，﹐、！？：：；『』「」…,\n' # 這是為中文，尚未完備！！
     punc= f"[{punc1}{punc2}]"  ## 這是 regular expression 的 pattern
@@ -56,7 +56,7 @@ import unicodedata
 import re
-def separ_char_word(inputString= '我是呂仁園 Renyuan Lyu'):
     inputString= 把怪字修進unicode(inputString)
@@ -76,6 +76,6 @@ def separ_char_word(inputString= '我是呂仁園 Renyuan Lyu'):
     y= re.sub('[ ]+',' ', y) #連續空白只保留1個空白
     return y
-#q= 中英分開('大家好 da jia hao 我是呂仁園 I am Renyuan Lyu')
 #print(q)

     punc1= string.punctuation  # 這是為英文
     punc1
+    punc2= '＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏·〈〉-。﹐、！？,\n' # 這是為中文，尚未完備！！
     punc= f"[{punc1}{punc2}]"  ## 這是 regular expression 的 pattern
 import re
+def separ_char_word(inputString= ''):
     inputString= 把怪字修進unicode(inputString)
     y= re.sub('[ ]+',' ', y) #連續空白只保留1個空白
     return y
+#q= 中英分開('大家好 da jia hao')
 #print(q)