智能語音拼寫軟件肯定需要一個大的詞匯庫。
那樣的詞匯庫,并不是單單指文字的詞匯庫,更重要的每一個字在各地的普通話中可能出現的地方口音。
比如普通話大部分中國人會說,但是真正說得標準的人并不占優。特別沒有幾個人能真正將所有漢字都會讀,更不會要說是說得標準。另外有很多字是多音字,語音拼寫又必須兼顧效率和準確。
所以一個龐大的詞匯庫是肯定很需要的。而這個數據庫因為涉及到音軌數據,數據量也比文字要大得多。
那最好是利用一個云計算技術進行解決。將全國所有人針對各個詞組的口音和錯誤方式都收集起來。甚至是可以用方言進行創作。
所以這個智能語音拼寫軟件,唐浩澤真心不是很很急。其實也急不來。
不過該做的,也應當提前做起來。
他提議說:“我們可以邀請用戶錄制我們指定的文章音軌文件。參與的人,可以在網站上給予一定的獎勵。”
向子榮聽他這話,也明白他話里所指。他皺眉說:“如果通過那樣收集數據模板。我們的工作量會很大。”
“反正我們也不急于求成。收集到足夠的數據后,在綜合分析并且建立模板。”
向子榮想了想,說:“好,我回去讓人選擇幾篇合適的文章先試一下。”
“閱讀的文章,可以選擇一些名篇。不需要他們用朗讀的方式。而是用說話的方式。流暢就好。”唐洪澤想一下,建議說。“比如說用魯迅先生的文章。還有一些古文,比如《愛蓮說》、《長歌行》等等中學課本上的文言文或者長詩。”
向子榮一聽,笑著說:“這個主意不錯。”
中學語文課本收錄的魯迅先生的文章和文言文,有不少是要背誦的。文言文就不用說了,那與現在的語言習慣有很大的不同,朗讀和背誦并不容易。而魯迅先生的文章讀起來都會覺得有些拗口,背誦起來肯定不好受。
所以在中學時代有一句名言:一怕周樹人,二怕文言文。
有那樣的文字的閱讀數據,應當可以建立不少的模板。
兩人又就這個問題談了一會,向子榮才離開了。
沒幾天,圈子網集團又制造出一個大新聞。
《是圈子網還是是瘋子網?》
以上是《計算機世界》刊登的一篇文章的標題。
該文的作者在文章中指出:“圈子網的將批評是做污蔑或者誹謗的。將無意的過錯當做罪過。編者注意到在圈子網集團已經向法院起訴中的被告名單中,發現了幾個著名的博【2】客主。他們都是比較著名的公共知識分子。公共知識分子存在的意義就是向公眾傳播知識,對公共事務進行分析……”
然后又說:“編者還注意到,當圈子網某個子網站涉嫌傳播淫【2】穢視頻事件發生后,對圈子網做出了批評,但是在圈子網澄清之后,不少因此被告的人在不久之后就刪除了自己的言論。這不能說那些被告沒有過錯,但是知錯能改,善莫大焉。圈子網悍然將他們也訴諸法庭,未免太過不近人情……”
最后的結論還聽辛辣:“……我們注意到,僅僅三天時間,圈子網集團在全國范圍內就該時間針對個人提起的誹謗訴訟案高達六百多起。具圈子網集團的公告,似乎還會有更多。這種做法看似保護了圈子網集團的權益。但是以言入罪,與古代的文字獄有何差別?圈子網集團這種瘋狂的行徑,無疑會極大損害網絡發展。”
唐浩澤看過這篇文章后,嗤笑一聲。
文字獄?這是將圈子網集團當做野豬皮人了?
他不屑于回應。不過圈子網集團的公關部不是吃素的,當即發表了一份聲明。
“我們注意到某計算機權威報刊報刊登的某位著名水軍頭目的文章。改文章聲稱圈子網集團的維權行動是瘋子行為,將會危害中國網絡的自由發展。對此我們不僅不敢茍同,更覺得極其荒誕。圈子網集團在第一時間要求所有人停止對我司的誹謗和污蔑。但是在事情得到澄清后,依然有不少人拿了錢而繼續在網絡上,繼續有針對性、有目的性地散播謠言,繼續污蔑誹謗圈子網。而現所有被起訴的人,我們都有證據顯示他們是拿錢辦事的。
“至于說批評,如果是符合客觀事實的,我們會虛心接受批評,更會認真改正。但是某些所謂公知分子的批評,我們是敬謝不敏的。公知分子的可敬之處勿用贅言,但絕對不包括
【精彩東方文學 www.nuodawy.com】 提供武動乾坤等作品手打文字版最新章節首發,txt電子書格式免費下載歡迎注冊收藏。