校友天地
校友天地
當前位置:首頁  校友天地
ACL終生成就獎李生教授:自然語言處理研究的五點體會
發布人:劉志銘  發布時間:2019-05-06   瀏覽次數:13

2019年1月,北京語言大學語言資源高精尖創新中心與中國中文信息學會聯合主辦首屆「語言智能與社會發展」論壇,多名來自教育部、高校、語言學界、機器翻譯界、企業界的重磅嘉賓出席。會上,ACL 終生成就獎得主、自然語言處理領域泰斗李生教授進行了精彩的發言,闡述了人工智能對自然語言處理所帶來的突破性改變,以及它的一些局限性。

李生,哈爾濱工業大學教授、博士生導師。自然語言處理(NLP)領域專家、ACL 終身成就獎得主。李生教授先后主持了 10 余項包括原航天工業總公司、「863」計劃、國家自然科學基金等科研項目,獲得 7 項部級科技進步獎。他自 1985 年開始研究漢英機器翻譯,是我國最早從事該方向研究的學者之一。他帶領團隊研制的漢英機器翻譯系統 CEMT-I 于 1989 年成為我國第一個通過技術鑒定的漢英機器翻譯系統,其在機器翻譯技術及其相關的句法、語義分析等自然語言處理方向成就卓著,為機器翻譯在中國的發展做出了開拓性貢獻。

作為中國改革開放以來最早從事自然語言處理研究的學者之一,李生教授除了自身的科研成就以外,更為中國計算機領域培養了一批成就卓著的青年專家,包括 ACL 首位華人主席、百度公司技術副總裁王海峰博士,微軟亞洲研究院首席研究員周明博士,國家杰青獲得者、蘇州大學計算機學院副院長張民教授等,為中國計算機技術一代又一代的發展貢獻了力量。

以下為李生教授發言內容:

大家都談到語言和人工智能的關系,我是搞自然語言處理的,我深切地領會到從 16 年開始真正掀起的第三次人工智能熱潮。說人工智能對語言、圖像和語音識別起到翻天覆地的作用,那好像夸張了一點,但是確實,人工智能起到了很大的作用。

比如說圖像識別,現在由于有了深度學習,有了多層人工神經網絡之后,我們在這方面的成果確實突飛猛進,包括現在的刷臉技術,基本上已經用在很多地方了,如車站、碼頭、機場、無人售貨商店等。神經網絡解決了一個很大的問題,以往進行特征提取時,需要通過人工提取,難度很大,有了深度學習之后,機器自動提取特征,難度相應減小。其他如語音識別、機器翻譯也都突飛猛進,深度學習在這當中起到了很大的作用。我覺得在圖像識別、語音識別和自然語言處理當中,機器翻譯算得上是難度最大的一個研究方向。

所以我想談幾點體會:

第一,語言智能是人工智能的最高層次或者最高階段,語言智能在未來人工智能的應用上有著舉足輕重的作用。

我對語言智能的理解就是,它是自然語言處理(NLP)和自然語言理解(NLU)的人工智能化,這應該是人工智能的最高層次。很多人說目前這個時代,CV 在人工智能中唱主角,未來可能會由 CV 轉成 NLP,NLP 要唱主角。

大家常說,比爾蓋茨說過一句話,「自然語言處理是人工智能皇冠上的一顆明珠」。這句話不是比爾蓋茨說的,當時我們在劉挺老師課題組關于情感分析的一個會上,微軟亞洲研究院常務副院長周明博士說了這句話,周明說由他來說分量不夠,想算成我說的,我說這樣不行,然后他就把這句話移到比爾蓋茨身上了。大家現在知道了,這句話的真正出處不在比爾蓋茨。

NLP 的目標是實現自然語言與機器語言的連續交互。人講的語言,無論是漢語、俄語、日語,都屬于自然語言,機器能夠識別的叫機器語言,現在的交互,既有人和人的交互,也有人和機器的交互。我們的目標是實現自然語言與機器語言之間的理解、轉換與生成,這也是為什么我認為語言智能是人工智能的最高層次。

語言和文字是人類區別于其他動物的至關重要的標志,我覺得它對人類社會目前發展至少起到兩方面作用。一是大家的協同合作,比如在座各位教授不同課題組之間的合作,例如合作協議也是用語言文字記下的。第二就是代與代之間的文化傳承,這也是靠文字。我擔任中文信息學會理事會理事長時,有些少數民族沒有文字,只有語言,這非??上?。

我談的第二個觀點就是自然語言處理的核心問題(或難度最大的問題)是機器翻譯。

機器翻譯分為三個階段:第一個階段是基于規則的機器翻譯。那個階段會先把文章中打亂的句子變成單詞,之后再查字典,然后進行翻譯,翻譯之后,可能中文跟英文并不完全對應,需要再按照語法規則進行調整,最主要是調序的問題。第二個階段是基于統計的機器翻譯,在 15、16 年之前,我們都是使用這個方法。第三個階段是最近幾年的基于多層人工神經網絡的深度學習機器翻譯。

機器翻譯在近些年間,在這三個階段其實有兩個重大的變化,一是語法上的,喬姆斯基的生成語法理論,第二就是深度學習。原來大家一直對語義分析犯愁,但是深度學習已經開始對語義分析進行探險,大家知道詞嵌入的方法,現在把詞向量再進一步發展到句子向量,含有語義信息了。在處理過程中,對于單語種,比如說詞匯的語義信息,可以把語義相近的靠在一起,不同語種的源語言和目標語言的分布式處理辦法,也可以把源語言和目標語言語義相近的一起靠。這個雖然不能說從根本上解決問題,但是減輕了人對語義分析很大的憂愁。

第三個問題就是機器翻譯的難點和重點。

我很頭疼的是科學性和藝術性,如藝術性的規律怎么總結出來。另外,自然語言具有高度開放性和高度靈活性。在開放性上,如網絡出現以后,新詞不斷涌現,例如粉絲這個詞匯。在靈活性方面,可以自己隨便去組詞,這些新組成的詞也很讓人頭疼。

語義理解說白了就是對說話人意圖的理解。意圖理解與上下文有關系,但是語言本身存在歧義性和多樣性,另外,語言高度依賴知識,大家都知道常識知識,例如煤球是黑的,元宵是白的,小孩子常說,「地球人都知道」,但是機器不知道。另外還有領域知識,上下文、語言、環境等都會影響對語義的準確理解。實際上在多對多的翻譯中,根據當前的語境找出一種最為合適的譯文,我覺得這是個難題。

第四個問題,人工智能也好,機器智能也好,人類對他們有個共同要求——學習和求解問題的能力。

人的學習是沒問題的,回顧一下,人在小時候可能是憑感性認識,或者直接學習比較多??吹揭恢回?,媽媽會告訴你這是只貓,會給你留下印象,你會抽象出概念。到了公園看到老虎,老虎和貓長得差不多。小孩會問,這是不是也是貓,媽媽就告訴你,這不是貓,這是老虎。怎么區別老虎和貓呢?最起碼老虎的個頭比貓大。小孩子他不一定能記太多,記住這個就基本上會區分了。

對于學習,人一開始通過感性認識,即感知,進行自主學習,到了一定階段,他就從家長的不斷教導、老師講的課程或者從媒體上接觸新東西,不斷積累知識,這是間接知識。

前面這種學習方法叫無監督學習,后面這種學習方法叫監督學習。人的學習是小樣本學習,將無監督學習和監督學習結合起來,而機器現在需要依賴大量標注數據來進行學習,即監督學習,例如前面描述的圖像識別,就是通過大量的標注圖像不斷學習。機器學習相對于人的學習來說,受限太多。

有人說我們現在走在感知到認知的路上,在感知問題上,不能說大的問題基本上解決,但已經解決了一部分。在認知階段,形成對語義的深層理解難度還比較大,這是計算機下一步要發展的。

人工智能突飛猛進,解決了很多過去想都不敢想的關鍵問題,但這只是初步的,它還有好多解決不了的致命問題,比如方才所說的常識知識,以及思考和邏輯推理的問題,這對機器學習也是一種制約。我們人類有了知識之后,可以不斷推理和思考,但是人工智能現在還不具備思維和推理能力,特別是不具備前面說的常識性知識。

我的觀點就是,如果不能解決常識性問題和邏輯推理,要想實現通用人工智能或者機器認知,就會非常困難?,F在的研究應該在這方面多下些功夫。雖說現在也有思考對語義的理解,比如 18 年 10 月,谷歌推出了 BERT 雙向編碼語言模型,但這個模型消耗的資源代價還是比較高的。

另外,深度學習確實解決了人工智能的很多問題,但是除了深度學習之外,還可以探討其他人工智能的算法和模型。我們需要做更多的深度的理論研究和探討,掌握好核心技術。理論深入之后才能有技術,有了技術之后才能有算法和模型。

最后一個問題就是大家常談到的問題,過去也說了很多?!笝C器會消滅人類」,「機器將取代人」,尤其是以不久前去世的霍金為代表的許多人主張這一觀點。我從來就持相反的觀點,我認為機器代替不了人。

現在的人工智能還只是弱人工智能,不是強人工智能,也不是超強人工智能?,F在人工智能的作用,還是用機器代替簡單的、重復的以及危險性的勞動,想要解決找不到規律的問題,人工智能還不能做到,也代替不了人。人要盡量用好機器這個助手,自如地運用好機器,這樣既可以提高工作效率,也可以保證質量。

今天大家談到外語教學,我覺得人工智能對外語老師和外語專業的學生都不會有太大的影響。低水平淘汰是自然規律,例如講不好的,沒有科研能力的教師,該淘汰就得被淘汰。原來大家爭論最多的是醫生,說醫生要被淘汰,醫生與教師一樣,是很難被淘汰的。醫療影像診斷還得靠水平高的醫生來看。

包括我前面說的翻譯,也是一樣,我覺得最好的翻譯、最好的教師和醫生,一定是那些對人工智能系統或者教育機器深入了解,能運用自如的人。把這些作為輔助手段,水平會越來越高,效果會越來越好。不是誰淘汰誰的問題,機器永遠是人的工具。

附 語言智能與社會發展論壇 2018 宣言:語言智能與外語教育協同發展

序言

近年來,機器翻譯等語言智能技術迅猛發展,并開始在輿論中對人工外語服務形成沖擊。一時間,語言智能技術落地、外語教育存廢及投入多寡等,成為社會熱議的話題,也成為國家教育規劃和技術規劃中亟需面對的問題。

原則

本論壇相信:

1.語言智能技術的發展將極大地推進人類進步,社會應當張開雙臂擁抱語言智能,支持語言智能的發展,適應語言智能的發展,最大限度地從語言智能的發展中獲取社會效益,最大限度地避免語言智能對社會產生的副作用。

2.語言和語言學習是人之所以為人、提升智力和大腦功能的關鍵。語言智能也不是單純的機器智能,而是以人類語言能力為基礎、實現增強與互聯的深度人機結合的綜合智能行為。語言智能在其發展歷程中也離不開語言學的基礎支撐。因而在技術發展、專業教育等方面,不應輕視人類語言知識、語言能力的根本作用。

本論壇堅持:

1.作為工具的語言智能技術無法替代外語從業者,但對不掌握智能工具的外語從業者會帶來沖擊。

2.語言智能發展應以人為本,以公眾福祉為目標,應尊重社會倫理和科技倫理,承擔起社會責任。

3.外語教育(包括第二語言教育)應與時俱進,將語言智能的挑戰作為轉型發展的契機。堅持語言教育的工具性、人文性的雙重屬性,重視語言運用能力、跨文化交際能力和文化包容心的教育,重視語言智能技術的學習與應用,培養不同文化間的穿行者。

倡議

我們需要冷靜地、理性地預測機器翻譯等語言智能技術的發展未來,科學估量它在翻譯事務當中將發揮的作用,有效幫助國家制定符合實際的外語發展規劃,幫助外語從業者做好心理準備,主動適應新形勢。

本論壇倡議,外語教育面對語言智能時代的沖擊和挑戰,為自身發展和學生前途計,應當全力適應人機共存的語言生活形態,充分利用語言工具的革命性變化,革新教學范式和人才培養路徑,增強受教育者智能工具的使用能力,幫助其過好智能時代的外語生活。

機器翻譯等語言智能技術的發展和實踐,不應也不可能謀求全面替代人類的外語能力,在公共宣傳、科普演示中,語言智能學界和產業界應當實事求是地報告語言智能的發展現實,不夸大語言智能技術的現有性能,不做缺乏科學依據的展望,不能對人類的外語工作造成恐慌,不能對人類的外語事業規劃造成形勢誤判。

語言智能的發展秉承以人為中心的發展觀,不斷向更深層次與更廣范圍的人機互助、人機共處前進,使之成為進一步提升人類語言能力和溝通能力、凝聚社群心靈、融會世界知識的工具。語言智能與外語教育協同發展,共同進步,助力人類命運共同體的形成。

呼吁語言智能界、倫理學界及社會有關界別及有識人士,成立“語言智能倫理委員會”,保證語言智能在符合人類倫理的框架內發展,劃定語言智能技術應用的道德邊界和法律邊界。


青青草华人明星视频