<source id="iiuop"><menuitem id="iiuop"></menuitem></source>

    <cite id="iiuop"></cite>
  1. <tt id="iiuop"><span id="iiuop"></span></tt>

  2. <cite id="iiuop"><noscript id="iiuop"></noscript></cite>
    <tt id="iiuop"></tt>

     首頁 >> 語言學
    數據時代與語言產業
    2020年12月29日 14:38 來源:《山東師范大學學報(社會科學版)》 作者:李宇明 字號
    2020年12月29日 14:38
    來源:《山東師范大學學報(社會科學版)》 作者:李宇明

    內容摘要:

    關鍵詞:

    作者簡介:

      摘 要:數據時代的標志是把數據看作生產要素,數據價值由科學領域進入社會經濟制度領域。語言數據包括四類:語言的符號系統;語言負載的信息;由語言延伸的各種符號與代碼;生活、藝術與科學技術符號。無論是從量上還是從質上看,語言數據都是最為重要的數據,因而也是重要的生產要素。包括語言數據產業在內的語言產業將成為數字經濟的一方支柱。隨著語言智能的發展,語言逐漸為人和機器兩個“物種”所擁有;信息空間是人類正在建造的第三空間,隨著信息空間、語言智能和物聯網的發展,語言將承擔起“萬物關聯對話”的任務,在社會、信息、物理三元空間中發揮互動作用。新基建應是“智能新基建”。語言學的研究對象應當是具有“雙物種”屬性、在三元空間運行的語言;要考慮用“新文科”的思路培養適應數據時代需求的語言人才。

      關鍵詞:數據;語言數據;語言產業;數字經濟;生產要素;新基建;新文科;三元空間

      作者簡介:李宇明(1955—),男,河南泌陽人,首都師范大學文學院特聘教授,北京語言大學教授,博士生導師。

      基金:作者主持研究的國家社會科學基金重點項目“中國學前兒童語料庫建設及運作研究”(19AYY010);教育“十四五”規劃研究課題項目“‘十四五’時期語言文字事業發展研究”的階段性成果。

      數據(data)是觀察客觀世界和人類社會得到的各種原始素材,通過對素材的加工處理獲取信息、建構知識、生發思想。人類社會自形成以來就有數據存在,并為人類知識體系和思想觀念的形成發展不斷作出貢獻。隨著計算機的產生和發展,數據的作用更加重要,科學地位更加凸顯,社會也對其更加重視。在計算機科學中,所有能輸入計算機并被計算機程序處理的符號,都可稱之為數據,包括數字、文字、符號、語音、圖像、視頻,等等。計算機所形成的網絡,為社會構建了一個虛擬的網絡空間;計算機在數據收集、處理上表現出強大功能,特別是通過大數據學習而不斷挖掘知識、獲取智能,促進人工智能的快速發展和廣泛的社會應用,突出了數據的科學意義。2019年10月,黨的十九屆四中全會將數據與勞動、資本、土地、知識、技術、管理并列為第七大生產要素,作為生產要素的數據可以通過市場“按貢獻取酬”。這是重大的理論創新,體現著對信息化社會的本質認識,也是社會進入“數據時代”的標志。本文討論數據作為生產要素的意義、語言數據與生產要素的關系、語言智能與人類正在建造的“第三空間”、數據時代的語言產業問題等。目的在于認識語言數據在數字經濟發展中的意義,語言學要以新文科的思路為數據時代培養人才。

      一、數據成為生產要素

      數據的價值首先被科學家所認識,特別是被計算機專家和信息專家所認識。計算機與信息科學是當今的先鋒學科,對社會發展影響巨大,當今政府常會關注這類學科的發展動向,并及時利用公權力支持這些學科的發展,以便為本國的經濟社會發展贏得機遇。因此,政府也會從這些學科領域認識到數據的價值,數據的意義由此從科技領域轉入社會領域。

      政府對于數據的認識,可以分為兩個層面:第一,推進科學技術發展;第二,推進經濟社會發展。第一層認識的結果是加大科技投入,改進科技政策;第二層認識會在第一層認識和行動的基礎上,進而改進經濟發展政策和社會經濟分配政策。政府的這兩個認識層面,也代表著數據認識的兩個階段。當政府有了第二個層面的認識,看到數據的生產要素性質時,社會就進入了“數據時代”。

      (一)各國政府的“數據行動”

      在移動網絡和人工智能快速發展的時代,各國政府都十分關注數據及其相關問題,積極采取一系列與數據相關的政府行動。有學者曾較為全面地介紹過這方面的情況1:

      2017年3月,英國發布《英國數字化戰略》,提出要釋放數據在英國經濟中的重要力量,提高公眾對數據使用的信心。2018年,英國又發布《數字憲章》《產業戰略:人工智能領域行動》《國家計量戰略實施計劃》等。2018年,美國發布《數據科學戰略計劃》《美國國家網絡戰略》《美國先進制造業領導力戰略》等;歐盟發布《歐盟人工智能戰略》《通用數據保護條例》《非個人數據在歐盟境內自由流動框架條例》《促進人工智能在歐洲發展和應用的協調行動計劃》等;法國發布《法國人工智能發展戰略》《5G發展路線圖》《利用數字技術促進工業轉型的方案》等;德國發布《聯邦政府人工智能戰略要點》《人工智能德國制造》《高技術戰略2025》等。

      2015年7月,印度提出“數字印度”倡議,計劃以“印度制造”和“數字印度”兩駕馬車馱載國家未來。2017年7月,俄羅斯發布《俄羅斯聯邦數字經濟規劃》。韓國早就提出要建設“數字政府”,要求管理網絡化、辦公自動化、政務公開化、運行程序優化,從而使政府決策科學化、社會治理精準化、公共服務高效化、政府治理民主化。2017年,韓國行政自治部和信息化振興院共同發布《2017年電子政府10大技術趨勢》,宣布將數字政府逐漸發展成為結合數據分析、機器人技術、提供更周到服務的“以數據為中心的政府”。2018年,日本發布《日本制造業白皮書》《綜合創新戰略》《集成創新戰略》《第2期戰略性創新推進計劃(SIP)》等,詳細闡述了推動數字科技和數字經濟發展的行動方案。這些行動方案,充滿著“數據、數字、智能”等字眼。

      (二)數據的生產要素屬性的認識歷程

      前述各國政府的“數據行動”,其認識基本上還都在推進科學技術發展的第一層面,但也開始觸及推進經濟社會發展的第二層面,但并未明確把數據列入生產要素。生產要素的認定,與生產力發展水平和經濟制度密切相關,也與人們的思想認識水平相關。一方面,數據具有生產要素的性質,只有信息化發展到一定階段才能成為現實,才能被人認識;另一方面,只有對信息化社會經濟發展形態具有洞察力的社會集團,才能率先認識,及早布局。

      2017年12月8日,習近平同志在中共中央政治局第二次集體學習時提出:“要構建以數據為關鍵要素的數字經濟。建設現代化經濟體系離不開大數據發展和應用。我們要堅持以供給側結構性改革為主線,加快發展數字經濟,推動實體經濟和數字經濟融合發展,推動互聯網、大數據、人工智能同實體經濟深度融合,繼續做好信息化和工業化深度融合這篇大文章,推動制造業加速向數字化、網絡化、智能化發展。要深入實施工業互聯網創新發展戰略,系統推進工業互聯網基礎設施和數據資源管理體系建設,發揮數據的基礎資源作用和創新引擎作用,加快形成以創新為主要引領和支撐的數字經濟。”2這段話有兩層意思:第一,數據是數字經濟的關鍵要素;第二,如何發展數字經濟。這些論述已經超越了為推進科學技術發展而關注數據,而是將數據問題向經濟制度方向引領。

      2018年4月13日,“首屆數字中國建設峰會”的數字經濟分論壇在福州召開。2018年5月26—29日,中國國際大數據產業博覽會在貴陽舉行。2018年9月25日,江蘇互聯網大會在南京舉行。2019年12月10日,第六屆中國國際大數據大會在北京舉行。這些會議都突出了“數據是數字經濟的關鍵要素”這一話題。特別是2018江蘇互聯網大會,工業和信息化部總經濟師王新哲到會致辭。王新哲在致辭中強調:“以數據作為關鍵生產要素的數字經濟正在成為繼農業經濟、工業經濟之后的新型經濟形態。”至此,人們確認了兩個基本認識:第一,數字經濟是繼農業經濟、工業經濟之后的新型經濟形態;第二,數字經濟的關鍵生產要素是數據。

      2019年10月28—31日,黨的十九屆四中全會召開。全會提出,“健全勞動、資本、土地、知識、技術、管理、數據等生產要素由市場評價貢獻、按貢獻決定報酬的機制”。這是對數據具有生產要素性質的首次明確表述,把數據與勞動、資本、土地、知識、技術、管理并列為第七大生產要素,可以通過市場按貢獻取酬。這是重大的理論創新,體現著對信息化社會的本質認識,是在數字經濟快速發展背景下經濟制度的與時俱進。

      2020年3月30日,《中共中央國務院關于構建更加完善的要素市場化配置體制機制的意見》(以下簡稱《意見》)發布,主要對土地、勞動力、資本、技術、數據等要素的市場配置提出了要求。3在第六款“加快培育數據要素市場”中,《意見》提出了三條:“(二十)推進政府數據開放共享。”“(二十一)提升社會數據資源價值。培育數字經濟新產業、新業態和新模式,支持構建農業、工業、交通、教育、安防、城市管理、公共資源交易等領域規范化數據開發利用的場景。發揮行業協會商會作用,推動人工智能、可穿戴設備、車聯網、物聯網等領域數據采集標準化。”“(二十二)加強數據資源整合和安全保護。探索建立統一規范的數據管理制度,提高數據質量和規范性,豐富數據產品。研究根據數據性質完善產權性質。制定數據隱私保護制度和安全審查制度。推動完善適用于大數據環境下的數據分類分級安全保護制度,加強對政務數據、企業商業秘密和個人數據的保護。”第七款第二十五條規定,“充分體現技術、知識、管理、數據等要素的價值”;第八款第二十六條規定,“引導培育大數據交易市場,依法合規開展數據交易”。

      《意見》是在“數據是生產要素”的判斷之下作出的生產要素市場化的安排,不僅為數據作用的充分發揮創造了有利的市場配置的體制機制與環境,而且也加固、加深了“數據是生產要素”的認識。

      二、語言與生產要素的關系

      人類觀察世界所形成的數據,可供計算機處理的數據,80%都是語言數據,故而語言數據是最為重要的數據。語言與其他生產要素,如勞動、資本、知識、技術、管理等,也有密切關系。認識語言與生產要素的關系,有利于在數據時代自覺地、最大限度地獲取語言紅利,對于語言學研究和語言學人才培養也具有重大意義。

      (一)語言數據是最為重要的數據

      數據是信息的表現形式,亦是信息載體。隨著科技與社會的進步,數據的內涵和外延都在發生變化,甚至是重大變化。但有一點可以肯定,那就是多數數據都是語言數據。語言數據主要包括如下4類內容:1.語言的符號系統。包括:語音系統、語匯系統、語法系統;文字系統;標點符號;注音符號等。2.語言負載的信息。語言包括口語、書面語、語言參與的音頻、視頻文件等,它們記錄、負載各種信息。3.由語言延伸的各種符號與代碼。如盲文、聾啞人的手語、旗語、燈語、電報代碼等。4.生活、藝術與科學技術符號。如電話號碼、身份證編碼、銀行卡號碼、樂譜、數學符號、化學符號、公式、計算機編程語言等。其中,前兩項是自然語言數據;后兩項是人工語言數據。人工語言有時單獨使用,有時與自然語言一同使用;它們或是自然語言的符號化,或是需要自然語言輔助理解,或是可以用自然語言進行闡釋。

      計算機所要處理的數據,除語言數據外還有人面、人體動作、聲音、氣味、顏色、物象等數據,但毫無疑問,語言數據是最為重要的數據。其一,語言數據的數據量大;其二,語言數據與人類的關系較為密切;其三,語言是人類最常用、最能反映人類心智的符號系統。語言數據的計算機處理,較難也是最重要的是自然語言數據處理。計算機對語言數據的處理,如漢字識別、詞語檢索、自動翻譯、自動寫作、客戶的機器語言服務等,每前進一步,就會產生新的語言產業,推進社會前進一大步。

      數據是生產要素,那么,語言數據是最為重要的數據,也應當屬于生產要素范疇。2019年12月17日,“第二屆語言智能與社會發展論壇”在北京語言大學舉行,論壇主題為“智能寫作的社會影響及其倫理、法律問題”。閉幕式上,筆者就曾談及“作為生產要素的語言數據”問題。42020年5月17日,那順烏日圖領銜成立“東北亞語言資源數字化平臺”,筆者作為平臺學術委員會主任在“主任寄語”中指出:“語言數據是信息時代的生產要素,如同土地之于農民,機器之于工人,計算機通過對語言數據的加工學習可以獲得知識與智能,從而去創造人類的新生活。”《光明日報》2020年7月4日第12版,刊載李宇明《語言數據是信息時代的生產要素》一文,這是中國的重要媒體首次發表語言數據是生產要素的觀點。5

      (二)語言與其他生產要素的關系

      語言是人類最為重要的交際工具和思維工具,是人類文化和信息的最為重要的負載者,同時也是文化最為重要的建構者和闡釋者。所以,不僅語言數據是“數據”這一生產要素的組成部分,而且語言也與其他一些生產要素發生各種各樣的關系,發揮各種各樣的作用。

      語言與勞動、知識、技術、管理等生產要素的關系十分密切。語言經濟學把語言看作人力資本,語言能力是重要的勞動力,特別是智力為主的勞動崗位,尤其是服務產業,語言能力是比體力更為重要的勞動力。6語言能力薄弱或有語言障礙的人群,常常會形成社會貧困群體。

      語言不僅是如索緒爾所說的“符號系統”,語言也是“知識”的載體。7知識學習需要通過語言,知識儲備需要腦神經語言系統的運作,知識的運用與創造也主要是通過語言。就技術而言,語言技術本身就是技術的一部分,特別是以信息化為主的現代語言技術,在技術體系中的地位更為重要,越是智能化的技術,越是與語言的關系密切;各技術門類的名詞術語、各個產業的技術規范,都是用語言制定、表現出來的,用語言進行傳授的;語言對于技術的擴散與創新,也具有很大影響。語言與“管理”的關系就更為密切,因為語言能力是管理能力的重要組成部分,也是管理能力的體現;管理的具體實施,幾乎離不開語言。

      語言與“土地、資本”仿佛沒有多大關系。但是,張振興在2018年9月“世界語言資源保護大會”上所作的《漢語方言資源應用隨想》報告,揭示了語言與資本流動的關系,說明語言也是一種投資環境8:

      1.據國家統計報告1987年數據:香港地區投資內地,65%資金流向珠江三角洲地區,12%流向潮汕地區;臺灣地區投資內地,78.9%資金流向福建,閩南地區占其48%。

      2.據《福建省統計年鑒2017》報告,福建省實際利用外資,2015年為768,339萬美元,2016年為819,465萬美元,其中來自臺灣、香港、印度尼西亞、新加坡的外資2015年占68.9%,2016年占64.5%。反向投資情況也大致如此,福建省對外投資,2015年是128,640萬美元,其中投向印度尼西亞、新加坡等東南亞國家為72.43%。

      3.據《2016年度中國對外直接投資統計公報》數據:2016年,中國向亞洲地區直接投資流量為1302.7億美元,占當年對外直接投資流量的66.4%;其中對香港的投資為1142.3億美元,占對亞洲投資的87.7%;對東盟10國的投資為102.8億美元,占對亞洲投資的7.9%。

      張振興分析這些數字背后的語言原因:中國香港地區與珠江三角洲言語相通;中國臺灣地區與閩南地區同言同語;東南亞地區,尤其新加坡、印度尼西亞等地到處都有說閩南話的華人華僑,福建人在那里做生意很少有語言障礙。

      語言與各生產要素都有密切關系,既是多個生產要素的構成部分,又是生產要素發揮作用的重要助力,甚至是基礎條件。隨著數字經濟的發展和語言智能水平的不斷提高,語言數據的生產要素屬性會越來越清晰,語言對各生產要素的影響也會越來越顯著。

      三、語言智能與人類的三元空間

      語言智能是人工智能的重要組成部分,是讓計算機擁有人類的語言智能。人工智能是對人類智能的模仿。人類智能主要表現在思維能力上。語言是人類思維活動的憑借,是思維成果貯存、傳播的載體,故而語言能力決定著思維水平。人類自幼成長,通過獲取語言促進思維發展,因各種原因而未能較好獲得自然語言者,如聾啞人,其思維水平便嚴重受限。人類的書面語學習和外語學習,大大提升了思維品質,掌握了書面語、外語的人比文盲和單語者更具思維優勢。盡管學界對思維與語言的關系還有不少爭論,但語言在思維中的重要地位不容否認。語言智能是人類最為重要的智能,讓計算機獲取人類的語言智能是人工智能的重要任務。

      人工語言智能(以下稱為“語言智能”)是人工智能皇冠上的明珠。20世紀50年代,人類進行機器翻譯的嘗試,由此開始了訓練機器進行語言信息處理的進程。中文信息處理經過字處理、詞處理階段的艱難行進,現已順利步入句處理、篇章處理的話語處理階段,努力讓計算機具有語言智能。9這些語言信息技術,促進著信息檢索、自動翻譯、機器寫作、作文自動批改、人機對話等的快速發展。語言智能發展的水平,可以智能寫作為例窺其全貌。

      (一)以智能寫作為例

      智能寫作可細分為輔助寫作和自動寫作兩類。輔助寫作是從素材收集、文章撰寫、文本檢校三個方面輔助人類寫作,提升寫作效率,如提供領域熱點事件、引文推薦、寫作潤色、文本糾錯、自動摘要等。自動寫作是機器自主完成文章寫作。2018年6月30日,中國智能寫作產業聯盟在北京成立,首批理事單位有中國聲谷、科大訊飛、金山軟件等17家。10當時,幾乎所有互聯網和AI巨頭都投入智能寫作市場。據分析,智能寫作需求最強的有4大市場:內容資訊、金融財經分析、數字營銷、行政辦公。11下面,從6個方面來描述智能寫作的應用情況:

      1.新聞智能寫作

      新聞智能寫作的軟件,有新華社的“快筆小新”、第一財經的“DT稿王”、今日頭條的“張小明”、騰訊的“Dreamwriter”、創作大腦、Giiso、SoccerBot等。新聞智能寫作,不僅提供新聞寫作的智能機器人,而且結合多種技術,在新聞生產的策劃、采編、發稿的全流程中為新聞從業者提供輔助支撐。新聞從業者結合機器撰稿的優勢,進行更有創造力的工作。

      2.應用文智能寫作

      應用文智能寫作的范圍很廣,如通知通告、總結匯報、招投標文件、專利文件、規范標準文件等。當前主要的應用文智能寫作軟件,有微軟、金山、搜狗等企業的產品,還有妙筆、世通亨奇、Giiso等。

      3.詩歌智能創作

      詩歌(包括對聯)的創作需具備三大要素:情感表達;字眼搜尋;文句表達。計算機與之對應的技術是:情感計算;語義計算;文本生成。當然還離不開一定規模的語料庫。當前較為有名的寫詩能手有:清華九歌、微軟小冰、薇薇寫詩、小封詩歌、春聯機等。其中有寫古體詩的,有寫新詩的,有寫春聯的。詩歌智能創作仍處在模仿階段,但所寫詩歌常有出人意料之句。詩歌智能創作或將催生新的人工智能門類。

      4.小說智能創作

      小說智能創作的軟件有:壹寫作、星達、小蜜蜂、神碼AI、捏勺AI、《XXX》寫作神器、“狗屁不通”文章生成器等。2016年3月,日本公立函館未來大學的松原仁團隊,根據預設內容自動生成了小說《機器寫小說的那一天》。這部小說參賽,竟然瞞過了當時的人類評委,成功入圍第三屆日經新聞社“星新一獎”比賽。“狗屁不通”文章生成器,2019年竟然火遍網絡。

      5.用戶評論

      用戶評論也可歸入應用文智能寫作,但因其在當今網絡上使用廣泛,故可以單獨立目。這方面的軟件有:藍色光標、Persado、Phrasee、返利機器人、vatti(華帝)小V等。用戶評論是應用情感計算,批量生成可定制的評論,通過評論來塑造商品、企業、組織等形象的應用。用戶評論往往不是真正的用戶發出的評論,這是一個灰色地帶,逐步形成灰色產業,對社會生活存在威脅。12

      6.社交機器人

      社交機器人是具有智能寫作能力的社交網絡賬號,以“人”的身份在社交網絡中活動,與人進行商務、聊天等社交活動。社交機器人是智能寫作技術在語言應用上自主性最強的一種形式,目前集中用于商業營銷、客戶服務、兒童教育等領域。值得注意的是,它也開始涉足政治宣傳,可能會影響到人類的政治生活,比如選舉態度等。

      智能寫作受制于預設的算法和數據庫,具有結構化、模式化、同質化的表現。其語言特點是:字句堆砌復疊,段落連接不暢;數據詳盡冗雜,常愛引經據典,行文缺乏生活常識,缺乏情感色彩;長于場景描摹,拙于議論敘事,事實與觀點常出現邏輯錯位。智能寫作盡管離人類寫作、閱讀習慣還有很大距離,但已經呈現把人類從“筆耕口傳”、高創作成本、高傳播壁壘中解放出來的曙光。當然,智能寫作技術在工商業、公共管理和文化傳承等領域不加限制地應用,也將造成現實損失,產生倫理焦慮,因而必須直面智能寫作帶來的語言不規范、語言暴力、語言偏見、傳播虛假信息、擾亂日常生活乃至社會秩序等問題。13

      (二)語言的雙物種性

      機器具有語言智能了嗎?這是較難回答的哲學層面的問題。第一,何謂智能?第二,如何判定機器具有語言智能?依照圖靈測試原理,會發現機器在許多語言行為上可以“蒙人過關”,達到圖靈測試的某種要求,比如機器寫的一些新聞、詩歌、小說、用戶評論,機器翻譯的一些作品等。因此可以說,目前機器已經具備了初步的語言智能,隨著人工智能技術的發展,機器的語言智能會逐步提升,不斷地接近人類。

      語言是人類獨有的符號系統,這是語言學家的經典認識。當然,他也有關于動物語言的研究,動物界的確存在信息交換系統,但與人類語言相比,可謂云泥之別。擱置動物語言不論,可以說,語言信息處理之前的語言學,皆把語言看作人類獨有的。但是語言智能的發展,使語言已為或將為人類和機器這兩個“物種”共同享有。

      過去的語言生活,多數都是“人-人”交際,其間一般不使用交際工具。這種“裸裝備”的直接的“人-人”交際,現在還在應用,但是重要的語言交際大都采用“人-機-人”交際。其實,“人-機-人”交際是概括的說法,其內涵包括A、B兩大類4小類交際模式:

      A.“人-機-機-人”交際;B1.“人-機”交際;B2.“機-機”交際;B3.“機-人”交際;A是B的混成,可以分解為“人-機”交際、“機-機”交際、“機-人”交際三個類型。這些交際都離不開具有語言智能的機器,如果這些機器是“人形機器人”,那么,機器擁有語言智能這一現象,就會看得更為明顯。故而,現代的語言學應當把語言看作人與機器兩個“物種”所有,是“雙物種”的語言學。這是語言學可以超越過往獲得大發展的學理基礎。

      (三)人類的三元空間

      人類形成之前,世界就是自然界,只是一個物理空間。人類的形成與發展,在物理空間中生長出一個社會空間。語言與社會空間一起成長,大約距今3—5萬年前的舊石器時代,人類已有較成熟的口頭語言,口語的載體是聲波。大約距今5,000—5,500前,文字在兩河流域產生,語言有了新載體光波。20世紀20年代,廣播、電視相繼出現,有聲媒體使語言有了第三大載體電波。20世紀末,互聯網商業化,語言信息處理出人意料地快速進步,人類開始建構一個新空間——網絡空間。14

      網絡空間也常稱為“虛擬空間”“信息空間”。稱為虛擬空間,是強調其虛擬性質,網名可以再命,性別可以隱匿甚至更換,地點可以主觀臆擬。早期,虛擬空間與現實空間的確有較大不同,由實入虛,如同轉世,人的行為方式可以脫離現實空間再行塑造。但隨著網絡實名化措施的實施,隨著虛擬空間對現實空間的影響加大,虛擬空間與現實空間的關系越來越密切,故而有人覺得虛擬空間并不虛,不主張再叫虛擬空間。稱為信息空間,是強調這個空間的特性是信息化的產物,主要是進行信息的運行與傳播,與信息化時代也很契合。也有專家認為,信息不是某一空間所獨有,社會空間也依賴信息,甚至物理世界也需要信息交換,同類動物之間、不同動物之間都有信息交換,同類植物之間有信息,甚至天體之間也存在信息,所以也有專家認為信息空間的名稱也不合適。

    圖1 “三元空間”生成圖

    圖2 三元空間的語言、信息關系圖

      名稱之爭往往伴隨著對于“實”的認識分歧。一個新事物的問世常會伴有多個名稱,隨著事物的發展,隨著認識的深化,名稱就會逐步約定俗成,固定下來。筆者也曾經使用過虛擬空間等多個名稱,這里姑且從眾,稱之為信息空間。把信息空間獨立出人類的社會空間、與物理空間和人類社會并行而立,這便是人類正在生活的“三元空間”,如圖1所示。

      首先提出三元空間的,就我所掌握的資料看是潘云鶴。2019年11月3日,潘云鶴在中國人民大學作《人工智能2.0與數字經濟》報告,指出人類正由傳統的物理空間、人類社會二元空間,逐步進入物理空間、人類社會、信息空間所構成的三元空間。2019年12月,劉挺在“第二屆語言智能與社會發展論壇”上也闡述了信息空間的問題。2020年5月,筆者也向趙沁平請教三元空間的問題。對如何看待這個第三空間,趙沁平有他的看法。

      總之,信息空間是一個正在發展的空間,其結構和運行機理還在被逐步認識中,也還在被逐漸完善中。但有一點相對明確,那就是信息空間主要是被數字化、智能化了的語言空間;除卻語言,信息空間不可能存在,即使存在也無意義。語言過去是在社會空間中使用,如今是在社會空間、信息空間中使用。語言不僅具有雙物種性,而且還具有雙空間性。

      就發展趨勢看,語言并不滿足于它的雙空間性,它還將跨入物理空間。物聯網和語言智能的進一步發展,只要在需要驅動的目的物上植入語言感應器,人就可以通過具有語言智能的機器與萬物關聯、與萬物對話,使萬物具有語言智能,如圖2所示。無人駕駛的汽車、輪船、飛機,已經展示了人與物對話的雛形。

      四、語言產業的發展

      筆者認為,“語言產業是以生產和提供語言產品為主的行業。語言產品的形態、語言產業的業態決定著語言產業的基本面貌,是語言產業研究的基礎范疇”。當時,把語言產品的形態歸納為七種:語言、文字及相關符號;語言知識產品;語言文字藝術產品;語言技術產品;語言醫療康復產品;語言咨詢培訓服務;語言人才。當時也指出:“語言產品的形態,還可以有其他描述方式。同時,隨著時代的發展也可能還會出現新的語言產品形態。比如,信息化時代,語言數據顯得特別重要,機器翻譯需要大量的雙語數據,機器語言理解需要大數據的訓練等。語言數據也可能成為一種語言產品形態。”15現在看來,的確應有語言數據產品,應有生產這種產品的語言數據行業。

      (一)語言數據產業

      語言數據產業,是對語言數據進行收集庫存、管理經營、加工應用的行業。語言數據產業涉及許多業態,如語言數據的收集、語言數據庫的建設、語言數據的云存儲、語言數據的計算機應用、語言數據產品的營銷、語言數據及其各種規范標準、語言數據產業人才的培養等。這些業態代表著對這一新興產業的當下認識,其中蘊含并催生著諸多語言數據的職業,通過這些產業和職業,可以生產出各種形態的語言信息產品。

      語言數據產業的發展,首先需要有語言意識。需從語言經濟學、語言產業經濟學等角度看待語言數據和語言產業,看到語言數據、語言數據產業在數字經濟發展中的重要作用。其次,需要市場驅動。自動翻譯及前述智能寫作的發展,便顯示出市場的作用;中共中央、國務院的《意見》也有許多制度安排。市場運作需要對語言數據產品進行分類與規范,以便將其貨幣化。通過市場滿足供求關系,實現語言數據作用的最大化和語言數據產業效益的最大化。

      比如語料庫,現在各有關研究單位幾乎都有語料庫,甚至每個語言研究課題都有語料庫,但是這些語料庫基本不能與同行分享,不能與社會共享。個中原因很多,最重要的原因有二:

      第一,產權不好確定。

      語料庫收集的都是他人的“語言成品”,或是作家著作,或是網絡言論,或是發音合作人的話語,或是使用某種軟件生成的語言數據等。語料庫制作者即便是免費與同行或社會共享,也可能發生產權官司。

      第二,沒有統一的語料庫標注規范。

      比如語料庫應有哪些元數據、字形規范、詞語切分規范、詞性標注規范,等等。

      一個像樣的語料庫,其建構成本巨大,但發揮作用有限,他人需要重復建設,造成巨大浪費。語料庫只是一例,語言數據產業此類問題甚多,亟需研究解決。要建立語言數據產品名錄、語言數據產品規范、語言數據產業與市場的法規政策、語言數據職業規范及倫理道德等。社會已經進入信息時代,過去的很多規矩都是平面媒體時代的,需要與時俱進,需要有創新意識。創新與失誤是一根藤上的瓜,有創新意識還需有容錯意識,能夠容錯才敢于創新。

      語言數據適應計算機應用是重要的學術問題。語言數據與計算機的接口是形式化,形式化是解決語言數據與計算機處理“最后一公里”的問題。信息時代,網絡已經是最為龐大的語言數據庫,利用網絡獲取語言數據是可能的也是必要的。但是,網絡數據是不同時代、不同文化、不同領域的集聚,甚至還有機器生產的大量數據。要利用網絡數據,就有一個“潔洗”的問題,通過潔洗去除數據的意識形態偏見、文化偏見以及不良用語。現在,許多數據公司都在數據潔洗方面花了不少功夫。

      此外,需要明晰語言數據的知識產權,保護語言數據涉及的各方權益。重視語言數據的隱私權,妥善處理語言數據可能出現的隱私泄露問題。

      (二)其他語言產業

      任何產業都有一定的業態。賀宏志、陳鵬《語言產業導論》是我國最早研究語言產業的著作,該書把語言產業劃分為九大業態:(1)語言培訓業;(2)語言出版業;(3)語言翻譯業;(4)語言文字信息處理業;(5)語言藝術業;(6)語言康復業;(7)語言會展業;(8)語言創意業;(9)語文能力測評業。16可以預見,在數據時代,這些語言產業也會有更濃厚的語言數據意識。

      第一,更好地獲得語言數據。

      語言產業的生產往往離不開語言數據,語言數據是許多語言產業的生產資料。比如,語言培訓需要教材,教師需要參考資料;自動語言翻譯需要雙語數據庫;語言會展業展出的都是語言產品,其中包括語言數據、語言數據服務等。語言產業的發展,需要利用網絡、現代語言信息技術和語言數據市場去更及時、更便利地獲取最適合的語言數據。

      第二,利用好自己產出的語言數據。

      語言產業生產的語言產品,有許多就是語言數據。比如辭書,看起來是在編纂一條條詞語,其實每個詞條都是優質的語言數據,詞條整合起來就是某一方面優質的知識系統。這些優質的語言數據,辭書編輯反復加工過,經過最為嚴格的“潔洗”,是訓練計算機提升智能的珍貴數據,也是計算機進行知識挖掘的珍貴數據。再如語言教學、語言測試等,都能生成有特殊作用的語言數據,比如經過批改的語言試卷,對于促進機器獲取語言智能、促進自動評分技術的發展,都具有重要意義。但是,這些語言數據并沒有得到很好利用,甚至被丟入廢紙堆中。

      瑞士語言產業對該國GDP的貢獻近10%;我國正值數據可以成為生產要素的時代,語言數據產業將有較大發展,其他語言產業亦可借數據之便,大幅提升經濟能量。可以預測,語言產業、語言職業將能夠創造更為顯著的經濟成果,成為數字經濟的一方重要支柱。

      (三)智能“新基建”

      2018年12月19—21日,中央經濟工作會議在北京舉行。會議重新定義了基礎設施建設,把5G、人工智能、工業互聯網、物聯網定義為“新型基礎設施建設”,簡稱“新基建”。此后,新基建的內容不斷豐富,面貌也逐漸清晰。

      在各種基礎設施建設中,重視信息網絡、數據中心的建設,能夠讓數據像交流電、自來水、天然氣一樣在千家萬戶奔流。但是,就三元空間的發展前景來看,新基建僅有“聯通”是不夠的,還需要智能;不僅做到“萬物關聯”,還要向“萬物關聯對話”的方向努力。也就是說,在新基建中,不僅重視“聯通”,還要重視“智能”,重視“對話”,亦即讓基建物具有“智能”,特別是應當具有語言智能,以便實現人與萬物的關聯對話,構建有智能的物聯網。

      具有智能、特別是語言智能的基建,才是名副其實的新基建,為強調起見,或可稱為“智能新基建”。如果說目前的“新基建”還主要是為數據、為智能鋪設通道,那么,“智能新基建”更看重的是讓基建物具有智能,促進“人-機-物”三者的互動,特別是通過語言進行互動。語言交際由“人-人”交際、“人-機-人”交際進一步發展為“人-機-物-人”的更為復雜的交際。在“智能新基建”的思維框架中,語言產業將發揮更為顯著的作用。

      (四)新文科建設

      語言已經不僅僅是人文現象,它是“具有聲光電三大媒介、為人類與機器兩個‘物種’共享、將應用在社會、信息、物理三元空間中”的事物。語言學作為研究語言及其相關問題的科學,也應當是橫跨文理工的綜合學科,由此可以說,“語言學是一個學科群”17。

      2017年10月,美國希拉姆學院提出“新文科”的教育理念,對其29個專業實行重組,把新技術融入哲學、文學、語言等課程中。這反映了學科交叉融合的時代大趨勢。我國也在積極推進“新工科、新醫科、新農科、新文科”建設,很多高校推進“學部制”改革,在體制上實現學科交叉。根據語言的性質,就應當依照“新文科”的思路發展語言學。綜合、交叉、融入新技術的語言學,能夠更好地適應“數據是數字經濟的關鍵生產要素”的時代命題和經濟制度,促進知識經濟的發展,推進智能化“新基建”的發展。

      2020年7月29日,全國研究生教育視頻會議召開,部署新技術時代高端人才培養問題。會后出臺文件,把交叉學科新增為第14個學科門類,說明了對人才進行大交叉、大融合培養的重要性和急迫性。語言智能是諸多學科的交叉,需要交叉學科培養出來的人才作支撐,而語言學人才培養方面存在的問題不少,應引起學界和學科規劃者的重視。當然,新基建和知識經濟的謀劃者,也應當充分重視語言和語言學,獲取語言學的科學紅利和社會紅利。

      五、結語

      由于數據是人工智能、數字經濟的關鍵要素,近些年世界各國都在開展“數據行動”。數據的重要性由科學家傳遞給政府,政府的數據意識由“推進科學技術發展”到“推進經濟社會發展”,把數據看作可與勞動、資本、土地、知識、技術、管理并列的生產要素。認識到數據的生產要素性質,人類就開始進入數據時代。

      語言數據主要包括:語言的符號系統;語言負載的信息;由語言延伸的各種符號與代碼;生活、藝術與科學技術符號。這些類型無論是量上還是質上都是最為重要的數據,故而也是重要的生產要素。語言還與勞動、資本、知識、技術、管理等生產要素具有密切關系。語言及語言數據將成為數據時代的重要生產力。

      過去,語言為人類一個物種所獨有。隨著語言智能的發展,機器逐漸在獲取人類的語言智能,“人-人”交際發展為“人-機-人”的混成交際,語言逐漸為人與機器兩個“物種”所有。在人類形成之前,世界就只有物理空間。人類的形成與發展,在物理空間中生長出社會空間。而今,人類正在建造出第三空間——信息空間。語言過去只在社會空間中使用,現在是在社會空間、信息空間雙空間中使用。隨著語言智能和物聯網的發展,語言還將跨入物理空間,在三元空間中發揮信息交互作用。數據時代,由于語言數據的數據性質,由于語言與勞動、資本、知識、技術、管理等生產要素的關系,語言產業會得到更大發展。首先發展的是對語言數據進行收集庫存、管理經營、加工應用的語言數據產業,其他語言產業也會有更濃厚的語言數據意識,更好地獲得語言數據,更好地利用自己產出的語言數據。當前的基本建設是“新基建”,為數據鋪設通道,促進萬物關聯。但僅重視“聯通”遠遠不夠,還要讓基建物具有“智能”,特別是應當具有語言智能,以便實現人與萬物的關聯對話,促進“人-機-物”三者的語言智能互動。這種新基建是智能新基建,是新基建的發展方向。

      語言學常常被看作是人文科學,而且與“文學”組成一個一級學科。嚴格來講,語言學人才是在碩士階段才開始進行專業培養的。在人工智能快速發展、語言數據成為重要生產要素的今天,在語言發展為人與機器“雙物種”所有,將在社會、信息、物理三空間中運作的今天,為適應語言智能、語言產業和智能新基建的發展,語言學必須樹立“新文科”意識,通過學科交叉培養數據時代所需要的人才。可以預測,語言產業、語言職業將能夠創造更為顯著的經濟成果。語言學不僅要自覺適應新形勢,新基建和知識經濟的謀劃者也應當加強語言意識,像重視數據那樣重視語言和語言學問題。

      注釋

      1陸儉明:《順應科技發展的大趨勢語言研究必須逐步走上數字化之路》,《外國語》2020年第4期。

      2《習近平主持中共中央政治局第二次集體學習》,中華人民共和國中央人民政府網站:http://www.gov.cn/guowuyuan/2017-12/09/content_5245520.htm。

      3中共中央、國務院:《關于構建更加完善的要素市場化配置體制機制的意見》,中華人民共和國中央人民政府網站:http://www.gov.cn/zhengce/2020-04/09/content_5500622.htm。

      4北京語言大學語言資源高精尖創新中心:《推進智能寫作健康發展宣言》,第二屆語言智能與社會發展論壇,2019年12月17日。

      5李宇明:《語言數據是信息時代的生產要素》,《光明日報》2020年7月4日。

      6張衛國:《作為人力資本、公共產品和制度的語言:語言經濟學的一個基本分析框架》,《經濟研究》2008年第2期;王海蘭:《個體語言技能資本投資研究》,博士學位論文,山東大學,2012年;王海蘭:《語言人力資本推動經濟增長的作用機制研究》,《語言戰略研究》2018年第2期;趙穎:《語言能力對勞動者收入貢獻的測度分析》,《經濟學動態》2016年第1期。

      7李宇明 :《中國語言資源的理論與實踐》,《語言戰略研究》2019年第3期。

      8張振興:《漢語方言資源應用隨想》,世界語言資源保護大會會議報告,2018年9月19-20日。

      9劉云、肖辛格:《中文信息處理發展簡史》,北京:科學出版社,2019年。

      10張俊:《中國智能寫作產業聯盟成立》,《中國新聞》2018年6月30日,https://baijiahao.baidu.com/s?id=1604702204279770381&wfr=spider&for=pc。

      11北京恒州博智國際信息咨詢有限公司(QYResearch):《2020-2026中國人工智能寫作輔助軟件市場現狀及未來發展趨勢》,https://www.qyresearch.com.cn/reports/AI_Writing_Assistant_Software-p167680.html。

      12饒高琦:《給智能寫作的快馬套上科技倫理籠頭》,《光明日報》2019年 12月24日。

      13北京語言大學語言資源高精尖創新中心:《推進智能寫作健康發展宣言》,第二屆語言智能與社會發展論壇,2019年12月17日。

      14李宇明:《語言技術對語言生活及社會發展的影響》,《中國社會科學》2017年第2期。

      15李宇明:《語言產業研究的若干問題》,《江蘇師范大學學報(哲學社會科學版)》2019年第2期。

      16賀宏志、陳鵬:《語言產業導論》,北京:首都師范大學出版社,2012年。

      17李宇明:《語言學是一個學科群》,《語言戰略研究》2018年第1期。

    作者簡介

    姓名:李宇明 工作單位:

    轉載請注明來源:中國社會科學網 (責編:馬云飛)
    W020180116412817190956.jpg

    回到頻道首頁
    中國社會科學院概況|中國社會科學雜志社簡介|關于我們|法律顧問|廣告服務|網站聲明|聯系我們
    中國社會科學院概況|中國社會科學雜志社簡介|關于我們|法律顧問|廣告服務|網站聲明|聯系我們
    58福彩 www.hg01678.com:格尔木市| www.huoyuanch.com:兴文县| www.impresacreative.com:天柱县| www.tcga4u.org:两当县| www.banthuoconline.com:岳阳县| www.mwxnh.cn:夏津县| www.hellobuynow.com:洪洞县| www.midifa.com:永登县| www.hg71789.com:永胜县| www.9959gp.com:临高县| www.minilobo.com:盐源县| www.dbxing.com:辉南县| www.antonionicosia.com:东乌珠穆沁旗| www.yhjzsd.com:固始县| www.troop100bsa.com:江阴市| www.char-o-lotranch.com:佛教| www.meimeihaose.com:乌鲁木齐县| www.gamelip.com:石城县| www.genericdrugonline.net:横山县| www.lnujy.com:黔西县| www.house-of-jorob.com:洛浦县| www.cp3380.com:沁水县| www.sandersfieldtrees.org:漳浦县| www.wwwbc250.com:双城市| www.bjxdby.com:天台县| www.starolympus.com:长治县| www.kingdabearing.com:剑河县| www.zghnfzw.com:安吉县| www.crowwebdesign.com:辽阳市| www.eoilc.com:西林县| www.damoa33.com:瑞昌市| www.myomahaphysicaltherapy.com:仙居县| www.cp9771.com:札达县| www.zhongyunhe.com:闽侯县| www.bearmouthrvpark.com:富源县| www.mississipp.com:扬中市| www.tjlc56.com:成都市| www.jinjin2car.com:昌江| www.all-best-slots.com:霸州市| www.jsjingming.com:依安县| www.traumleben.org:乌拉特后旗| www.masterdealzone.com:滨海县| www.4008557888.com:吉安市| www.rjccw.cn:霍邱县| www.gun2424.com:依安县| www.edcvanuatu.com:扎兰屯市| www.homouie8.com:南京市| www.swaggjewels.com:永昌县| www.stoppenmetrokentips.com:黄龙县| www.jinshayule53.com:鹿邑县| www.whatschimp.com:罗城| www.pmdsales.com:海宁市| www.merginnhotel.com:隆子县| www.homelifepremier.com:宁远县| www.theeconomicsbook.com:长春市| www.schillofinancial.com:东安县| www.wodacorp.com:南溪县| www.jnshengping.com:峨边| www.pnnws.com:四子王旗| www.ohmygodvideo.com:彭州市| www.ljf21sj.com:合作市| www.djmix8.com:收藏| www.hairbook.org:宜良县| www.weiyanwangluo.com:延长县| www.ldc-ci.com:内江市| www.zzhfjx.com:合川市| www.97chao.com:永州市| www.alida-hisku.net:龙泉市| www.faisal1624.com:育儿| www.tms16.com:崇州市| www.cp6220.com:靖安县| www.maltavizesi.net:宣化县| www.uribaba.com:高要市| www.217661.com:杨浦区| www.me2email.com:南川市| www.bluesteelgaming.com:东阳市| www.zxnqw.cn:闸北区| www.afgj642.com:康定县| www.mylinuxstuff.com:印江| www.hbtzn.com:绥滨县| www.hkshengpingzhang.com:瓮安县| www.cxqht.cn:株洲市| www.essenceofmassage.com:济源市| www.rqxbw.cn:邵武市|