欧美三级日本三级少妇99_日韩高清av一区二区三区_在线观看免费视频综合_欧美日韩午夜精品

中文EN
【學者視窗】數字化賦能漢語方言研究:語法特征語料庫建設的創新實踐
2026-03-20 來源:社科院專刊總第841期 作者:夏俐萍 周晨磊(語言研究所)
分享到:
  漢語方言學科自中華人民共和國成立以來,在大規模田野調查和語言資源庫建設方面取得了矚目的成就,涌現出《中國語言地圖集》《現代漢語方言大詞典》《現代漢語方言音庫》等標志性成果。進入21世紀,漢語方言作為傳統文化載體和語言資源的屬性日益受到重視,漢語方言學的交叉學科屬性也進一步凸顯。以語保工程為代表的大規模數字化采錄、以實驗方言學為代表的實證研究范式、以口語語料庫為抓手的語法研究,共同驅動學科發展形態深度重構。
  近年來,面對信息化和人工智能的高速發展,在世界上現有最大規模標準語言文化資源庫的基礎上,部署應用關鍵新技術,構建新型資源數據體系,成為漢語方言學面臨的重要任務。面對這一新形勢,中國社會科學院語言研究所依托“登峰計劃優勢學科——語言類型學”(2017—2022)和國家社科基金重點項目“漢語方言語法特征語料庫”,總結前期經驗,成功實施了漢語方言語法特征語料庫建庫計劃。經過五年建設,由劉丹青、夏俐萍任主編,唐正大、周晨磊、張永偉為主要成員的“漢語方言語法特征語料庫”(以下簡稱“語料庫”)于2023年8月在中國社會科學院語言研究所網站正式上線,標志著漢語方言語法語料庫基礎工程建設取得重要突破。
  科學規劃布局  實現系統覆蓋
  語料庫建設采用嚴格的科學規劃和統一標準。在類型學框架下,選取能反映類型特點的語言參項,出版《漢語方言語法調查問卷》(以下簡稱《調查問卷》)。根據《調查問卷》,以各地方言為母語的資深方言學者及學術骨干在實地調查的基礎上,按統一的規范進行采集、錄制、轉寫、建庫。這種經過實地采集的語法語料具有現時性、可比性和不可替代性,盡可能保留了真實口語語法的特點,是漢語方言語法研究十分珍貴的活材料。
  目前已上線的語料庫來自4批田野調查獲得的31個方言點的語料,覆蓋了全國十大漢語方言區和少量系屬不明的土話。主要代表點有:官話方言的中原官話(山西臨汾、河南浚縣)、西南官話(四川德陽)、冀魯官話(山東淄川)、蘭銀官話(甘肅蘭州)、東北官話(遼寧沈陽、吉林四平)、江淮官話(江蘇鹽城)等各大片區;吳方言(上海市、浙江紹興、浙江瑞安、浙江臨海、浙江麗水)、湘方言(湖南汨羅、湖南邵陽)、晉方言(河北涿鹿、山西山陰)、客家方言(廣東梅縣、江西石城)、贛方言(江西都昌、湖北咸寧、江西吉安)、粵方言(廣西平南、廣東廣州)、閩方言(福建漳州、福建寧德)、平話方言(廣西賓陽)、徽方言(安徽祁門)。此外,還有深圳占米話、青海周屯話、東安土話等系屬待定的方言類型,構成了完整的漢語方言語法圖譜。
  完善理論框架  建立完整體系
  語料庫內容分為音系、語法例句和口語語料三大板塊。音系部分包括聲母、韻母、聲調和連讀變調,是后續語法例句和口語語料的基礎。語法例句711句,涉及22個語法范疇。口語語料部分包括對話、語篇語料,其中規定的語篇語料為“北風與太陽”“牛郎與織女的故事”。統一的語篇語料可以用于橫向比較話題標記、話語標記以及相關的語篇信息。完整的語料庫體系也可以為后續人工智能開發提供基礎數據。
  22個語法范疇的711句語法例句覆蓋了漢語方言語法研究的核心領域,分別是:構詞、構詞生動形式、名詞復數、重疊、代詞、數量名結構、定名結構、狀語性成分、趨向動補結構、介詞與連詞、處置被動致使、雙及物結構、連動結構、處所存現領有判斷、語序與話題、復雜句與復合句、疑問否定、祈使感嘆、時體、情態語氣、反身相互、比較比擬。每個語法例句都有唯一的編號,并配有相應的說明文字。如例句1509“他告訴我酒水呢,準備好了”,說明部分為“該句考察該方言中是否有受事成分位于賓語后的次次話題結構。注意話題標記可以采用哪些形式”。通過說明文字,調查者可以快速抓住例句需要調查的語法點,確保調查的準確性和標準化。
  嚴格執行規范  確保數據質量
  語料庫采用統一的調查規范,具體涉及調查地點、調查對象、調查內容、調查方法和錄音方法等。調查地點選擇調查者最為熟悉的母語方言所在地,可以是地級市市區,也可以是縣城或鄉鎮,調查記錄時具體到行政村。調查時發音人年齡在55—70歲之間,在本地出生和長大,家庭語言環境單純。發音人一般選擇一男一女、具有小學或中學文化程度,便于對語法例句進行驗證。
  調查時應該記錄相應的紙質文檔、電子文檔,并按要求錄音。對音系的調查力求記音準確。記錄完音系例字后,需要整理該方言的聲母表、韻母表和聲調表,并描寫其語音特點。語法例句的調查要仔細對照例句中的“說明”文字,注意所調查內容與調查目的相符。記錄者要求記錄每個例句的漢字寫法、國際音標,必要時在“備注”中交代相關背景信息。所有語法例句采用先調查后錄音的原則,按照編號順序進行錄音,并以wav格式保存錄音文件,以便后續核查。話語包括敘事體和對話文體。敘事體主要講述故事,可以是個人生活經歷,也可以是流行于當地的故事或傳說。對話體采用對話的方式進行,一般為二至三人的對話形式,在自然語境下就某一話題進行交流,如當地風俗、人物、時事評論等。敘事體和對話體的時長在15分鐘以上。規定的語篇“北風與太陽”“牛郎與織女的故事”要求同步錄音和轉寫。
  完善檢索系統  服務學術研究
  語料庫采用現代信息技術,建立了功能完善的檢索系統。目前所采集的語料已經全部上傳到網站,供學界無償使用。用戶只需免費注冊后登錄,即可對語料進行搜索。可以搜索例句,也可以搜索調查點。在例句搜索時,可以在“篩選”“分組”“排序”篩選框內設置多重條件。例如,用戶可按照例句搜索某個待考察例句在各方言中的說法,也可按照語法范疇搜索某個語法范疇等。多個篩選條件可以疊加。以搜索“一個人”為例,在篩選條件中,設置“例詞句”“包含”“一個人”,且“語法范疇”“包含”“時體”;在“分組”條件中設置“例詞句”“升序”,在“排序”條件中設置“例詞句”“升序”,即可按照需求獲得相關搜索結果。
  用戶還可以通過設置不同的條件滿足研究的不同需要,如可以設置只參考某一個例句在不同方言中的說法,或者是某一個方言不同語法例句或語話語料的詳情,同時根據研究的需要對參考的例句進行標記,具體可以參看網站的“用戶手冊”。
  產生積極影響  開拓創新發展
  漢語方言語法特征語料庫為漢語方言語法研究提供了標準化的可比性語料,使得大規模的橫向比較成為可能,有助于推動方言語法研究從描寫走向解釋,從個案研究走向規律探索。統一的調查方法和數據格式為漢語方言語法研究提供了學術規范,有助于形成學術界共識,提高研究質量。同時,免費開放的使用模式發揮了學術資源的示范效應,有利于學術共同體的形成和發展。
  語法例句、地方故事、口語交際等自然口語語料既蘊含著自然的語法特征,也是傳統文化的重要載體,具有多重價值。語料庫的建設在加強語言資源的開發、保存和利用,助力優秀語言文化資源服務于社會主義精神文明建設和鑄牢中華民族共同體意識等方面,將發揮重要作用。
  在中國社會科學院語言研究所的統一部署下,漢語方言語法特征語料庫正式納入中國社會科學院(中國社會科學院大學)語言學重點實驗室語料庫平臺建設計劃,語料庫的擴建和創新發展成為下一步的重要目標。2026年已正式開展第5批建庫工作,預計五年之內建成80—100個方言調查點并上線開放。在此基礎上,編制“漢語方言語法特征地圖集”,出版“漢語方言口語語法標注叢書”等后續研究計劃將成為語料庫基礎建設的重要延伸。
  在語言學重點實驗室的統一規劃下,項目將開展多學科協同合作,以語料庫為抓手,進一步探索人工智能在漢語方言研究中的應用。以語料庫作為基礎數據,加強方言自動轉寫和方言語音識別技術的開發,推動漢語方言研究由“定性為主”或“小數據定量”向“大數據驅動”與“定性深度解讀”相結合的范式轉變,將進一步助力中華優秀語言文化的傳承發展。
  (本文系中國社會科學院(中國社會科學院大學)語言學重點實驗室子課題“多模態語言數據資源建設與服務平臺開發”(YY250402ZN)階段性成果)

責任編輯:王晏清

主站蜘蛛池模板: 国产精品一区二区av| 午夜精品99久久免费| 久久久久久久久91| 日本一区二区黄色| 国产欧美日韩91| 麻豆成人av| 亚洲精品tv久久久久久久久| 国产一区二区视频在线观看| 亚洲精品免费av| 久久精品久久久久| 亚洲a一级视频| 国产综合欧美在线看| 亚洲在线欧美| 国产伦精品免费视频| 国产一区香蕉久久| 国产精品久久久久久av下载红粉| 久久另类ts人妖一区二区| 99爱精品视频| 国产成人高潮免费观看精品| 日韩在线视频观看正片免费网站| 日本一区二区三区视频在线观看| 久久精品视频在线播放| 麻豆av一区| 国产区欧美区日韩区| 91免费欧美精品| 日本最新一区二区三区视频观看| 国产在线98福利播放视频| 国产精品久久网| 国产精品高清免费在线观看| 一区二区三区在线视频看| 日韩精品在在线一区二区中文| 国产精品777| 青青青青在线视频| 国产精品嫩草视频| 91久久久亚洲精品| 午夜精品理论片| 国产在线精品91| 精品国产一区二区在线| 免费99精品国产自在在线| 欧美在线播放一区二区| 91精品国产91久久久久久不卡 |