潘悟云談漢藏語的歷史起源研究

鄭詩亮

2019-05-26 10:18

來源：澎湃新聞

? 上海書評 >

潘悟云（澎湃新聞蔣立冬繪）

4月25日，復旦大學金力院士團隊在《自然》雜志發表了以《語言譜系證據支持漢藏語系在新石器時代晚期起源于中國北方》為題的論文，揭示了世界第二大語系漢藏語系分化成現代語言的最早年代和地點，這是中國語言學的研究成果首次在《自然》發表，引發了廣泛的關注和討論。對此，《上海書評》采訪了論文團隊重要成員、復旦大學人文社會科學數據研究所東亞語言數據中心負責人潘悟云教授，請他介紹這一研究的相關情況。

《自然》官方網站頁面

《語言譜系證據支持漢藏語系在新石器時代晚期起源于中國北方》一文在《自然》發表之后，引起很多人好奇：為什么語言學這種“文科”的研究成果，能夠在頂級的理工科學術雜志發表？

潘悟云：我們這篇論文看上去是語言學研究，其實是人類學研究，關注人類早期語言的形成，特別是東亞語言當中漢藏語尤其是漢語的形成。

我們都知道，人類學分為好多種，既有你說到的“文科”——文化人類學，也有體質人類學、分子人類學。我所在的復旦研究團隊主要做的是分子人類學，關注的是基因的構成，這次研究成果發表之后，可能會進一步關注體質人類學，就是人的外貌、身高、膚色、發色，等等，這些實際上都屬于自然科學的范疇。

至于語言屬于什么學科范疇，其實很難說——它是跨類的，一頭伸進自然科學，如語音合成、語音識別，都是計算機學科在做；一頭伸進人文社科，涉及人的社會特性。正因如此，語言學就有很特殊的意義，它是溝通文科理科的橋梁。另外，它也的確是一個很值得研究的對象。人類一產生，就同語言掛鉤。我一直說，人類同動物的區別，就在于語言。以前都說區別在于人類會制造工具，現在發現很多動物不僅會利用工具，也會制造工具。而人類的語言和動物有本質不同。動物也有傳遞信息的工具，比如猿猴發出各種聲響、蜜蜂跳出各種舞蹈，它們用各種方式傳遞信息。人類語言具有模式二重性。動物用一種聲音來代表一種事物、一種現象，聲音和事物、現象是一對一的關系。人類語言則有雙層結構，語音先構成具有某種意義的語素，語素再與具體的事物、現象關聯。這樣，通過這種意義組合，可以表達大千世界的諸多概念。

我曾經猜想，人類產生之初，有各種的人，考古發掘已經發現了很多古人類，這些古人類與現代智人相比有許多優勢，例如尼安德特人的力氣比智人要大，但是前者在與后者的競爭之中逐漸消亡，最重要的原因就是語言。智人通過語言，能夠有效地交流、溝通，將發明創造保存和傳遞下去。有了語言，才有文字，才有文獻，進而才有文化和文明——所謂文化，本質就是一代代能傳下去的、大家形成的知識。所以，很多學者關心語言的起源問題。關心語言起源，就意味著關注人類的起源、文明的起源。這些問題，不管什么學科，都會共同關注。

既然如此，想請您簡單介紹一下，學者是如何針對語言起源問題展開研究的。

潘悟云：關于這個問題，最開始大家都是猜測，提出各種假說。有人說是游戲產生的，有人說是勞動產生的。以至于巴黎的語言學會一度禁止這方面的討論，因為過于主觀，與近代科學思潮不相符。好在隨著科學的發展，產生了現代語言學，也就有了許多科學方法來推測語言從何時起源、最初的形式如何。這里面尤其值得一提的，是十九世紀的歷史比較法。這種研究方法的基本思路，是對眾多現代語言的共同特征加以比較。學者猜測，現代語言的共同特征不是偶然產生的，而是來源于早期的共同語。這方面的代表性學者是威廉·瓊斯（William Jones），他在東印度公司工作時，看到梵文與拉丁文、古希臘文有相似之處，猜測它們一定有共同祖先。后來，有許多語言學家通過大量比較，參之于古代文獻，將古代的共同語構擬出來。這是很科學的做法。迄今為止，我們進行語言歷史研究的時候，歷史比較法還是最重要的一種方法。

但是，歷史比較法也有局限性，它只能解決語言的譜系問題。它根據不同的現代語言的同源詞多少，來推斷這些語言之間的親疏遠近關系，然后畫出譜系樹。這里面的道理很簡單：如果一群親屬語最早來自同一種語言，后來才分化，那么這些語言最初的詞匯肯定是相同的。分化以后，由于語言是不斷變化的，過去相同的詞匯不斷地流失。分化早的，流失的就多，分化晚的，流失的就少。所以，憑語言中同源詞的多少，大體上可以斷定語言分化的早晚。

但是這種方法解決不了分化的年代問題。例如，印歐語分化成十個語族，是什么時候開始的，斯拉夫語族分化為俄語、波蘭語、捷克語，是什么時候開始的？分化的地點問題也很難解決。例如，印歐語誕生地的確定，靠的還是這些語言所共有的生物，其中最重要的是山毛櫸與鮭魚，語言學家根據這些動植物的分布，把印歐語的起源地鎖定在維斯杜拉河與易北河之間的地域。地點確定以后，根據考古學的證據，這些地區在公元前3000年以前才出現印歐語中普遍出現的馬與羊。于是語言學家認為，印歐語在公元前4000年晚期開始在德國波羅的海沿岸使用。但是，這些方法都不是語言學本身的。

那么，這個問題是如何得到解決的呢？

潘悟云：一直到二十世紀，美國的斯瓦迪士（Morris Swadesh）提出一個新的方法——語言年代學，語言的發生年代才能夠得到確定。要理解這個方法，可以參照地質學用放射性物質碳14對年代的測定。活生物體內的碳14的含量是固定的，死了之后，體內碳14衰減的速度是恒定的。打個比方來說，如果考古隊從地下挖出一頭鹿，根據碳14的現存含量與衰減速率，就能算出這頭鹿的死亡時間。那么，語言學變化的速度，是不是也像碳14那樣，是恒定的呢？如果是的話，那么，根據兩種語言中現存同源詞的多少，就可以知道它們分化的時間。

斯瓦迪士給語言學找到的碳14，就是“核心詞”，或者“核心語義”。人類認知的共同性，決定了有些詞大家都會常說。比如太陽、月亮、身體部位名稱，還有人稱代詞、數詞，這些都是核心語義，而且變化比較慢，原因在于人的交際需要。比如，小孩今天晚上叫“媽媽”，明天上午叫“嬤嬤”，媽媽就聽不懂了，最核心的語義一定是變得比較慢的。斯瓦迪士經過統計，認為核心語義的變化速率也是恒定的，于是提出一個語言年代學的公式，利用這個公式，通過計算兩種親屬語言中現存的同源詞多少，來計算分化的年代。

但是，這種方法遭到了很多質疑。第一個原因是，語言的變化速度肯定是不一樣的。戰爭頻繁的地方，語言變化的速度就快，一打仗人死光了，其他地方的人遷移過來，語言就發生變化了。中國歷史上大的動亂，例如唐朝的安史之亂、黃巢起義，北宋的靖康之難，都導致了北方移民大量南下，一旦與當地人接觸，就會引起語言的借用。第二個原因是，詞匯的變化速度也不一樣，核心詞變得慢一點，文化詞就變得很快。甚至有些印歐歷史比較語言學認為很穩定的詞，實際上并不穩定，比如說人稱代詞。漢語里的第三人稱先秦還沒有，出現時已經很晚了。上海人喜歡說的“儂”最早是第一人稱，古吳語以“儂”或“阿儂”表示“我”，現代上海話“儂”則變成了第二人稱“你”。所以印歐語中一些最穩定的語義，在漢語中就不一定如此。

盡管如此，我們還是采用了斯瓦迪士的理論。不少中國學者，如孫宏開、黃布凡、鄭張尚芳等，都認識到斯瓦迪士的理論對東方語言不完全適用，進而提出了東亞語言的核心詞。但是我們認為，絕大部分核心詞全世界都是一樣的，如太陽、月亮，大家都常用，例外只是少數。中國學者提出的核心詞同斯瓦迪士相比，絕大部分也還是一樣的。

具體計算年代的方法，我們采用的是貝葉斯統計方法。我在網上看到了不少評論，很有意思。比如有一位學者，他看到我們用了貝葉斯統計方法，大約在網上檢索了一番，發現貝葉斯學派是“主觀概率學派”，就認定我們是在“主觀”臆測。實際上，主觀概率學派相對于頻率學派而言，是對概率論的一大發展，在無法通過重復試驗得出概率的情況下，根據有限的觀察提出一個主觀假設，通過大量的材料不斷作出修正，逐漸逼近事實。這更接近經驗科學的普遍做法。就算相對論也是一種假設，還在不斷接受經驗世界的檢驗。這個方法首先用在物種分化，后來語言學也采用了，并且產生較大的影響。

有了這種語言譜系樹，還可以用譜系地理學（phylogeography）的方法推斷分化的地理位置。譜系樹上最接近的語言，通常地理距離也比較接近。例如，上海與蘇州地理上比較接近，語言也比較接近。上海與廣州，距離比較遠，語言的關系也比較遠。當然，也會有不同的情況，武漢與昆明的距離比較遠，語言卻比較接近。但是大多數的情況下，語言的距離與地理的距離是相關的。同時，這種方法還假定，原始人從一個地方開始向四處分化的時候，他們的遷移是隨機性的。根據這些假設，我們算出原始漢藏語的發源地在四川一帶。但是，漢藏人向四處遷移并不是很隨機的，更多的是從北向南遷移。所以，漢藏人的發源地一定在四川以北，即陜甘寧一帶，就是仰韶與馬家窯文化的分布區域。

漢藏語系語言的分化與中國西北、西南地區的人口擴張相關

關于研究團隊的構成、不同成員的分工，能麻煩您介紹一下嗎？

金力團隊合照，左起：嚴實博士、金力院士、潘悟云教授、張夢翰博士

潘悟云：金力教授統領整個研究團隊。他一直關注人群的遺傳結構、人群的遷徙和自然選擇這些問題。斯坦福大學的卡瓦利·斯福扎（Cavalli-Sforza）是以分子人類學解構語言、從基因角度研究人類演化的鼻祖，金力教授做博士后研究就在斯福扎的實驗室。上世紀九十年代，金力教授采集了十萬例東亞人基因，研究之后得出結論：整個東亞地區的各個人種都是從非洲遷移過來的，一下子推翻了中國人由“北京猿人”演化而來的假說。

1996年，金力教授回國之后，在《文匯報》發表了一篇關于東亞人來自非洲的文章，我讀到之后，很振奮，因為他做的研究與我的研究是互相印證的。亞洲大陸的幾個語系，阿爾泰語系、漢藏語系、南亞語系和南島語系，傳統觀點認為，說這些語言的人種沒有什么發生學上的聯系，因而這些語系當然是毫無關聯的。比如，過去大家都認為，爪哇猿人和北京猿人是兩個人種，那么南島人和中國人作為他們的后裔，也應該說兩種不同的語言。但是后來我們發現，南島語系和漢語的一些核心詞很接近，這一點是法國語言學家沙加爾（Laurent Sagart）最早提出來的。舉兩個例子，女性生殖器涉及人類的繁衍，是很重要的詞，國內說的最多的發音就是pi，現在的南島語也說pi；女性的乳房涉及哺育后代，也是很重要的詞，上古漢語的發音是njo，南島語是nu。

漢語和南島語有這么多核心詞相似，過去一直讓我很困惑。讀到金力教授的文章以后，我就明白了，原來他們都是從同一祖先演化來的。后來金力教授很快就和我見面了。要探索文明起源，文獻、考古這些傳統手段都存在局限性，只有兩樣東西是既便宜又無處不在的：語言和基因。通過語言學和遺傳學方法，我們可以往上追溯，探討東亞人群、語言、文明的起源和演化。從此，我們就展開了合作。

論文第一作者張夢翰是我的碩士和博士，他本科就讀于上海師范大學數學系，曾在中美大學生建模競賽中獲獎，有很高的數學才能。博士生階段我讓他去金力教授處和中科院上海生物研究所旁聽，借著這些機會，他熟練掌握了生物和遺傳方面的各種數學模型。而且他對相關文獻很熟悉，最近幾年，《自然》《科學》和《美國科學院院報》上連續發了好幾篇用貝葉斯方法來研究語言起源，解釋印歐語、南島語分化的論文，這給了張夢翰很大啟發，他認為漢藏語也可以使用這個方法來研究，于是才有了這個題目。

嚴實是復旦生命科學院的博士后，他主要負責處理材料。我們這個研究，光有合適的方法還不夠，還需要大量的材料，樣本越多，統計越精確，當然，工作量相應地也就大了。我們用了美國著名漢藏語專家馬提索夫（James A. Matisoff）教授的STEDT數據庫。馬提索夫用了三十年的時間建設這個數據庫，收錄了全世界漢藏語研究者認定的同源詞，共有六百種語言。我們這篇論文選取了斯瓦迪士前一百個核心語義中的九十八個，從馬提索夫的STEDT數據庫中選取了一百零九種語言。不算前期的材料處理，光是最后的運算，在四核八線程的電腦上就連續運行了四天，工作量的確很大。

事實上，我們本來打算和國際學者展開合作的。首先聯系的就是馬提索夫，經得他的同意之后，使用了他的數據庫。

對這一百零九種漢藏語材料的處理，最后呈現出的成果是一棵譜系樹，這是怎么畫出來的？

漢藏語系中一百零九種語言的譜系樹

潘悟云：譜系樹是根據同源詞畫的，但是要辨認同源詞是一件很麻煩的事情。例如，太陽這個詞，漢語最早是“日”，上古音讀njit，藏語的太陽是nima，ma是后綴，ni是詞根。上古漢語的nit與藏語的ni，一眼就能看出它們之間的同源關系。這是比較容易辨認的同源詞。但是有的同源詞就很難辨認，比如數字“七”，漢語讀t?hi，羌族讀?in，景頗語讀?anit，彝語讀s?，這幾種語言之間的同源關系就需要我們深入、系統地加以比較，才能得出正確結論。如果僅憑看上去是否相似，來斷定不同語言之間是否存在同源關系，這顯然是不行的。

畫譜系樹采用的貝葉斯統計方法，不單是對計算年代有其長處，對畫譜系樹也有其特殊的長處。關于同源詞的比較，傳統的歷史比較方法只考慮數量，打個比方，語言A和B有二十個同源詞，A和C有十個，二十個比十個多，可見A和B更有親緣關系。但是詞與詞的重要性是不一樣的，比如身體部位名稱就比人稱代詞重要，馬提索夫曾說過，身體部位名稱是核心詞中的核心詞。這很對，因為人類認識世界總是從認識自己開始。因此，身體部位名稱變化的速度比人稱代詞要慢。貝葉斯方法把語言變化速度納入考量，給每一個同源詞加權，速度變化快的，次要一點，變化慢的，重要一點。所以，我們現在是計算加權以后的同源詞。這樣畫出來的譜系樹，會更精確一些。

這次的研究成果對語言學有什么樣的意義和價值？能請您談談嗎？

潘悟云：首先是對有關漢藏語系起源假說的證實。主要就是兩種假說，主流意見是“北方說”，認為黃河中上游——也就是陜西甘肅寧夏一帶——是漢藏語系的起源地，馬提索夫，國內的許多學者都持這種觀點；另外一種“南方說”，以歐洲的范德利姆（George van Driem）教授為代表，認為漢藏語系的起源地是中國西南到印度東北這一帶地區。這兩大派針鋒相對，其實都還是用傳統的歷史比較做出的猜想，誰都不能解決時間和地點的互動問題。我們的文章支持了“北方說”。

這次的研究成果，更有利于歷史語言學的發展。最早的語言是怎么樣的？年代一久，誰都說不清楚。現在的學者就像盲人摸象一樣，有些人摸到鼻子，有些人摸到耳朵，有些人摸到尾巴，其實把各個方面的研究拼起來，才能還原古代語言的面貌。前面說過，我們目前采用的貝葉斯方法，能夠解決年代跟地點的問題，這兩點恰巧是歷史比較法的軟肋。但是貝葉斯方法不能解決語音構擬問題，例如中古、上古漢語和原始藏語的讀音怎么樣，這是歷史比較法的強項。

把原始語言每一個階段怎么發音弄清楚，這有什么意義呢？它不只是解決古人怎么說話的問題，最終會使得整個歷史語言學的面貌煥然一新。十九世紀，整個歐洲的語言學家都投身歷史語言學研究，到了二十世紀初，研究者漸漸減少。其中很大一個原因，就是傳統的歷史比較法存在一個很大的缺陷——不確定性，這與現代科學思潮是相抵觸的。歷史比較法無法做到定量化、形式化，因而逐漸退出語言學家的視野。大概是從上世紀六七十年代開始，美國的一些語言學家開始用新的方法去做歷史語言學研究。最核心的內容是音變。這更符合現代科學的思路：人的語音為什么會變化？

人的語音變化，最重要的受制于兩個因素：一個是發音器官，一個是聽覺器官。這兩種器官，古今中外是一樣的，所以由這兩個器官引起的音變現象，古今中外也是一樣的。于是，音變規律就有其普適性，就可以把演繹、推理的方法引入歷史語音研究。

現在大家都在研究，全世界的語言到底有哪些音變規律？其中最重要的就是自然音變（nature process），它是漸變的，而且可以從發音、感知上加以解釋。如果我們通過歷史語言學研究，把這些音變規律一條條研究出來，將來的歷史語言學就是另外一種面貌。確定了漢語與藏語、緬甸語是同一個祖先，即從同一種語言變化而來，就可以通過歷史比較，把這些語音的演變規則找出來。

另外，這次研究還有一個重大意義，有利于我們回答一個問題：中華五千年文明的根據是什么？甲骨文記載也只有三千多年。而我們通過研究漢藏語的起源、漢語和藏緬語的分化時間，可以確定漢語有五千九百年的歷史。這與中華文明探源工程定下來的五千八百年是相當接近的。中華文明探源工程的依據是考古，我們的依據是語言比較，大家從各自獨立的研究，得出了接近的結論。

這個研究還要繼續推進。漢語和藏緬語分化以后，漢語如何走向東南演化為各種漢語方言？藏緬語往西南怎么演化為藏語支和彝緬語支？彝緬語支又怎么分化為緬甸語和彝語？發生在什么時候，什么地點？整個中國版圖上這么多民族的來源和演變，都要弄清楚。

您覺得這次研究當中體現出來的這種跨學科研究方法，對我們來說有什么啟發？

潘悟云：現在的語言學研究，有幾個學科要合在一起做。

一個是古文字研究。我是做上古音研究的，最近幾年我才意識到，古文字研究、考古發掘，對上古音研究的意義有多大。去年5月份北大文研論壇請我去做了一次講座，那次以后我就認識了好多年輕的古文字學家。后來又到香港去開了一次會，又認識了一批古文字學家。我覺得很欣慰，這批年輕的古文字學家可了不得，不僅懂古文字，而且懂上古音。

一個是前面提到的分子人類學。復旦有金力教授和他的科研團隊，將來肯定會形成一個古代人類學、古代語言學研究的國際學術中心。

另一個是民族語研究。我現在很關注民族語的搜集和整理。我帶領的團隊經常去少數民族地區進行語言調查，這些搜集到的語言樣本，是很寶貴的進行歷史語言比較的資料。

責任編輯：沈關哲

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報