這個用詞!這種說法!原來真正透露妳的年紀的是‧‧‧‧‧‧

首圖來源:ytimg

想像一下,當老爸在吃年夜飯的時候,蹦出了以下的話語:

「你兒子魯了那麼久,都成年滷味了,什麼時候閃光get啊?」

在這個當下除了晚輩們,跟老爸同年齡層的長輩應該都需要翻譯蒟蒻的支援了!類似的情境真實經常發生在網友分享的 Dcard 文章中,文內的爸爸因為用語時髦,引起廣大網友迴響,而有「狂爸」的封號。為什麼面對這樣的景況我們會邊噴笑邊覺得老爸太潮了呢?這就是年齡和用語交互作用造成的「反差萌」!

新的詞彙與意義在每一年都不停的萌生。網路溫度計也曾報導過有關於鄉民用詞以及大陸網民新詞入侵的現象。根據我們處理過的Google Books Ngram Corpus的語料 (收錄1500年以來出版的書籍,約8,535,128字) 所製作出的圖表可以發現,綜觀動詞、名詞、形容詞、副詞四種詞類,累積產出的詞彙,以名詞最多。從語意學 (Semantics) 與社會語言學 (Sociolinguistics) 的角度而言,或許主要是因為名詞所指涉的人事物更需要與時俱進,因此在替代與產出需求更大:

詞類-01

雖然千百年來累積的詞彙量這麼多,但其中有多少語言用法會一代代流傳下去,漸漸大家習以為常地用於日常生活中呢?

假如穿越到二十多年前‧‧‧‧‧‧你,夠不夠潮呢?ˋvˊ
先來做個即時問卷測看看吧!

你是否發現才短短二、三十年,曾經耳熟能詳的新詞早已退流行,現在來用的話,不是無法溝通,就是顯得格外地「LKK」。面對不同時期,比雨後春筍還要迅速冒出的詞彙,辭典到底要收錄哪些詞?華語學習者又該著重在哪些比較當代詞彙的學習?是否能有一個基於大數據分析的汰選機制可以自動篩選預測哪些詞彙 「活」到下一代的可能性呢?(謎:有的話我們再收到辭典裡咩!~)

為了訓練機器預測模型,我們先從質性與量化的角度觀察了三類詞彙,試圖從中找出 「短命詞」跟「千年老妖詞」之間決定性的差別。這三類詞彙依據「活過的歲月」(淚)分別是:

  • 千年老妖詞 如:「上」、「去」、「有」等
  • 中生代詞 如:「抓包」、「認同」、「違規」等
  • 近代新生詞 如:「ㄎㄎ」、「列退」、「低調」等

我們針對 2000 年以來批踢踢上二十個常用與熱門板,涵蓋遊戲、男女話題、情緒、經濟與不同地域主題,抽取了包含貼文與回文超過一億筆字詞的語料來了解這三類詞詞頻波動趨勢。以下三組圖表可以發現整體使用頻率多寡的排序:

千年老妖詞 > 近代新生詞 > 中生代詞

圖一:「千年老妖詞」

歷經時間的汰選而存留下來,自然中流砥柱,普遍地被使用著。

詞類-02

 

圖二:「近代新生詞」

藉由擬聲、複合詞、譬喻、轉品等各種語言手段「誕生」於語言使用中,並同時透過這些手段擴增其使用範圍與指涉,依仗著新鮮感所以活跳跳地被使用著。

詞類-03

 

圖三:「中生代詞」

那些曾經也是一時之選的,曾有著如同「近代新生詞」的新鮮感,曾都是活力充沛如日中天的新詞,可是走入現代,每個詞使用活度卻大不相同。有些詞已日漸淡出,如:「飆舞」、「酷哥」、「土網友」、「單身公害」等。更有許多音譯詞 (以中文翻譯閩語、日語等) 因其選字而影響在網路中使用頻率,如:「閉淑」、 「趴帶」、「篤爛」等等。

詞類-04

揪竟~哪些因素掌控著詞彙生生死死,有著什麼特性的詞彙能在時間浪淘中,依 然永流傳呢?我們透過三類詞彙比較以及線性回歸模型統計(Multiple Linear Regression Model) 分析了語音(phonology)、構詞(morphology)、語意(semantics)、 語法(syntax)、語用(pragmatics)、社會語言學(sociolinguistics) 6 個層次,共 21 個因素在一億筆字詞的語料中的表現數據,得到 8 個統計上顯著的解釋因素。其中 2 個有趣的求生與長生關鍵因素為:

1. 初出茅廬者致勝關鍵:前後搭配字詞的多元性

「中生代詞」如 1950 年左右被收錄於教育部辭典中的詞彙,曾經都是當時活力充沛的新詞,可是走過一甲子,許多詞彙早已不復存於社會記憶之中。詞彙是否能夠在將近七十年後的今天仍然為日常所用,在於該詞在使用中,是否能夠在前後文脈中與許多不同的字詞搭配使用,這項特徵在機器學習訓練中可以有不錯的預測能力。前後搭配字詞的多元性,如果從擬人的觀點來看,能夠與不同詞彙搭配的詞彙,就像是一個「與人為善」的好趴呢,與詞彙間的各種連結,讓新生詞更容易落地生根。因此,「與人為善」、「廣結善緣」也是詞彙長壽的入門秘訣呢!

2. 百年字詞的長生之道:字詞經驗概念關係與相關概念詞數

除了上面提到的前後文脈,每個字其實都蘊藏著許多經驗概念的層層堆累。這些經驗概念並不是在詞彙初生時就存在,而是隨著語言的使用漸漸的建立自己的詞彙概念網路。以新生詞而言,當說到「閃光」可能有的相關經驗概念包含「閃光會閃人。」、「宅宅痛恨閃光。」、「想要有閃光應該要把妹。」。我們可以進一步將這些經驗提取出「能力」、「情緒」與「因果」三種概念關係:

  • 閃光會閃人。」→「能力」關係
  • 「宅宅痛恨閃光。」→「情緒」關係
  • 「想要有閃光應該要把妹。」→「因果」關係

詞類-06

以存活久久普遍被使用的「打」這個動詞而言,可提取到其他更多元的關係。其中三種如「能力」、「因果」與「事件層次」。

  • 會讓你痛。」→「能力」關係
  • 「別人白目。會讓你想要。」→「因果」關係
  • 「揮棒的時候,首先要。」→「事件層次」關係

詞類-05

透過統計分析與麻省理工媒體實驗室(MIT Media Lab)開發的概念網 (ConceptNet)資料庫中相關概念詞彙以及相連的概念關係,我們發現詞彙的概念連結數量越多,以及概念關係種類的多元,與是否能持續在語言中穩定鞏固地使用有密切的關係。

看到這裡,妳是否也發現容顏可以粉飾,但不經意地透露妳年齡的其實是妳的一言一語呢?而不久的將來,會不會開始有「語言凍齡師」的市場呢?

 

作者:王伯雅、謝舒凱

文章內容屬作者個人觀點,不代表本站立場

台大語言所蘿蔔實驗室

一 位年輕時的憤青,化身於台大語言所的阿伯,熱情推動開放語料計畫,思考與實踐語言學和社會之間的連結。建立了計算語言學與人文計算實驗室(LOPE)之 後,研究整合了語言學、認知科學與資料科學。目前研究之餘主攻文本分析與知識挖掘。一個蘿蔔一個坑,有興趣的人都歡迎來跳入填坑。