嘿!你說話有股鄉味嗎?

首圖來源:ettoday

網路溫度計在2014年的時候推出了年度「鄉民十大行規」,還記得暗諷他人智商低的極品問句「為什麼要放棄治療?」、誇飾法的極致「俺有30公分」嗎?又或是最符合鄉民輕鬆的特質,造就源源不絕創意來源的「認真就輸了」,到近期選舉所帶動之「阿嬷之亂」、「黃爆」、「綠爆」,社會新聞事件形成的「布丁之亂」等等,鄉民文化持續擴展並更加水無痕的入侵了我們的日常生活,甚至成為主流新聞媒體標題。但有趣的是,很多時候我們並不了解這些用語的意義,甚至從沒看過,但一出現,我們便可以立刻判斷其為鄉民用語,到底原因是什麼呢?莫非‧‧‧‧‧‧

鄉民有一種鄉味!?

是的,哈密瓜有哈味,鄉民講話也有鄉味。

就語言學的角度來說,這些神之第六感鄉民偵測並非無跡可尋,也就是說,確實可以從語言的使用特性來辨識出不同族群的語言使用習慣。以下列舉出一些我們觀察到的鄉味特質。

  • 鄉民選用的詞彙和一般用語不同,因此每個詞彙出現的頻率也會不同。
  • 鄉民回文的情緒不論是贊同或是反對,相較於其他平台來得猛烈許多。
  • 回文酸度可謂成為高等鄉民的指標,越是隱晦的酸越能夠得到推崇。
  • 鄉民用語較其他平台簡短,常會有省略句子結構的某部份。簡單舉例,一般大眾對完整句子的概念是具備主詞動詞受詞,如:「我喜歡你」; 而鄉民用語可能礙於篇幅的關係,亦或是希望創造無邊無際的遐想空間,常有意無意的缺少元素,如缺少主詞受詞:「喜歡你」、「我喜歡」甚或是更曖昧的動詞挖空「我_你」。
  • 特殊用語的使用機率較高,包括火星文、台語直翻、取諧音、括號動作,如「美賣」、「CD」、「蝦毀」、「~(茶/菸)」、「歡迎光臨my縫」等等。

我們以批踢踢為鄉民語言的活動場域,建立了台灣第一個適用於語言分析的批踢踢語料庫

http://lopen.linguistics.ntu.edu.tw/PTT

並試圖標記(annotate)出鄉民用語的特色,以訓練機器學習系統可以讀出文本的鄉味來。

以酸度標記和情緒標記為例:酸度標記分成三維度,零酸酸、 小酸酸及硫酸。其中嗆和酸較難掌握,在標記中需特別留意,在過程中發現有趣的現象如「阿不就好棒棒」會被歸類在「嗆」,但「阿不就好棒棒~~~」則會被歸類在酸。硫酸等級的範例更是不計其數,但從中可以歸納出一個模式,就是文字愈正面,酸度愈高:「用黨產買單真好!」、「棒棒喔,臺灣錢淹腳目啊。」、「薪資漲,房價終於有理由漲了!!!讚讚讚好的循環!」,或是自導自演類:「啊,我忘了,要他們了解大概比緣木求魚更不可能吧」。

投影片1

情緒標記則總共分成五個維度。和先前研究較不同的做法是,我們不依照一貫情緒標記正負極(positive/negative polarity),而是根據情緒強弱(不論正向負向)做標記。維度 1 為有情緒,但情緒較不強烈,如問句「所以誰是甘道夫誰是佛羅多?」; 維度 2 主要表達期待、期許:「希望小英上台好好處理這塊」,或是台詞模仿:「my precious」; 中間情緒如第二人稱開頭、命令句、生理描述加上負面諧音:「你也要戒除空心菜的壞毛病」、「朱立倫長得很像屎麥戈」; 維度 4 則是像是嗆、小酸酸、單詞:「喔」、或是加上標點符號及表情符號輔助「咕嚕會生氣!XD」; 而強度最強烈的 5 級則包括問候人家家人、頻率詞的使用、硫酸、及反詰語氣:「魔戒阿魔戒,請問誰是世界上最不要臉的人呢?」

投影片2

或許看到這,會有讀者質疑自己的語感和結果不盡相同,這相當正常,且正是人工標記的美麗之處,也就是說,我們理解一句話的方式,本會因為在不同的時空脈絡出現和自身成長經驗有所不同。例如今天和男友走在路上,女友說:「好想喝咖啡喔」,可能指的是去幫我買咖啡或是想要男友帶她去咖啡廳,表示期待,情緒為 2,但換個背景到課堂教室,學生A:「好想喝咖啡喔」可能暗指老師上課無趣到快讓他睡著了,則可能嗆的意味高,情緒維度即會被歸類為 4。同理,單看上述例子「所以誰是甘道夫誰是佛羅多?」可能認為說者指涉的對象為演員,但若在政治脈絡底下詢問,角色和情緒也因而有不同。有許多方法可以減少差異性,如重複標記、維度增加等等,但都不如標記者間充分的協調溝通實在。由於解決辦法非本篇之主題便不在此文贅述。

此外,標記過程中發現的有趣現象不只如此。

投影片3

例如在鄉文中除了表情符號的意義豐富,標點符號增減也會達成不同的語用效果,例如

1.去除驚嘆號,後者更有心狠手辣的感覺:

       「加倍奉還!!!!!」vs. 「加倍奉還」

2.去除句號,前者更有了卻他人的決心:

     「高。下。立。判。」vs. 「高下立判」

       「這次絕對要去投票讓毒瘤一刀斃命。」vs. 「這次絕對要去投票讓毒瘤一刀斃命」

另外,po 文的長短也反應了語言的力量。有些時候長篇大論效果不如單詞,常見發文者打了落落長一篇,回文僅「喔」或是「好」,瞬時冷風颼過,試圖讓發文者看起來像自嗨 ; 但也發現不是單詞都會有一樣效果,負面的「喔」就遠比正面的「推」情緒多。

研究結論其實相當符合假設。利用簡單的決策樹分類器測試,發現的確,ptt用語的選詞和其他社交媒體不同、情緒較強烈、酸度較強、句子結構簡單且特殊用語的使用頻率高。若是各位回文具備上述的特性,可能就會不小心散發出「鄉味」唷!(笑)

妳/你想試試嗎?來玩玩看我們的線上鄉民診斷系統

http://lopen.linguistics.ntu.edu.tw:8000/xianmin/

final

作者:黃資勻、謝舒凱

文章內容屬作者個人觀點,不代表本站立場

台大語言所蘿蔔實驗室

一 位年輕時的憤青,化身於台大語言所的阿伯,熱情推動開放語料計畫,思考與實踐語言學和社會之間的連結。建立了計算語言學與人文計算實驗室(LOPE)之 後,研究整合了語言學、認知科學與資料科學。目前研究之餘主攻文本分析與知識挖掘。一個蘿蔔一個坑,有興趣的人都歡迎來跳入填坑。