比賽地址:https://data.sklccc.com/2022
開源地址:https://aistudio.baidu***.com/aistudio/projectdetail/5563450
賽題介紹
文本生成是自然語言處理中一個(ge) 重要的研究領域,具有廣闊的應用前景。隨著深度學習(xi) 和大規模預訓練模型能力的提升,文本生成任務在社交媒體(ti) 領域,特別是以文字為(wei) 主要輸出形式的媒體(ti) 上,有了更大落地應用的可能性。
此任務提供微博對話數據集,每條數據主要包含微博文本內(nei) 容,以及微博對應的回複。參賽選手需要根據給定的數據集,訓練一個(ge) 文本生成模型,可以生成自然流暢、信息豐(feng) 富,符合話題場景的回複內(nei) 容。
此任務的評估機製分為(wei) 客觀評估、主觀評估兩(liang) 個(ge) 階段,客觀評估階段(11月29日-12月18日)的前10名參賽隊伍提交模型及代碼文件,由評委在新話題下生成評估數據,進行主觀評估,得出最終排名。
數據說明
-
訓練集:train.csv, 共有三個(ge) 字段,每個(ge) 字段以t劃分.
- text,微博文本正文
- comment,回複文本內容
- weibo_id,微博文本對應的id
-
測試集:test_A.csv和test_B.csv 共有兩(liang) 個(ge) 字段,每個(ge) 字段以t劃分。測試集有兩(liang) 個(ge) ,分別用於(yu) 客觀測試和主觀測試。
-
weibo_id,微博ID
-
text,微博文本正文
評估方式
評估機製分為(wei) 客觀評估、主觀評估兩(liang) 個(ge) 階段。其中客觀評估階段在測試集A上針對客觀指標進行自動評估,客觀評估表現優(you) 秀者進入主觀評估階段。主觀評估階段需要參賽隊伍提交模型文件及代碼文件,評審人員基於(yu) 參賽隊伍的模型在測試集B上生成提交文件並進行主觀評估。
在主觀評估階段,參賽隊伍需要基於(yu) anaconda環境進行開發,遵循特定輸入輸出數據格式規範,提供anaconda中依賴環境、相關(guan) 模型以及代碼,以便評審人員能夠評估模型能力。
自動評估階段的得分為(wei) :
其中BLEU表示預測回複與(yu) 標準回複的字粒度值;DISTINCT是對話內(nei) 容多樣性的自動指標。(其計算方式:對於(yu) 一個(ge) weibo_id的多個(ge) 生成評論內(nei) 容求多樣性,然後求所有weibo_id對應的多樣性的平均)。
BertScoreFlrelation值用來評估生成的文本與(yu) 博文的相關(guan) 性,以及BertScoreF1similarity生成文本與(yu) 真實評論的相似度 (針對每一條生成的評論,將該評論與(yu) 所有真實評論求相似度,然後取最高分作為(wei) 該條評論的相似度得分。最終將相似性得分求平均)。
數據讀取
import paddlenlp
paddlenlp.__version__
'2.4.2'
!unzip data/data193239/dialogue_generation_01.zip
Archive: data/data193239/dialogue_generation_01.zip
inflating: 數據說明.docx
inflating: test_A.csv
inflating: train_data.csv
import pandas as pd
train_data = pd.read_csv('train_data.csv', sep='t')
test_data = pd.read_csv('test_A.csv', sep='t')
train_data.sample(2)
text | comment | weibo_id | |
---|---|---|---|
256406 | 【餘(yu) 生可有知音?#被譚維維這段墨梅戳中了#】“不要人誇顏色好,隻留清氣滿乾坤。”元代畫家王冕... | 譚維維譚維維 | 25289 |
217200 | 【轉發周知!#流星雨和滿月同時出現#】據北京天文館,英仙座流星雨將在明天淩晨達到極大,預計這... | 問下湖北的看得見嗎,要往哪個(ge) 方向看呢? | 24908 |
test_data.sample(2)
weibo_id | text | |
---|---|---|
6086 | 24881 | 【#佩洛西評價(jia) 自己臉皮厚# 網友:你還知道?】近日,美國國會(hui) 眾(zhong) 議長佩洛西不顧中方嚴(yan) 正交涉,明... |
7125 | 25163 | 【專(zhuan) 家:#種植牙集采要擠出虛高的價(jia) 格水分#】國家醫保局近日公布征求意見稿,明確要做好種植牙全... |
數據分析
train_data['text'].nunique(), train_data['comment'].nunique()
(6816, 266706)
test_data['text'].nunique()
1690
train_data['text'].apply(len).describe()
count 285891.000000
mean 203.050110
std 156.178596
min 4.000000
25% 137.000000
50% 165.000000
75% 224.000000
max 3266.000000
Name: text, dtype: float64
train_data['comment'].apply(len).describe()
count 285891.000000
mean 19.030508
std 18.287211
min 6.000000
25% 9.000000
50% 13.000000
75% 22.000000
max 265.000000
Name: comment, dtype: float64
賽題思路
賽題是一個(ge) 典型的文本對話任務,但由於(yu) 數據集是通過微博內(nei) 容和評論進行組織,且一條微博存在多條評論。與(yu) 現有的文本對話、文本摘要任務相比,賽題任務其實比較特殊:
- 賽題數據並不包含絕對很好的文本訓練樣本
- 賽題數據中存在大量的文本噪音,特別是短評論數據
- 賽題數據中評論存在大量重複的情況
思路1:開放域對話
十億(yi) 級語料訓練最強中文閑聊模型PLATO-Mini,支持多輪對話
- 輸入:微博內容
- 輸出:微博評論
from paddlenlp import Taskflow
dialogue = Taskflow("dialogue")
print(dialogue(["你好"]))
[2023-02-24 12:43:30,294] [ INFO] - Already cached /home/aistudio/.paddlenlp/models/plato-mini/plato-mini-vocab.txt [2023-02-24 12:43:30,297] [ INFO] - Already cached /home/aistudio/.paddlenlp/models/plato-mini/plato-mini-spm.model [2023-02-24 12:43:30,355] [ INFO] - tokenizer config file saved in /home/aistudio/.paddlenlp/models/plato-mini/tokenizer_config.json [2023-02-24 12:43:30,358] [ INFO] - Special tokens file saved in /home/aistudio/.paddlenlp/models/plato-mini/special_tokens_map.json
['你好,你在幹什麽(me) 呢?']
input_str = train_data['text'].iloc[0] print(input_str) print(dialogue([input_str]))
【#張帥首進辛辛那提網球公開賽16強#】中國球員張帥17日在女子網球協會(hui) 辛辛那提公開賽第二輪比賽中,以6:3和6:4擊敗俄羅斯球員亞(ya) 曆山德洛娃,職業(ye) 生涯首次打進該賽事16強。接下來,中國“金花”將麵對2號種子、愛沙尼亞(ya) 球員康塔維特,爭(zheng) 奪一張四分之一決(jue) 賽門票。
['張帥的比賽獎金是不是很高?']
思路2:問題生成
使用最大中文開源CPM模型完成問答
- 輸入:微博內容 + 微博關鍵詞
- 輸出:關鍵詞相關問題
from jieba import analyse input_str = train_data['text'].iloc[0]
print(input_str)
print(analyse.extract_tags(input_str))
【#張帥首進辛辛那提網球公開賽16強#】中國球員張帥17日在女子網球協會(hui) 辛辛那提公開賽第二輪比賽中,以6:3和6:4擊敗俄羅斯球員亞(ya) 曆山德洛娃,職業(ye) 生涯首次打進該賽事16強。接下來,中國“金花”將麵對2號種子、愛沙尼亞(ya) 球員康塔維特,爭(zheng) 奪一張四分之一決(jue) 賽門票。 ['球員', '16', '辛辛那提', '公開賽', '張帥', '網球', '亞(ya) 曆山德', '首進', '17', '洛娃', '康塔', '維特', '職業(ye) 生涯', '愛沙尼亞(ya) ', '打進', '金花', '決(jue) 賽', '賽事', '第二輪', '四分之一']
question_generation = Taskflow("question_generation")
input_str = train_data['text'].sample(1).values[0]
print(input_str)
print(question_generation([{"context": input_str, "answer": analyse.extract_tags(input_str)[0]}]))
print(question_generation([{"context": input_str, "answer": analyse.extract_tags(input_str)[1]}]))
print(question_generation([{"context": input_str, "answer": analyse.extract_tags(input_str)[2]}]))
[2023-02-24 13:01:32,372] [ INFO] - Already cached /home/aistudio/.paddlenlp/models/unimo-text-1.0-dureader_qg/unimo-text-1.0-vocab.txt [2023-02-24 13:01:32,390] [ INFO] - tokenizer config file saved in /home/aistudio/.paddlenlp/models/unimo-text-1.0-dureader_qg/tokenizer_config.json [2023-02-24 13:01:32,393] [ INFO] - Special tokens file saved in /home/aistudio/.paddlenlp/models/unimo-text-1.0-dureader_qg/special_tokens_map.json [2023-02-24 13:01:32,396] [ INFO] - Already cached /home/aistudio/.paddlenlp/models/unimo-text-1.0-dureader_qg/unimo-text-1.0-dureader_qg.pdparams
【轉存學起來!#張雨霏教你一根彈力帶練全身#】久坐少動,腰酸背痛,健身房太遠,啞鈴又太沉?奧運冠軍(jun) @o張雨霏o 教你8個(ge) 動作,改善圓肩駝背,鍛煉手臂背部肌肉,強化臀腿肌群↓↓簡單實用,別光收藏不練哦~#冠軍(jun) 私教課# 央視新聞的微博視頻
['健身的私教是誰']
['一根彈力帶可以練多少肌肉']
['久坐背痛練什麽(me) 動作']
思路3: 文本摘要
文本摘要大模型
- 輸入:微博內容
- 輸出:摘要內容
text_summarization = Taskflow("text_summarization") print(text_summarization(["中國球員張帥17日在女子網球協會(hui) 辛辛那提公開賽第二輪比賽中,以6:3和6:4擊敗俄羅斯球員亞(ya) 曆山德洛娃,職業(ye) 生涯首次打進該賽事16強。"]))
[2023-02-24 13:03:20,605] [ INFO] - Found /home/aistudio/.paddlenlp/models/IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese/tokenizer_config.json
[2023-02-24 13:03:20,610] [ INFO] - We are using <class 'paddlenlp.transformers.pegasus.tokenizer.PegasusChineseTokenizer'> to load 'IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese'.
[2023-02-24 13:03:20,612] [ INFO] - Already cached /home/aistudio/.paddlenlp/models/IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese/vocab.txt
[2023-02-24 13:03:20,615] [ INFO] - Already cached /home/aistudio/.paddlenlp/models/IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese/added_tokens.json
[2023-02-24 13:03:20,617] [ INFO] - Already cached /home/aistudio/.paddlenlp/models/IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese/special_tokens_map.json
[2023-02-24 13:03:20,618] [ INFO] - Already cached /home/aistudio/.paddlenlp/models/IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese/tokenizer_config.json
[2023-02-24 13:03:20,671] [ INFO] - Found /home/aistudio/.paddlenlp/models/IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese/model_config.json
[2023-02-24 13:03:20,675] [ INFO] - We are using <class 'paddlenlp.transformers.pegasus.modeling.PegasusForConditionalGeneration'> to load 'IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese'.
[2023-02-24 13:03:20,677] [ INFO] - Already cached /home/aistudio/.paddlenlp/models/IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese/model_state.pdparams
[2023-02-24 13:03:20,679] [ INFO] - Already cached /home/aistudio/.paddlenlp/models/IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese/model_config.json
We use pattern recognition to recognize the Tokenizer class.
['張帥職業(ye) 生涯首進辛辛辛那提公開賽16強']
input_str = train_data['text'].sample(1).values[0] print(input_str) print(text_summarization([input_str]))
#我們(men) 要正告美方不要一條道走到黑#【馬朝旭:美方要老老實實回到一個(ge) 中國原則和中美三個(ge) 聯合公報上來 為(wei) 中美關(guan) 係穩定發展多做正事、實事】8月9日,外交部副部長馬朝旭接受總台央視和中國國際電視台(CGTN)采訪,就佩洛西竄訪台灣答記者問。馬朝旭表示,事實一再證明,美國是台海和平的最大破壞者,是地區穩定的最大麻煩製造者。如果國際社會(hui) 任由美國胡作非為(wei) ,《聯合國憲章》將成為(wei) 一紙空文,叢(cong) 林法則將大行其道,受害的將是廣大發展中國家。中國人民不信邪、不怕鬼,捍衛核心利益堅定不移。我們(men) 要正告美方,不要輕舉(ju) 妄動,不要一條道走到黑,趁早打消“以台製華”的念頭,老老實實回到一個(ge) 中國原則和中美三個(ge) 聯合公報上來,為(wei) 中美關(guan) 係穩定發展多做正事、實事。(總台央視記者 趙晶)央視新聞的微博視頻
['馬朝旭:美方要老老實實回到一個(ge) 中國原則和中美三個(ge) 聯合公報上來為(wei) 中美關(guan) 係穩定發展多做正事、實事']
方案演示
for weibo_text in weibo_text_comment.index[:10]:
print('【微博原文】:', weibo_text)
print('【微博評論】:', set(weibo_text_comment.loc[weibo_text][:10]))
print('「對話模型」:', dialogue([weibo_text])[0])
print('「問題生成」:', question_generation([{"context": weibo_text, "answer": analyse.extract_tags(weibo_text)[0]}])[0])
print('「文本摘要」', text_summarization([weibo_text])[0])
print('')
【微博原文】: #00後已成醫美消費主力軍(jun) #【#如何看待暑假青少年整容熱#背後,誰在販賣“容貌焦慮”?】據了解,許多青少年都麵臨(lin) 著不同程度的“容貌焦慮”。有調查顯示,如今每到寒暑假、畢業(ye) 季,都會(hui) 出現學生紮堆整容的現象,“00後”們(men) 已成為(wei) 醫美消費的主力軍(jun) 。近日,記者嚐試在多個(ge) 社交、短視頻App上搜索發現,“暑假整容”“暑假變美”“暑假變瘦”等,都是近一個(ge) 月的熱門話題。(法治日報)央視新聞的微博視頻 【微博評論】: {'但是實話實說,當代社會(hui) ,顏值紅利真的太多了。長得好看的人就是有優(you) 勢。', '咱口袋沒錢的隻能多開開美顏', '成龍都開雙眼皮呢,看臉時代', '社會(hui) 審美導致的', '從(cong) 來沒喜歡過網紅錐子臉,前女友都是圓臉微胖', '00後都已經二十多歲了別什麽(me) 都扯上00後啊', '過去還講究女大十八變,現在倒好直接拔苗助長', '對拉個(ge) 雙眼沒什麽(me) 意見,但是要磨骨啥的我真的不行', '臉上動刀還是要慎重', '多宣傳(chuan) 點正能量吧'} 「對話模型」: 蟄,我想問,你有過這個(ge) 節目的記者嗎? 「問題生成」: 2017什麽(me) 時候整容 「文本摘要」 00後已成醫美消費主力軍(jun)
【微博原文】: #1.2元進價(jia) 土豆賣2元擬罰30萬(wan) #【1.2元進的土豆賣2元!黑龍江大慶擬對經營者罰30萬(wan) 】8月20日,市市場監督管理局執法人員在檢查中發現,農(nong) 批城內(nei) 王三土豆經營部存在哄抬物價(jia) 違法行為(wei) 。經查,該經營部進價(jia) 1.2元/斤的土豆,售價(jia) 從(cong) 1.4元/斤漲至2元/斤,最高進銷差價(jia) 率達66.66%。執法人員認為(wei) ,王三土豆經營部利用其經營規模優(you) 勢,借疫情哄抬物價(jia) ,嚴(yan) 重擾亂(luan) 市場經營秩序,情節惡劣,根據《中華人民共和國價(jia) 格法》和《價(jia) 格違法行為(wei) 行政處罰規定》,擬對經營者的違法行為(wei) 處以30萬(wan) 元罰款。1.2元進的土豆賣2元!黑龍江大慶擬對經營者罰30萬(wan)
【微博評論】: {'大慶物價(jia) 太便宜了吧,賣2元就是哄抬物價(jia) ?我們(men) 這沒有低於(yu) 2元的菜!', '隻敢欺負老百姓,一斤掙8毛錢還算多嗎?', '沒感覺特別貴啊,你要是1.2元進的賣5元錢那是哄抬物價(jia) ,這還可以吧', '開始收刮民脂民膏了。', '為(wei) 啥這個(ge) 報道缺斤少兩(liang) 呢,攤主賣了4000斤,而且他是批發,到了消費者手裏多少錢。不能為(wei) 了報道而隱瞞事實。', '這個(ge) 罰法,先查一下和知名網店和超市吧,通常加價(jia) 100%的。', '魔幻新聞大賞', '敢不敢把這股勁頭用在醫院上?醫院的藥片幾塊錢成本敢賣到幾千敢不敢查?', '資本家看了都淚流滿麵:還是你們(men) 會(hui) 玩!', '各大景區的物價(jia) 關(guan) 注一下'}
「對話模型」: 這是一部分項目,一分分項目,兩(liang) 份項目,一分項目,這是一份項目的項目,一款!
「問題生成」: 1.2元買(mai) 多少土豆
「文本摘要」 1.2元進的土豆賣2元!黑龍江大慶擬對經營者罰30萬(wan)
【微博原文】: #102歲外婆害羞說泡泡吹大了#【#火遍全網的表情包外婆害羞了#】幾日前,浙江諸暨,102歲外婆看到外孫秒變驚喜表情包的視頻火遍全網,深受網友們(men) 的喜愛。102歲外婆的後續來了!她說,“我現在精神蠻痛快的,小輩對我蠻好的。”網友:外婆四代同堂好幸福,祝福外婆身體(ti) 健康!(美麗(li) 浙江) 新華社的微博視頻
【微博評論】: {'老人長壽源於(yu) 家和子孝', '真好,祝外婆健康長壽,想自己外婆了', '哈哈哈,好可愛', '祝外婆永遠健康長壽', '也希望我奶奶能活到一百多歲,說我調皮。可她已經離開三年了,好想奶奶', '希望我也能活到100歲', '希望奶奶健健康康的', '外婆的發量真令人羨慕', '好幸福、祝老人長壽', '好可愛的老奶奶哦!'}
「對話模型」: 你是不是看過《新聞聯播》呀!
「問題生成」: 102歲外婆害羞了什麽(me)
「文本摘要」 102歲外婆害羞說泡泡吹大了
【微博原文】: #11歲哥哥捐髓救4歲弟弟#【#11歲哥哥捐髓救弟弟成功後緊緊相擁#】近日,浙江杭州,4歲弟弟得了白血病,11歲哥哥毫不猶豫捐造血幹細胞救弟弟。手術成功後,弟弟見到哥哥開心地手舞足蹈,哥哥迫不及待一把將其抱起。網友:兄弟倆(lia) 滿眼都是彼此!新華社的微博視頻
【微博評論】: {'弟弟小腿蹦噠的,是真的開心', '我記得有個(ge) 哥哥得了白血病弟弟不願捐的新聞', '相扶相持一起長大', '希望健康,順豐(feng) ', '為(wei) 哥倆(lia) 點讚祝福!我家11歲哥哥和4歲弟弟還在打架?', '好哥哥!!真感動 看得我熱淚盈眶', '真是幸運的寶貝', '願早日康複,做健康幸福的好兄弟!', '祝一切平安順遂!', '小小孩子受苦了 以後要健健康康的'}
「對話模型」: 我也看了這個(ge) ,我還去參加過那個(ge) 節目,真的是很有意思!我很喜歡看。
「問題生成」: 哥哥捐髓救了幾歲
「文本摘要」 11歲哥哥捐髓救4歲弟弟成功後緊緊相擁
【微博原文】: #12人自發為(wei) 愛心補給站添水#【#市民自發為(wei) 愛心冰櫃添水200多箱#】近日,浙江慈溪,愛心人士放置“愛心補給站”,為(wei) 環衛工人等一線工作者提供免費水,陸續有人自發來添加瓶裝水。“愛心補給站”發起人曾先生說,剛開始是想為(wei) 大家提供便利,後來好幾家店加入進來,看到滿滿的冰櫃心裏挺感動的。(美麗(li) 浙江) 新華社的微博視頻
【微博評論】: {'人間處處有真情!', '前麵是偷水的視頻這個(ge) 就', '浙江是個(ge) 暖人的省份', '人間自有真情在', '素質真高!!', '環衛工人真的好辛苦', '中國人的質樸和善良 和諧社會(hui) 真的很美', 'love is in the air.人民善良樸實', '真是人和人怎麽(me) 差這麽(me) 多,好人都在放進去,壞人偷6箱', '如果放在我的城市 很多老年人大概率會(hui) 無限白嫖'}
「對話模型」: 你也看過這個(ge) 視頻啊,我也很喜歡。
「問題生成」: 杭州有多少人為(wei) 冰櫃添水
「文本摘要」 市民自發為(wei) 愛心冰櫃添水200多箱
【微博原文】: #17家房企聯名請求打擊專(zhuan) 業(ye) 房鬧#【一地17家房企聯名請求市政府:打擊專(zhuan) 業(ye) 房鬧及“惡意維權”】一份名為(wei) 《關(guan) 於(yu) 請求維護營商環境、增強房企投資信心的紓困解難報告》的文件稱,合肥市房屋交付中,普遍有不合理、不合規的客戶訴求問題且高度一致,背後可能有專(zhuan) 業(ye) 房鬧機構推波助瀾。對此,你怎麽(me) 看?
【微博評論】: {'有一些就是覺得投資失誤了, 想討回錢。唉!投資本來就是有賺有虧(kui) ,這種不能怪開發商。但是如果是質量問題那就必須抗爭(zheng) 到底', '依法解決(jue) 就是,不依法就是在瞎鬧。', '《惡意維權》', '首先是你怎麽(me) 看?而我選擇不看', '呼籲立刻停止惡意買(mai) 房!把房子都留給開發商自己住吧', '挾債(zhai) 務令天下', '先消滅惡意爛尾吧 還有惡意預售', '惡意維權不覺得這罪名可笑嗎', '房地產(chan) 商都是爺,客戶都當起了孫子,這就是和諧社會(hui) !', '房產(chan) 商就是黑社會(hui) '}
「對話模型」: 這是一個(ge) 很正常的問題,我們(men) 應該積極配合這個(ge) 問題進行解決(jue) 。
「問題生成」: 合肥房企打擊哪些機構
「文本摘要」 一地17家房企聯名請求打擊專(zhuan) 業(ye) 房鬧
【微博原文】: #2022年長春航展#【高清視頻!#超近距離看運油20#】今天上午,空軍(jun) 新聞發言人申進科大校在2022年空軍(jun) 航空開放活動暨長春航空展新聞發布會(hui) 上介紹,運油-20將首次向社會(hui) 公眾(zhong) 展示。戳視頻看運油-20高清畫麵↓↓央視軍(jun) 事的微博視頻
【微博評論】: {'厲害了,我的國。', '我們(men) 尊重別人的路,但我們(men) 要走自己的路', '真的好厲害的!好想親(qin) 眼看看', '好厲害!!!', '麻煩關(guan) 注一下江西疫情 小縣城貴溪疫情 huang報數量 快要上百個(ge) 中高風險地區了 封家裏半個(ge) 月了 能不能重視下啊 [/cp]', '我要大涵道的,小的不要', '那麽(me) 多紅繩繩 是不是新客戶接機', '厲害了我的國??', '厲害了我的國', '人民空軍(jun) ,越來越強大'}
「對話模型」: 這兩(liang) 個(ge) 視頻內(nei) 容是怎麽(me) 回事?
「問題生成」: 運油有多大的視頻
「文本摘要」 運油-20 首次向公眾(zhong) 展示
【微博原文】: #20歲小夥(huo) 玩劇本殺致重度成癮#【你被“劇本殺”了嗎?杭州小夥(huo) 入戲太深,心理專(zhuan) 家稱已重度成癮】“劇本殺”是以劇本形式虛擬出一個(ge) 凶案故事,讓玩家在故事中扮演不同角色,分析推理案件、找出凶手。因其極具故事性和場景性,吸引了大批年輕人來玩。近日,杭州20歲的大學生小劉,因為(wei) 玩劇本殺出了狀況,被家人送到了浙江省立同德醫院。母親(qin) 哭訴:“我兒(er) 子最近玩劇本殺快走火入魔了,醫生你快救救他吧。”小劉原本是個(ge) 不愛社交的人,經朋友介紹玩起了劇本殺,新認識交了不少朋友。理應說,這是好事兒(er) 。可是到後來,小劉連學也不想上了,天天就想玩劇本殺,整天精神萎靡,半夜還會(hui) 大喊大叫。“他把自己當成劇本裏的角色了”。浙江省立同德醫院心身科主任李曉一主任醫師診斷其為(wei) 重度遊戲成癮。李主任分析,劇本殺給人們(men) 帶來的是非日常體(ti) 驗。我們(men) 都知道,人有各種各樣的情緒,但是在現實生活中,我們(men) 能夠體(ti) 驗到各種情緒的機會(hui) 是有限的,比如說直麵死亡、驚險、威脅和恐懼等,而劇本殺往往能滿足人們(men) 對這一需求的體(ti) 驗。行為(wei) 成癮的心理社會(hui) 因素相對複雜,一般認為(wei) 與(yu) 家庭因素、個(ge) 人心理特質以及個(ge) 體(ti) 共患病等因素相關(guan) 。(錢江晚報) #20歲大學生玩劇本殺致重度成癮#
【微博評論】: {'不喜歡玩劇本殺', '有這種癮的人應該去劇組做群演,滿足心理欲望', '可以自己開個(ge) 劇本殺店當常駐mc', '所以劇本殺的本子應該適當的規避一些暴力,殺人這種', '自己管不好成天怪這怪那的,從(cong) 聽音樂(le) 到看電影,街機到電視,小說到電腦,從(cong) 來沒想過是自己的問題', '這不是他自己本來就患有表演型人格障礙嗎,劇本殺不過是為(wei) 他構築了一個(ge) 完美的劇本,如果別人也同樣給他編排一個(ge) 劇本他也會(hui) 變成現在這樣', '主要還是太閑了~ 也不用當家', '完全玩不來,', '呃 這還能上熱搜啊', '他不沉迷劇本殺也會(hui) 沉迷別的,還是自身心理問題,趕緊治療'}
「對話模型」: 你是你兒(er) 子是個(ge) 小兒(er) 子的兒(er) 子的兒(er) 子,兒(er) 子今年多大了兩(liang) 歲,女兒(er) 多大,我是個(ge) 兒(er) 子,他的兒(er) 子今年20歲了,兒(er) 子的父親(qin) ,兒(er) 子在家。
「問題生成」: 20歲大學生玩什麽(me) 遊戲
「文本摘要」 20歲小夥(huo) 玩劇本殺致重度成癮
【微博原文】: #27歲小夥(huo) 已交滿15年社保# 【#當事人回應27歲已交15年社保# :拆遷補償(chang) 了10年,生活沒有改變,心態上會(hui) 壓力小一點】近日,浙江杭州。有網友在社交平台發文:“95年已交滿15年社保了,還需要在交嘛”。他表示自己95年出生,目前社保已經交滿了15年,其中工作6年交了6年,拆遷補償(chang) 10年。很多網友紛紛留言,好羨慕啊,可以在單位躺平了。對此該網友表示:自己是在街道裏上班,生活上沒有改變,心態上壓力會(hui) 小一點,準備辭職做些自己想做的事情。@九派新聞 九派新聞的微博視頻
【微博評論】: {'典型的人生贏家,退休生活保障已經提前固定了', '現在辭職?是不是莽了些啊'}
「對話模型」: 你在街道裏上班?是做什麽(me) 工作呢?
「問題生成」: 27歲社保多少年
「文本摘要」 27歲小夥(huo) 已交滿15年社保
【微博原文】: #2女子為(wei) 逃離家暴離家出走後重婚#2022年的3月和5月,67歲的貴州女子楊某和47歲的潘某英因觸犯重婚罪被貴州三穗縣人民法院分別判處有期徒刑6個(ge) 月和拘役4個(ge) 月。兩(liang) 位來自貴州農(nong) 村的女性,都因為(wei) 家暴逃離了上一段婚姻。但是,二人都在沒有離婚的情況下離家而走。20多年以後,她們(men) 因為(wei) 重婚承擔了刑責。二人未提起上訴,已服刑。公訴機關(guan) 曾提出對上述兩(liang) 位犯重婚罪的婦女實行緩刑,審判機關(guan) 以適用緩刑具有再犯的危險為(wei) 由,不予采納此量刑。涉及上述兩(liang) 起案件的一名法官對記者說:“家暴字樣是在檢察院的公訴意見中出現的,這不能代表法院的意見。認定家暴對於(yu) 離婚案件來說很重要,但對於(yu) 我們(men) (這起)刑事案件來說,家暴是一個(ge) 情節,而非重點。”他還表示,無論家暴與(yu) 否、家暴到什麽(me) 程度,都不能成為(wei) 重婚的理由。因為(wei) “家暴的問題是可以通過離婚的程序解決(jue) 的。”#清華教授評2名婦女逃離家暴後被判重婚#對於(yu) 此案,清華大學教授勞東(dong) 燕發文質疑:我不知道,為(wei) 什麽(me) 審案的法官會(hui) 認為(wei) ,家暴不是本案的重點而隻是一個(ge) 情節。家暴行為(wei) 的存在與(yu) 否以及家暴的程度,在很大程度上會(hui) 影響被告人罪責的認定,怎麽(me) 就不是重婚案件審理中應予關(guan) 注的重點呢?勞東(dong) 燕建議通過審判監督程序,糾正對報道中所提及兩(liang) 起案件的現有判決(jue) 。(來源綜合:看天下、紅星新聞、搜狐新聞)
【微博評論】: {'不懂就問:重婚的定義(yi) 是不是又再領證了?那沒提供離婚證 民政局就又給發結婚證了?', '因為(wei) 清華教授是教課的,不是實際在法院工作的。他收不到《指導意見》的,沒壓力的', '那麽(me) 多找幾個(ge) 對象生幾個(ge) 孩子的,我以為(wei) 這年頭沒什麽(me) 重婚罪的定罪可能了,比較條件太容易規避。結果神奇地出現被各種違法行為(wei) 侵害的可憐人身上', '但凡能離得簡單痛快,誰願意重婚?往往要和家暴男離婚都是持久戰扯皮戰,離婚要預約、要核酸、要冷靜期,離婚這麽(me) 難,到底是誰有問題?', '這個(ge) 判決(jue) 的法院法官再回爐一下吧,感覺還是舊社會(hui) 的殘留。', '這是重回了那個(ge) 舊社會(hui) 了嗎', '婦聯呢!婦聯出來', '受不了虐待找到好對象重婚被判,家暴多年不判,明白了從(cong) 一開始就不該結婚', '男人有三有四一點事沒有,女人為(wei) 活命便要服刑', '這法官不合理'}
「對話模型」: 你的,請問你是什麽(me) 意思呢?
「問題生成」: 重婚後被判什麽(me) 罪
「文本摘要」 清華教授評2名婦女逃離家暴後被判重婚
方案總結與展望
在本次項目中我們(men) 使用PaddleNLP內(nei) 置的大模型 + 一鍵運行的能力,可以快速的搭建的微博對話機器人,並且取得了不錯的效果。
在三種思路中對話模型的效果最好,也比較貼近微博評論的語氣,但與(yu) 真實評論相比還有一定的差異,特別是複雜的句子輸入中。
未來可以考慮直接使用BART、T5或GPT來訓練對應的微博評論生成模型,這樣會(hui) 取得更好的精度。
如下為(wei) ChatGPT的對話結果,但值得參考:
輸入的prompt + 微博內(nei) 容
接下來我講輸入一段新聞內(nei) 容,請模仿網友輸出10條評論,要帶有個(ge) 人情感和色彩的評論。
【#如何看待暑假青少年整容熱#背後,誰在販賣“容貌焦慮”?】據了解,許多青少年都麵臨(lin) 著不同程度的“容貌焦慮”。有調查顯示,如今每到寒暑假、畢業(ye) 季,都會(hui) 出現學生紮堆整容的現象,“00後”們(men) 已成為(wei) 醫美消費的主力軍(jun) 。近日,記者嚐試在多個(ge) 社交、短視頻App上搜索發現,“暑假整容”“暑假變美”“暑假變瘦”等,都是近一個(ge) 月的熱門話題。(法治日報)央視新聞的微博視頻
ChatGPT輸出結果
1. 真心覺得這件事情很讓人心疼,現在的孩子們(men) 對於(yu) 自己的外貌有著太大的焦慮和壓力了。 2. 我不理解為(wei) 什麽(me) 現在的社會(hui) 這麽(me) 注重外表,美麗(li) 難道就是一切嗎?這種價(jia) 值觀真的很讓人難以接受。 3. 真的很擔心這些年輕人的身體(ti) 健康和心理健康,他們(men) 的追求和價(jia) 值觀似乎都被外在因素所左右了。 4. 如果整容機構和醫生真的有責任感和職業(ye) 道德,應該積極引導年輕人樹立正確的審美觀念,而不是為(wei) 了利潤而滿足他們(men) 的需求。 5. 整容並不是一個(ge) 可以輕率對待的事情,它需要慎重考慮和準備,不應該被當做一種消費習(xi) 慣來對待。 6. 社會(hui) 應該對外表的過度關(guan) 注和不健康的審美觀念進行反思和批判,而不是盲目追隨和宣揚。 7. 整容並不是解決(jue) 容貌焦慮的根本途徑,年輕人應該通過多方麵的途徑提升自己的自信和自尊心。 8. 我們(men) 應該尊重每個(ge) 人的選擇,但是也要引導他們(men) 做出更加明智和理性的選擇,不要盲目跟風。 9. 對於(yu) 那些利用青少年的容貌焦慮來賺錢的人,真的很無語,這種道德敗壞的行為(wei) 應該受到譴責。 10. 我們(men) 應該從(cong) 教育入手,從(cong) 小培養(yang) 孩子們(men) 的良好價(jia) 值觀和審美觀念,讓他們(men) 有健康的心態麵對自己和他人的外貌。
評論已經被關(guan) 閉。