麻豆黑色丝袜jk制服福利网站-麻豆精品传媒视频观看-麻豆精品传媒一二三区在线视频-麻豆精选传媒4区2021-在线视频99-在线视频a

千鋒教育-做有情懷、有良心、有品質的職業教育機構

手機站
千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站

領取全套視頻
千鋒教育

關注千鋒學習站小程序
隨時隨地免費學習課程

當前位置:首頁  >  技術干貨  > Python實現文章自動生成

Python實現文章自動生成

來源:千鋒教育
發布人:xqq
時間: 2023-11-06 23:13:31 1699283611

下面的Python程序實現了通過從網頁抓取一篇文章,然后根據這篇文章來生成新的文章,這其中的原理就是基于概率統計的文本分析。

過程大概就是網頁抓取數據->統計分析->生成新文章。網頁抓取數據是通過BeautifulSoup庫來抓取網頁上的文本內容。統計分析這個首先需要使用ngram模型來把文章進行分詞并統計頻率。因為文章生成主要依據馬爾可夫模型,所以使用了2-gram,這樣可以統計出一個單詞出現在另一個單詞后的概率。生成新文章是基于分析大量隨機事件的馬爾可夫模型。隨機事件的特點是在一個離散事件發生之后,另一個離散事件將在前一個事件的條件下以一定的概率發生。

fromurllib.requestimporturlopen

fromrandomimportrandint

frombs4importBeautifulSoup

importre

defwordListSum(wordList):

sum=0

forword,valueinwordList.items():

sum=sum+value

returnsum

defretrieveRandomWord(wordList):

randomIndex=randint(1,wordListSum(wordList))

forword,valueinwordList.items():

randomIndex-=value

ifrandomIndex<=0:

returnword

defbuildWordDict(text):

text=re.sub('(\n|\r|\t)+',"",text)

text=re.sub('\"',"",text)

punctuation=[',','.',';',':']

forsymbolinpunctuation:

text=text.replace(symbol,""+symbol+"")

words=text.split('')

words=[wordforwordinwordsifword!=""]

wordDict={}

foriinrange(1,len(words)):

ifwords[i-1]notinwordDict:

wordDict[words[i-1]]={}

ifwords[i]notinwordDict[words[i-1]]:

wordDict[words[i-1]][words[i]]=0

wordDict[words[i-1]][words[i]]=wordDict[words[i-1]][words[i]]+1

returnwordDict

defrandomFirstWord(wordDict):

randomIndex=randint(0,len(wordDict))

returnlist(wordDict.keys())[randomIndex]

html=urlopen("http://www.guancha.cn/america/2017_01_21_390488_s.shtml")

bsObj=BeautifulSoup(html,"lxml")

ps=bsObj.find("div",{"id":"cmtdiv3523349"}).find_next_siblings("p");

content=""

forpinps:

content=content+p.get_text()

text=bytes(content,"UTF-8")

text=text.decode("ascii","ignore")

wordDict=buildWordDict(text)

length=100

chain=""

currentWord=randomFirstWord(wordDict)

foriinrange(0,length):

chain+=currentWord+""

currentWord=retrieveRandomWord(wordDict[currentWord])

print(chain)

buildWordDict(text)函數接收文本內容,生成的內容如下

{‘itself’:{‘,’:1},‘night’:{‘sky’:1},‘You’:{‘came’:1,‘will’:1},‘railways’:{‘all’:1},‘government’:{‘while’:1,‘,’:1,‘is’:1},‘you’:{‘now’:1,‘open’:1,‘down’:1,‘with’:1,‘.’:6,‘,’:1,‘that’:1},

主要就是生成一個字典,鍵是文章中所有出現的詞語,值其實也是一個字典,這個字典是所有直接出現在鍵后邊的詞語及其出現的頻率。這個函數就是ngram模型思想的運用。

retrieveRandomWord(wordList)函數的wordList代表的是出現在上一個詞語后的詞語列表及其頻率組成的字典,然后根據統計的概率隨機生成一個詞。這個函數是馬爾可夫模型的思想運用。

然后運行這個程序會生成一個長度為100的文章,如下面所示

fail.Wewillstirourselves,butwewillneverbefore.Donotshareoneheartandpleasantitbackourjobs.Weareinfusedwiththeorderlyandrailwaysallofthegangsandrobbedourjobsfortheirsuccesswilldeterminethecivilizedworld.Wewilltheirsuccesswillbeagreatmenandhighwaysandmillionstoallbleedtheworld.Itbelongstogreatnationalefforttodefendourproducts,constantlycomplaining,D.Wewillbeignoredagain.ItbelongstoharnesstheexpenseofAmerica.

生成的文章看起來語法混亂,這也難怪,因為只是抓取分析統計了一篇的文章。我想如果可以抓取足夠多的英文文章,數據集足夠大那么語法準確度會大大提高。

以上內容為大家介紹了Python實現文章自動生成,希望對大家有所幫助,如果想要了解更多Python相關知識,請關注IT培訓機構:千鋒教育。http://www.dietsnews.net/

tags: python培訓
聲明:本站稿件版權均屬千鋒教育所有,未經許可不得擅自轉載。
10年以上業內強師集結,手把手帶你蛻變精英
請您保持通訊暢通,專屬學習老師24小時內將與您1V1溝通
免費領取
今日已有369人領取成功
劉同學 138****2860 剛剛成功領取
王同學 131****2015 剛剛成功領取
張同學 133****4652 剛剛成功領取
李同學 135****8607 剛剛成功領取
楊同學 132****5667 剛剛成功領取
岳同學 134****6652 剛剛成功領取
梁同學 157****2950 剛剛成功領取
劉同學 189****1015 剛剛成功領取
張同學 155****4678 剛剛成功領取
鄒同學 139****2907 剛剛成功領取
董同學 138****2867 剛剛成功領取
周同學 136****3602 剛剛成功領取
相關推薦HOT
主站蜘蛛池模板: 久久精品青草社区| 男人和女人差差差很疼30分| 小小影视日本动漫观看免费| 日本阿v视频在线观看| 久久久噜噜噜久久中文字幕色伊伊 | 精品视频一区二区三区| ipx-412天海翼在线播放| 香蕉视频在线观看免费国产婷婷| 国产国产精品人在线观看| 国产精品久久久久久搜索| 久久99精品国产麻豆不卡| 人人爽天天碰天天躁夜夜躁| 四虎精品久久久久影院| 欧美成人高清手机在线视频| 久久久久久中文字幕| 好男人社区神马www在线观看| 久久精品国产亚洲精品| 久久天天躁狠狠躁夜夜不卡| 韩国理论电影午夜三级717| 日日爱影视| 风流小姨子| 国产精品一区二区久久精品涩爱| 欧美日韩精品一区二区三区不卡 | 日本无卡无吗在线| 无限在线观看下载免费视频| 爱我久久国产精品| 国产99久久亚洲综合精品| 天天草b| 日韩福利在线| 女人张开腿让男人捅爽| 里番肉本子同人全彩h| 欧美a级影院| 久久夜色精品国产亚洲| 三级毛片在线看| 国产大片线上免费看| a级毛片免费观看网站| 亚洲不卡1卡2卡三卡2021麻豆| 国产精品高清尿小便嘘嘘| 好硬好湿好大再深一点动态图| 亚洲欧洲日产国产最新| 小蝌蚪视频在线观看www|