因為不知道所學的數學知識到底有什么用。對于IT公司的研發人員來說,他們在進入大數據相關崗位前,總是覺得要先學點數學,但是茫茫的數學世界,哪里才是數據技術的盡頭?
一談到數據技術,很多人首先想到的是數學,大概是因為數字在數學體系中穩固的位置吧,這也是理所當然的。本文對數據技術的數學基礎這個問題進行一些探討。
我們知道數學的三大分支,即代數、幾何與分析,每個分支隨著研究的發展延伸出來很多小分支。在這個數學體系中,與大數據技術有密切關系的數學基礎主要有以下幾類。(關于這些數學方法在大數據技術中的應用參見《互聯網大數據處理技術與應用》一書,2017,清華大學出版社)
(1)概率論與數理統計
這部分與大數據技術開發的關系非常密切,條件概率、獨立性等基本概念、隨機變量及其分布、多維隨機變量及其分布、方差分析及回歸分析、隨機過程(特別是Markov)、參數估計、Bayes理論等在大數據建模、挖掘中就很重要。大數據具有天然的高維特征,在高維空間中進行數據模型的設計分析就需要一定的多維隨機變量及其分布方面的基礎。Bayes定理更是分類器構建的基礎之一。除了這些這些基礎知識外,條件隨機場CRF、隱Markov模型、n-gram等在大數據分析中可用于對詞匯、文本的分析,可以用于構建預測分類模型。
當然以概率論為基礎的信息論在大數據分析中也有一定作用,比如信息增益、互信息等用于特征分析的方法都是信息論里面的概念。
(2)線性代數
這部分的數學知識與數據技術開發的關系也很密切,矩陣、轉置、秩分塊矩陣、向量、正交矩陣、向量空間、特征值與特征向量等在大數據建模、分析中也是常用的技術手段。
在互聯網大數據中,許多應用場景的分析對象都可以抽象成為矩陣表示,大量Web頁面及其關系、微博用戶及其關系、文本集中文本與詞匯的關系等等都可以用矩陣表示。比如對于Web頁面及其關系用矩陣表示時,矩陣元素就代表了頁面a與另一個頁面b的關系,這種關系可以是指向關系,1表示a和b之間有超鏈接,0表示a,b之間沒有超鏈接。著名的PageRank算法就是基于這種矩陣進行頁面重要性的量化,并證明其收斂性。
以矩陣為基礎的各種運算,如矩陣分解則是分析對象特征提取的途徑,因為矩陣代表了某種變換或映射,因此分解后得到的矩陣就代表了分析對象在新空間中的一些新特征。所以,奇異值分解SVD、PCA、NMF、MF等在大數據分析中的應用是很廣泛的。
(3)最優化方法
模型學習訓練是很多分析挖掘模型用于求解參數的途徑,基本問題是:給定一個函數f:A→R,尋找一個元素a0∈A,使得對于所有A中的a,f(a0)≤f(a)(最小化);或者f(a0)≥f(a)(最大化)。優化方法取決于函數的形式,從目前看,最優化方法通常是基于微分、導數的方法,例如梯度下降、爬山法、最小二乘法、共軛分布法等。
(4)離散數學
離散數學的重要性就不言而喻了,它是所有計算機科學分支的基礎,自然也是數據技術的重要基礎。這里就不展開了。
最后,需要提的是,很多人認為自己數學不好,數據技術開發應用也做不好,其實不然。要想清楚自己在大數據開發應用中充當什么角色。參考以下的大數據技術研究應用的切入點,上述數學知識主要體現在數據挖掘與模型層上,這些數學知識和方法就需要掌握了。
當然其他層次上,使用這些數學方法對于改進算法也是非常有意義的,例如在數據獲取層,可以利用概率模型估計爬蟲采集頁面的價值,從而能做出更好的判斷。在大數據計算與存儲層,利用矩陣分塊計算實現并行計算。
以上內容為大家介紹了Python數據分析要學什么數學,希望對大家有所幫助,如果想要了解更多Python相關知識,請關注IT培訓機構:千鋒教育。http://www.dietsnews.net/