想必大家都知道,在從事網絡爬蟲工作之前,我們需要掌握很多知識,除了基本的爬蟲原理之外,我們還需要學習框架、數據庫等,其中就包含MongoDB。那么為什么Python爬蟲使用MongoDB呢?我們一起來看看吧。
Python爬蟲為什么使用MongoDB呢?
1.文檔結構的存儲方式:簡單講就是可以直接存Json、list;
2.不要事先定義表,隨時可以創建;
3.表中的數據長度可以不一樣。
比如說:你的第一條記錄有10個值,第二條記錄就不要規定10個值了,對爬蟲很亂的數據來講,這樣是非常適用的。
什么是MongoDB呢?
MongoDB是一個基于分布式文件存儲的數據庫。由C++語言編寫。旨在為WEB應用提供可擴展的高性能數據存儲解決方案。
MongoDB是一個介于關系數據庫和非關系數據庫之間的產品,是非關系數據庫當中功能最豐富,最像關系數據庫的。它支持的數據結構非常松散,是類似json的bson格式,因此可以存儲比較復雜的數據類型。Mongo最大的特點是它支持的查詢語言非常強大,其語法有點類似于面向對象的查詢語言,幾乎可以實現類似關系數據庫單表查詢的絕大部分功能,而且還支持對數據建立索引。
MongoDB有什么功能呢?
它的特點是高性能、易部署、易使用,存儲數據非常方便,主要功能特性有:
面向集合存儲,易存儲對象類型的數據;
模式自由、支持動態查詢、支持完全索引,包含內部對象;
支持查詢、支持復制和故障恢復;
使用高效的二進制數據存儲,包含大型對象;
自動處理碎片,以支持云計算層次的擴展性;
支持GOlang、Ruby、Python、Java、C++、PHP、C#等多種語言;
支持存儲格式為BSON,一般json的擴展;
可通過網絡訪問。