亚洲无码私人影院,国产精品久久久在线,欧美日本一区二区在线观看

　　問題復現

　　在以前的文章中，小千分享了以前在工作中遇到的線上業務BUG解決思路，今天我會結合自己的授信中心這個金融項目，繼續給大家分析如何對自己遇到的故障進行定位與解決，希望本文可以對缺乏實際開發經驗的小白有所幫助。

　　其實要想解決開發故障，通常的解決思路大致如下：

　　1.分析問題，根據理論知識+經驗分析問題所在，并將錯誤鎖定在一定的范圍內;

　　2.通過錯誤日志，快速定位問題。線上定位問題時，主要是依靠監控和日志。

　　比如小千老師遇到過這樣一個問題：

　　線上的金融項目啟動后，運行速度越來越慢，一段時間后直接無法訪問，但此時的內存使用率正常，而CPU使用率幾乎滿負荷。在重啟項目后，又運行了一段時間，項目重復出現該問題。

　　解決思路

　　對于這種線上的故障，我們該怎么解決呢?其解決思路可以按照以下幾個步驟來實現。

　　其實，大多數情況下，只要出問題，我們都可以利用 df(查看磁盤)、free(查看內存)、top(查看CPU) 來個素質三連，然后再通過jstack(Java堆棧跟蹤工具)、jmap(Java堆和方法區的詳細信息)等工具排查。這些工具的具體使用命令，大家可以自行查閱。

　　1.top命令

　　top命令或者其他監控數據，用于查看服務器的內存、cpu的使用情況。

　　2.jps命令

　　查看當前java程序的進程號，假如為：17357，

　　3.jstat命令

　　jstat -gc 17357 2000，可以查看jvm的內存分配情況，如圖：

　　接著我們再通過查看EU和OU、YGC、FGC的變化，來調整jvm的內存、young區(edge，s1，s2)、old區內存大小。

　　可靠建議：

　　修改JAVA_OPTS='-Xms1024m -Xmx1024m' ，將jvm的最大、最小內存設為系統內存的3/4。根據ygc，調整young區中s與edge比例，根據fgc的頻率調整young區和old區的大小(或比例)。

　　然后通過jstack 進程id，來查看線程的死鎖，例如：jstack -l 21733 | more，若出現下圖所示，則是出現了線程死鎖。

　　4.tomcat優化

　　我們也可以在yml文件中tomcat的配置進行優化。

server:
port: 9105
tomcat:
  threads:
     # 處理請求的最大線程數
    max: 350
     # 最小的工作線程數
    min-spare: 100
   # 等待隊列的最大隊列長度
  accept-count: 500

　　5.設置數據庫連接池

　　對于數據庫服務(如mysql)，dba在部署的時候，都會設置db的最大內存和最大鏈接數，開發人員可以暫時忽略。

　　另外，數據庫連接池請盡量別用dbch、c3p0等已經過時的連接池技術，推薦使用阿里巴巴的druid，其相關的鏈接配置，請參照其github的官網。

　　具體解決過程

　　結合以上解決思路，接下來給大家說一下我的具體解決過程。

　　1.top定位

　　由于cpu滿負荷，所以我先通過top定位到出現問題的線程。發現確實是我們的java項目所在進程吃掉了所有的cpu資源，這時可通過jps+jstat來查看java的gc狀態，進一步發現young gc幾乎是一秒一次，fullgc沒有。所以接著我又查看了jvm的設置，young內存才設為512m，我先去掉了這個配置，而是采用默認配置(young：old =1:2)。

　　在重啟項目之后，young gc基本到了10多秒一次，可項目運行一段時間還是會卡死。然后我又看了下tomcat的連接池，發現全部都是默認配置(默認最大連接數為50)，故先將最大鏈接設為500，等待隊列設為1000，重啟項目，還是出現cpu滿負荷，系統卡死。

　　2.排查數據庫服務的內存

　　接著我查看了輸出的最新日志文件，發現日志輸出到一個dao方法之后，在輸出響應的sql后就卡住了。接著我通過mysql鏈接工具直接執行，sql卻很快輸出，因此排除數據庫服務的內存不足等硬件問題。

　　3.調整日志輸出級別

　　通過查看項目的框架，發現日志用的log4j(同步日志輸出)，日志輸出級別是:INFO，這會導致項目里面的log輸出非常多，所以我先將log的輸出級別設為warn，重新啟動項目，項目正常運行。

　　4.優化數據表

　　修改日志輸出級別為warn之后，運行了一段時間發現系統又卡死了。這時還是兩個表的查詢卡死(通訊錄和通話記錄)，這兩個表的存儲量級都是上億級別的，項目原有的邏輯是這樣的，用戶上傳通訊錄，需要刪除原來的通訊錄，再批量插入。這樣一個大表頻繁的進行刪除與批量插入，很容易導致IO響應慢。第一步，我先通過建立唯一索引，利用insert ignore into來減少該表的IO操作，接著重新啟動項目，系統正常運行。

　　5.添加索引

　　加好索引優化了sql語句之后，系統還是偶爾會出現卡死狀態。這時，我通過dba搜索慢查詢，發現通話記錄和通訊錄表中有一個排序查詢，該sql的末尾使用了order by update_time desc，但update_time沒有添加索引，這就導致該表的查詢至少要2秒以上。所以我將sql改為了order by id，查詢就正常了，重啟項目，系統正常運行。

　　6.解決線程死鎖

　　至此，系統還是偶爾出現卡死現象(cpu爆表)，只是頻率小了很多。這時我懷疑是有線程死鎖了，從而導致cpu爆表。我通過運維查找linux線程，終于發現確實有一個線程出現了死鎖，里面的信息顯示是c3p0的連接池線程。我又通過查找資料，發現使用c3p0作為數據庫連接池，經常會出現鏈接池卡死的問題，所以我趕緊將項目的連接池切換為durid，然后重啟項目，項目運行正常。

　　7.新增服務器節點

　　但系統在進件量較大時，依然有一定的幾率出現卡死現象，最好考慮是當時的項目環境采用的是單機部署，所以最后協調運維新增了兩個服務器節點，至此項目運行完全正常。

　　針對線上服務器故障的解決思路和過程，百澤老師給大家提供了以下幾個可靠建議：

　　系統框架太過于老舊時，可能會引發一系列的項目問題，所以適當升級項目的技術是有必要的；

　　一些大表一定要進行拆分，否則在高并發的環境中，數據庫的IO會遇到瓶頸；

　　減少一些不必要的日志輸出，日志輸出組件盡量是異步輸出的；

　　一些高頻率查詢的字段，盡量加上索引、組合索引，一些慢查詢的sql優化也很重要；

　　服務盡量單獨部署。