浙江電網(wǎng)變電站研華工控機運行的情況的分析和對應處理措施:從電廠監(jiān)控系統(tǒng)在變電站開始應用起,IPC工控機就借助PC平臺規(guī);挠布Y源、豐富的商業(yè)軟件資源和普及化的軟硬件人才資源,在變電站計算機監(jiān)控系統(tǒng)中有著廣泛應用,但是隨著應用的深入延伸,IPC工控機存在的缺陷逐漸暴露出來了,如機箱散熱、板卡接觸不良、硬盤數(shù)據(jù)丟失等問題在運行中常有發(fā)生,在變電站計算機監(jiān)控系統(tǒng)的缺陷統(tǒng)計中占有很大比例。
2002年以后隨著間隔層設備直接上網(wǎng)技術(shù)、嵌入式系統(tǒng)技術(shù)以及新一代CompactPCI工控機標準的日趨成熟,廠家也陸續(xù)推出了相應的新產(chǎn)品,以解決IPC工控機在變電站計算機監(jiān)控系統(tǒng)應用中存在的問題。浙江電網(wǎng)110kV及以上電壓等級預計變電站(含發(fā)電廠升壓站/開關(guān)站)計算機監(jiān)控系統(tǒng)的IPC工控機保有量相當大,2002年后仍有不少新投運(改造)的變電站監(jiān)控系統(tǒng)大量采用了IPC工控機。預計在未來一段時期內(nèi)IPC工控機總量還會有所增加,但增加幅度會逐漸回落。
1 工控機故障原因分析
1.1 風扇壽命影響機箱散熱
受組屏安裝尺寸限制,IPC工控機通常采用臥式或一體化結(jié)構(gòu)機箱,機箱內(nèi)部空間相對狹小而板卡數(shù)量較多,發(fā)熱量較大而散熱通道卻不暢通,被動散熱性能很差。為保證散熱效果,避免高溫對機箱內(nèi)電子元器件產(chǎn)生不良影響,IPC工控機無一例外地采用了風扇主動散熱方式。風扇主要安裝在機箱電源、CPU、主板芯片等發(fā)熱量較大的部件附近,風扇電機驅(qū)動扇葉機械轉(zhuǎn)動以空氣對流效應來達到散熱目的。但長時間機械轉(zhuǎn)動必然會對風扇電機軸承造成磨損,風扇運行壽命有限。當風扇因故障停轉(zhuǎn)后機箱內(nèi)產(chǎn)生的熱量無法及時排出,溫度會急劇升高,對板卡上的電子元器件造成嚴重損害,導致IPC工控機出現(xiàn)異常、死機甚至永久性損壞。
因此加強對風扇運行工況的實時監(jiān)視,并定期對風扇進行維護和更換是非常必要的,但在技術(shù)上實現(xiàn)起來有一定困難。首先正常運行過程中機箱始終處于密閉狀態(tài),除開關(guān)電源的風扇外其他風扇均位于機箱內(nèi)部,無法以目測方式進行實時監(jiān)視;其次IPC工控機都被要求全年24h不間斷運行, 很難有機會對風扇進行定期維護和更換。此外IPC工控機多采用組屏方式,平時屏柜前后門均處于關(guān)閉狀態(tài),屏柜內(nèi)空氣不流通、溫度偏高,對散熱不利?量痰倪\行要求、惡劣的散熱環(huán)境以及缺乏定期維護等因素使散熱風扇成為IPC工控機故障率高的部件。
此外,IPC工控機的硬件結(jié)構(gòu)決定需要風扇和散熱通道, 運行過程中灰塵等雜質(zhì)很容易通過風道進入機箱內(nèi)部并附著在風扇和板件上, 直接影響了風扇的轉(zhuǎn)動、板件的接觸性能及內(nèi)部散熱, 對工控機的性能及壽命造成不良影響。
1.2 板卡接觸不良
為提高抗干擾性能,IPC工控機采用了無源總線板方式, 每塊板卡(包括CPU板)均以插槽金手指邊緣接觸方式與無源總線板相連, 并通過無源總線板以總線方式與其他板卡進行通訊和數(shù)據(jù)交換。這種金手指連接方式雖然方便, 但卻存在很大隱患。首先運行狀態(tài)下IPC工控機自身會產(chǎn)生振動, 振動源主要來自于散熱風扇和硬盤電機的高速旋轉(zhuǎn)(風扇轉(zhuǎn)速通常2000~4500r/min,硬盤轉(zhuǎn)速5400~7200r/min)以及開關(guān)電源工作時產(chǎn)生的振動。板卡金手指與無源總線板插槽之間的金屬性連接很容易因為機器自身振動或外力沖擊而瞬間接觸不良。
其次,板卡和插槽金手指普遍采用表面鍍銅工藝以減小接觸阻抗, 但在長期使用過程中金手指表面鍍銅層容易被氧化或腐蝕造成接觸不良。
此外IPC工控機所有板卡均通過金屬擋板用螺絲固定在機箱上, 在機箱振動作用下板卡與金屬擋板相連部分會產(chǎn)生微距離逆時針旋轉(zhuǎn)位移, 而板卡金手指部分被卡在底板插槽中無法移動, 長期運行容易造成板卡印刷電路板的變形、斷線和接觸不良。上述情況都是引起系統(tǒng)故障甚至死機的重要原因。
1.3 硬盤數(shù)據(jù)丟失
硬盤是IPC工控機中重要的部件,因硬盤損壞和硬盤數(shù)據(jù)丟失造成的后果往往非常嚴重, 有時甚至是致命的。與風扇類似, 硬盤也是通過電機驅(qū)動盤片高速機械旋轉(zhuǎn)來進行數(shù)據(jù)的快速讀取和存儲, 因此硬盤電機的壽命也有限。盡管硬盤廠家采用了諸多先進技術(shù)(如用液態(tài)軸承電機技術(shù)代替滾珠軸承電機),但也只能在一定程度上延緩卻無法徹底解決電機軸承的的磨損問題。IPC工控機全年24h不間斷運行的特點使得硬盤電機始終處于高速旋轉(zhuǎn)狀態(tài), 電機磨損比較嚴重, 損壞幾率大大升高。
此外高溫也是硬盤損壞的重要原因。由于硬盤采用磁記錄方式存儲數(shù)據(jù), 當溫度升高時硬盤盤片上磁記錄物質(zhì)的熱物理運動加強, 當熱物理運動強度超出了磁力約束時,磁記錄物質(zhì)的排列方向和順序被打亂, 數(shù)據(jù)就會丟失。運行過程中硬盤數(shù)據(jù)丟失現(xiàn)象往往同時伴隨著風扇故障出現(xiàn), 這是因為風扇故障在前, 之后因風扇故障產(chǎn)生的高溫再導致硬盤數(shù)據(jù)丟失。因此只要解決了風扇故障問題,硬盤問題也會得到很大改善。至于外部振動引起硬盤損壞的說法,筆者認為概率相對較小,因為IPC工控機普遍在硬盤機架上安裝了硬盤避振器和減震橡膠墊,能有效減輕振動對硬盤的損壞。除非在運行狀態(tài)下人為敲打或晃動硬盤,否則不會硬盤造成影響。
2 現(xiàn)有IPC工控機故障解決方法
對已投運的變電站計算機監(jiān)控系統(tǒng)IPC工控機應采取防治結(jié)合,以防為主的方法。
2.1 提高機箱散熱效果
(1)加強散熱效果并延長風扇運行壽命。工控機的散熱器幾乎無一例外地采用鋁合金散熱片和自潤軸承式風扇。鋁合金散熱片成本較低, 但熱傳導效率不盡如人意; 自潤軸承式風扇價格便宜, 使用初期噪音較低, 但使用一段時間后由于內(nèi)部潤滑油揮發(fā)和外部灰塵的進入, 軸承磨損嚴重, 導致電機噪音增大,轉(zhuǎn)速減緩,散熱效率下降。通常這種風扇使用壽命只有8000~15000h左右,如不定期維護,無故障時間更短。
因此有必要在機箱內(nèi)部空間允許的前提下對散熱器進行改造: 用純銅多鰭片散熱片替換鋁合金散熱片, 可有效提高熱傳導效率和增大散熱表面積; 液壓軸承風扇采用磁力支持懸浮作用原理再加上與之配合的特殊油膜潤滑, 大大減小了軸承磨損, 使用壽命可達50000h以上, 并可有效降低因風扇轉(zhuǎn)動產(chǎn)生的噪音和振動。這樣的改造價格低廉,通常在400元以內(nèi), 得到的效果卻非常好。但這些散熱器往往體積較大, 通常只能用于臥式機箱, 對內(nèi)部空間緊湊的一體化工控機并不適合。
(2)加強對IPC工控機的實時監(jiān)控。雖然無法以目測方式對機箱內(nèi)部進行觀察, 但通過技術(shù)手段仍可實現(xiàn)對IPC工控機的實時監(jiān)控。在IPC工控機主板的不同位置安裝有數(shù)個溫度探頭(或相應接口), 可通過主板BIOS內(nèi)的溫度監(jiān)視選項對機箱內(nèi)溫度進行監(jiān)視,當因風扇故障等原因?qū)е聶C箱內(nèi)溫度超過設定值時主板蜂鳴器會發(fā)聲報警; 主板BIOS也能對風扇轉(zhuǎn)速進行實時監(jiān)視, 當風扇轉(zhuǎn)速低于設定值時主板蜂鳴器也會發(fā)聲報警。某些型號IPC工控機還具備告警信號硬接點輸出能力。此外IPC工控機的隨機光盤都帶有功能較為完善的狀態(tài)監(jiān)測軟件, 應好好加以利用。
2.2 保持板卡接觸良好
板卡接觸不良主要由金手指表面氧化和機箱振動等原因造成。對于金手指表面氧化問題, 可以在工控機定期維護時對板卡進行重新插拔安裝, 并用橡皮對板卡金手指部分進行擦拭, 去除氧化層。至于機箱振動, 除了定期對板卡緊固螺絲進行加固外, 還應從減少振動源方面入手。工控機振動主要來自于風扇和硬盤, 為減小風扇帶來的振動, 可以考慮采用大扇頁智能風扇。首先較大的扇頁能在較低轉(zhuǎn)速下產(chǎn)生較大風量, 達到普通風扇較高轉(zhuǎn)速下的散熱效果, 有效降低振動和噪音; 其次這種風扇配有智能芯片, 在對主板BIOS進行設定后能在設定溫度范圍內(nèi)自動平穩(wěn)地調(diào)節(jié)風扇轉(zhuǎn)速, 只有當溫度達到某一程度時, 才全速轉(zhuǎn)動, 既提高了散熱效率, 又減少了耗電量, 同時也降低了風扇的噪音和振動。此外由于硬盤普遍采用了液態(tài)軸承馬達技術(shù), 振動已大大減小, 并且工控機普遍在硬盤機架上安裝了硬盤避振器和減震橡膠墊, 能有效減輕硬盤帶來的振動, 因此其對板卡接觸不良的影響程度基本可以忽略。
2.3 預防硬盤數(shù)據(jù)丟失
上述諸多措施可以在很大程度上解決因外部原因造成硬盤數(shù)據(jù)丟失和損壞的問題,但對于因硬盤電機磨損等原因造成的硬盤故障可以通過以下措施來解決:
(1)使用企業(yè)級硬盤, 延長硬盤運行壽命。出于成本考慮,筆者接觸過的IPC工控機無一例外都采用了普通硬盤, 并且檢修維護人員在處理硬盤故障時往往是用普通硬盤更換。因為普通硬盤是根據(jù)每天8h運行目標設計和制造的, 不能滿足IPC工控機全年24h運行要求。與普通硬盤相比, 企業(yè)級硬盤在I/O吞吐性能、大密度隨機存取優(yōu)化、多硬盤協(xié)同以及高強度負載下長期工作等指標上都有大幅度提高, 特別是振動和高溫環(huán)境下MTBF(平均無故障運行時間)指標比普通硬盤高一個數(shù)量級,非常適合IPC工控機使用。
(2)采用硬盤陣列(RAID)技術(shù), 提高硬盤數(shù)據(jù)可靠性。在由2塊硬盤組成的RAID 1系統(tǒng)中, 相同的數(shù)據(jù)被同時存儲到兩塊硬盤上(即冗余)。當一個硬盤發(fā)生故障時,可立即從另一個硬盤上獲得數(shù)據(jù), 從而無損數(shù)據(jù)完整性。目前主流操作系統(tǒng)如:UNIX、WINDOWS NT及后續(xù)版本都能對RAID 1提供較好的支持而無需第三方軟件。只需增加一塊相同規(guī)格的硬盤和1塊RAID卡(某些工控機可選主板集成RAID芯片), 就能大地提高硬盤容錯功能,保證數(shù)據(jù)的可靠性。
(3)通過SMART技術(shù)加強對硬盤的實時監(jiān)視, 把故障消滅在萌芽狀態(tài)。SMART技術(shù)的全稱是Swif-Monitoring,Analysis and Reporting Technolopy,即硬盤“自我監(jiān)測, 分析與報告技術(shù)”,該技術(shù)主要是為了排除硬盤中可預測的機械性故障(據(jù)統(tǒng)計這類可預測的故障大約占硬盤故障總數(shù)的60%以上) ,做到在這類故障發(fā)生之前提供警告, 從而保護數(shù)據(jù)內(nèi)容不受損失。在主板BIOS、硬盤以及操作系統(tǒng)都支持并開啟SMART技術(shù)的情況下,SMART可以監(jiān)視硬盤磁頭離盤片的距離,控制電路的工作狀態(tài)以及數(shù)據(jù)的傳輸速率等等。在不良狀態(tài)出現(xiàn)時,SMART技術(shù)能夠在屏幕上顯示相應告警信息,使運行維護人員能在故障發(fā)生前及時做出補救。目前WINDOWS 98及后續(xù)版本的WINDOWS操作系統(tǒng)均能較好地支持該技術(shù),但UNIX操作系統(tǒng)尚無法支持。2000年之后生產(chǎn)的主板和硬盤都支持SMART技術(shù)。通過SMART技術(shù), 可大大提高硬盤數(shù)據(jù)可靠性。
2.4 加強對IPC工控機的維護
檢修部門通常采取一、二次設備檢修同步進行的方式, 這種做法對于保護和測控等二次設備的定期檢修比較合理, 但IPC工控機通常屬于監(jiān)控系統(tǒng)公用設備, 沒有具體的一次設備與之對應, 因此在制定監(jiān)控系統(tǒng)設備定期檢修計劃時容易發(fā)生遺漏, 使IPC工控機的維護處于非受控狀態(tài), 一直到機器發(fā)生故障才被動地去處理, 造成IPC工控機故障率一直居高不下。因此應從制度上加強對IPC工控機的維護力度。對于采用雙機冗余方式運行的工控機,應制定檢修計劃,在保證運行安全的前提下定期對2臺工控機輪流進行停機維護。維護內(nèi)容包括機箱內(nèi)部清掃、板件連接加固、風扇潤滑油加注、進氣濾網(wǎng)(或海綿)清洗、內(nèi)部板卡元件檢查等。
3 IPC工控機應用展望
通過一系列有針對性的措施, 可以在很大程度上改善現(xiàn)有變電站計算機監(jiān)控系統(tǒng)IPC工控機故障率居高不下的局面。不僅是IPC工控機, 變電站所有基于微機架構(gòu)的計算機, 包括站級層主機、操作員站、獨立五防微機、故障錄波計算機等都可以采用上述方法來提高自身穩(wěn)定性和可靠性。
根據(jù)現(xiàn)有硬件技術(shù)條件,依據(jù)一段時間以來的運行實踐經(jīng)驗,在變電站計算機監(jiān)控系統(tǒng)的應用技術(shù)上應考慮滿足以下發(fā)展趨勢:
(1)使用大容量閃存式硬盤代替常規(guī)硬盤,徹底解決常規(guī)硬盤帶來的諸多問題。閃存在計算機及自動控制領域早已被廣泛應用:計算機主板的BIOS程序以及保護和測控裝置系統(tǒng)及應用程序均采用閃存進行存儲,其可靠性和穩(wěn)定性得到了一致認可。隨著閃存技術(shù)的發(fā)展,閃存容量有了大提高,價格卻直線下降。目前已量產(chǎn)大閃存硬盤已達到64GB,而4GB容量的閃存硬盤價格已跌至1000元以下,價格已不再是障礙。與傳統(tǒng)硬盤相比,閃存體積小、功耗小,產(chǎn)生熱量也少,尤其是它沒有機械部件,不存在機械磨損之憂,并且讀寫無噪音,不會產(chǎn)生振動也不怕振動。但它的缺點是可擦寫次數(shù)比傳統(tǒng)硬盤少,約為100萬次左右。因此閃存硬盤特別適合一次寫入,多次讀寫的應用場合。而變電站計算機監(jiān)控系統(tǒng)作為前置機和公用信息管理機的IPC工控機正好滿足這個條件。首先從容量上來說,前置機/管理機運行所需的操作系統(tǒng)及應用軟件安裝所需容量一般不會超過3GB,使用4GB閃存硬盤即可滿足需要, 并且安裝完畢后更改次數(shù)較少。其次前置機/管理機在將程序和數(shù)據(jù)庫文件從硬盤讀到內(nèi)存緩沖區(qū)后就不再對硬盤進行操作。這時即使硬盤發(fā)生損壞, 只要不重啟計算機,前置機/管理機仍可正常運行。
(2)無風扇的設計結(jié)構(gòu)。由于大容量閃存式硬盤技術(shù)的應用,無噪音無振動,發(fā)熱量小,IPC內(nèi)部可以通過高效的被動散熱結(jié)構(gòu)進行散熱而無需風扇。這樣設備本身結(jié)構(gòu)更加嚴密可靠, 不存在由于結(jié)構(gòu)或振動原因引起的接觸不良, 外部的灰塵、雜物也不會進入裝置內(nèi)部,運行更加穩(wěn)定可靠。
(3)嵌入式工控機的應用。嵌入式系統(tǒng)是以應用為中心,以計算機技術(shù)為基礎,并且軟硬件可裁剪, 適用于應用系統(tǒng)對功能、可靠性、成本、體積、功耗有嚴格要求的專用計算機系統(tǒng)。PC平臺在一些可靠性要求高的工業(yè)領域,暴露出一些致命弊端:系統(tǒng)的不夠穩(wěn)定、功耗大散熱差、系統(tǒng)的升級管理、病毒入侵的防治、設備結(jié)構(gòu)不夠嚴密精細等問題。而嵌入式CPU大多工作在為特定用戶群設計的系統(tǒng)中, 通常都具有低功耗、體積小、集成度高等特點, 能夠把通用CPU中許多由板卡完成的任務集成在芯片內(nèi)部,從而有利于嵌入式系統(tǒng)設計趨于小型化, 移動能力大大增強, 跟網(wǎng)絡的耦合也越來越緊密。嵌入式系統(tǒng)中的軟件一般都固化在存儲器芯片或單片機本身中, 而不是存貯于磁盤等載體中, 提高執(zhí)行速度和系統(tǒng)可靠性。因此在變電站計算機監(jiān)控系統(tǒng)這樣可靠性、安全性、實時性要求高的領域, 嵌入式系統(tǒng)比PC系統(tǒng)技術(shù)更有優(yōu)勢。
綜上所述,設備選型時盡量避免PC工控機的使用,應考慮散熱性能好、閃存存儲、嵌入式系統(tǒng)、結(jié)構(gòu)嚴密的裝置型設備, 以提高電力系統(tǒng)運行設備的可靠性及工作壽命。南京研維銷售全系列研華工控機,歡迎來電咨詢產(chǎn)品選型和技術(shù)咨詢;
企業(yè)分站 在線客服 : 服務熱線: 025-86136252 / 15062244194 電子郵箱: [email protected]
公司地址:江蘇省南京市江寧區(qū)未來科技城
研維信息是一家集研發(fā)、生產(chǎn)、銷售為一體的工控機、嵌入式安裝工業(yè)平板電腦、加固手持平板電腦、加固類三防計算機的專業(yè)設備提供商,提供各種尺寸和規(guī)格的安裝式工業(yè)平板電腦,手持三防平板電腦,加固三防計算機。核心研發(fā)及市場團隊均有10余年的相關(guān)行業(yè)背景,尤其是公司的ODM團隊,可以為客戶提供快速、質(zhì)優(yōu)、靈活的客戶定制化產(chǎn)品OEM及ODM服務,公司對員工及客戶,都一直秉承合作共贏、以德為先的經(jīng)營宗旨,為客戶提供優(yōu)質(zhì)產(chǎn)品及服務,提升客戶價值。