實(shí)施外部工具可以定期通過(guò)暴露終端訪問(wèn)應(yīng)用程序中的功能檢查。這個(gè)模式可以幫助驗(yàn)證的應(yīng)用和服務(wù)被正確執(zhí)行。
它是很好的做法,并且通常是一個(gè)業(yè)務(wù)需求,并監(jiān)控web應(yīng)用程序,和中間層和共享服務(wù),以確保它們是可用的,并執(zhí)行正確的。然而,它更難以監(jiān)測(cè)在云中運(yùn)行比它要監(jiān)控本地服務(wù)的服務(wù)。舉例來(lái)說(shuō),你不必完全控制主機(jī)環(huán)境,而服務(wù)通常依賴于平臺(tái),供應(yīng)商和其他公司提供其他服務(wù)。
也有一些影響云托管的應(yīng)用,如網(wǎng)絡(luò)延遲,性能和下面的計(jì)算和存儲(chǔ)系統(tǒng)的可用性,以及它們之間的網(wǎng)絡(luò)帶寬的因素很多。由于任何這些因素的服務(wù)可能完全或部分失敗。因此,您必須定期驗(yàn)證服務(wù)正在執(zhí)行正確,以確??捎眯?,這可能是您的服務(wù)級(jí)別協(xié)議(SLA)的一部分所要求的水平。
通過(guò)將請(qǐng)求發(fā)送到應(yīng)用程序的端點(diǎn)實(shí)施健康監(jiān)測(cè)。該應(yīng)用程序應(yīng)該執(zhí)行必要的檢查,并返回其狀態(tài)的指示。
一種保健監(jiān)測(cè)檢查通常結(jié)合了兩個(gè)因素:檢查(如果有的話)的應(yīng)用程序或服務(wù)響應(yīng)于所述請(qǐng)求發(fā)送到健康驗(yàn)證端點(diǎn)執(zhí)行,并且結(jié)果由工具或框架正在執(zhí)行健康檢查驗(yàn)證的分析。的響應(yīng)代碼表示的應(yīng)用程序的狀態(tài)和任選的任何組件或服務(wù),它使用。的延遲或響應(yīng)時(shí)間檢查由監(jiān)測(cè)工具或框架進(jìn)行。圖1示出了該模式的執(zhí)行的概述。
http://wiki.jikexueyuan.com/project/cloud-design-patterns/images/hemm.png" alt="" />
圖1 - 模式概述
附加的檢查,可能如下進(jìn)行:在該應(yīng)用程序的運(yùn)行狀況監(jiān)視代碼包括:
幾個(gè)現(xiàn)有的服務(wù)和工具可用于監(jiān)視 web 應(yīng)用程序通過(guò)提交一個(gè)請(qǐng)求到一組可配置的端點(diǎn),并評(píng)價(jià)針對(duì)一組可配置的規(guī)則的結(jié)果。它相對(duì)容易地創(chuàng)建一個(gè)服務(wù)端點(diǎn),其唯一的目的是要在系統(tǒng)上執(zhí)行一些功能測(cè)試。
這可以通過(guò)監(jiān)控工具來(lái)執(zhí)行典型的檢查包括:
它也是有用的,在可能情況下,以內(nèi)部部署和托管的位置運(yùn)行,從這些不同的檢查,以測(cè)量和來(lái)自不同地方比較的響應(yīng)時(shí)間。理想情況下,你應(yīng)該監(jiān)視那些貼近客戶,以得到每個(gè)位置的性能進(jìn)行精確的視圖位置的應(yīng)用程序。除了提供一個(gè)更為堅(jiān)固的檢查機(jī)制,其結(jié)果可能會(huì)影響部署位置的選擇的應(yīng)用程序,以及是否在一個(gè)以上的數(shù)據(jù)中心部署。
試驗(yàn)還應(yīng)該對(duì)所有客戶使用,以確保應(yīng)用程序正常工作的所有顧客的服務(wù)實(shí)例運(yùn)行。例如,如果客戶的存儲(chǔ)空間分布在多個(gè)存儲(chǔ)賬戶,在監(jiān)測(cè)過(guò)程中,必須檢查所有的這些。
在決定如何實(shí)現(xiàn)這個(gè)模式時(shí),請(qǐng)考慮以下幾點(diǎn):
確保應(yīng)用程序不會(huì)正確地當(dāng)目標(biāo)資源是發(fā)現(xiàn)和處理僅返回200狀態(tài)碼。在某些情況下,使用母版頁(yè)來(lái)承載目標(biāo)網(wǎng)頁(yè)的時(shí)候,例如,服務(wù)器可能會(huì)返回一個(gè) 200 OK 狀態(tài)碼,而不是一個(gè) 404 未找到的代碼,即使沒有找到目標(biāo)內(nèi)容頁(yè)面。
DoS 攻擊是可能對(duì)一個(gè)單獨(dú)的端點(diǎn),它執(zhí)行基本功能測(cè)試,而不會(huì)影響應(yīng)用程序的動(dòng)作的影響較小。理想情況下,應(yīng)避免使用測(cè)試可能暴露敏感信息。如果你必須返回,可能是對(duì)攻擊者有用的信息,考慮如何將保護(hù)端點(diǎn)免受未經(jīng)授權(quán)的訪問(wèn)數(shù)據(jù)。在這種情況下,僅僅依靠默默無(wú)聞是不夠的。還應(yīng)該考慮使用 HTTPS 連接和加密的任何敏感數(shù)據(jù),盡管這會(huì)增加服務(wù)器上的負(fù)載。
還要確保監(jiān)控系統(tǒng)進(jìn)行自身檢查,如自檢和內(nèi)置的測(cè)試,以避免它在發(fā)出假陽(yáng)性結(jié)果。
這種模式非常適合于:
下面的代碼示例,從 HealthCheckController 類的 HealthEndpointMonitoring.Web 項(xiàng)目采取包括可以下載本指南的樣品,演示露出一個(gè)端點(diǎn)進(jìn)行一系列健康檢查。
該 CoreServices 方法,如下所示,執(zhí)行在應(yīng)用程序中使用的服務(wù)的一系列檢查。如果所有的測(cè)試中沒有錯(cuò)誤執(zhí)行,該方法返回一個(gè) 200(OK)狀態(tài)碼。如果有任何的測(cè)試引發(fā)了異常,該方法返回一個(gè) 500(內(nèi)部錯(cuò)誤)狀態(tài)碼。當(dāng)發(fā)生錯(cuò)誤時(shí)的方法,可任選地返回附加信息,如果該監(jiān)控工具或框架能夠利用它。
public ActionResult CoreServices()
{
try
{
// Run a simple check to ensure the database is available.
DataStore.Instance.CoreHealthCheck();
// Run a simple check on our external service.
MyExternalService.Instance.CoreHealthCheck();
}
catch (Exception ex)
{
Trace.TraceError("Exception in basic health check: {0}", ex.Message);
// This can optionally return different status codes based on the exception.
// Optionally it could return more details about the exception.
// The additional information could be used by administrators who access the
// endpoint with a browser, or using a ping utility that can display the
// additional information.
return new HttpStatusCodeResult((int)HttpStatusCode.InternalServerError);
}
return new HttpStatusCodeResult((int)HttpStatusCode.OK);
}
該 ObscurePath 方法顯示了如何讀取應(yīng)用程序配置的路徑,并用它作為測(cè)試端點(diǎn)。這個(gè)例子也說(shuō)明了如何接受一個(gè) ID 作為參數(shù),并用它來(lái)檢查有效的請(qǐng)求。
public ActionResult ObscurePath(string id)
{
// The id could be used as a simple way to obscure or hide the endpoint.
// The id to match could be retrieved from configuration and, if matched,
// perform a specific set of tests and return the result. It not matched it
// could return a 404 Not Found status.
// The obscure path can be set through configuration in order to hide the endpoint.
var hiddenPathKey = CloudConfigurationManager.GetSetting("Test.ObscurePath");
// If the value passed does not match that in configuration, return 403 "Not Found".
if (!string.Equals(id, hiddenPathKey))
{
return new HttpStatusCodeResult((int)HttpStatusCode.NotFound);
}
// Else continue and run the tests...
// Return results from the core services test.
return this.CoreServices();
}
該 TestResponseFromConfig 方法顯示了如何可以公開執(zhí)行一個(gè)指定的配置設(shè)定值檢查的端點(diǎn)。
public ActionResult TestResponseFromConfig()
{
// Health check that returns a response code set in configuration for testing.
var returnStatusCodeSetting = CloudConfigurationManager.GetSetting(
"Test.ReturnStatusCode");
int returnStatusCode;
if (!int.TryParse(returnStatusCodeSetting, out returnStatusCode))
{
returnStatusCode = (int)HttpStatusCode.OK;
}
return new HttpStatusCodeResult(returnStatusCode);
}
在Azure應(yīng)用程序監(jiān)控終端的一些選項(xiàng)包括:
注意: 盡管 Azure 提供一個(gè)合理的全面的監(jiān)控選項(xiàng),您可以決定使用額外的服務(wù)和工具,以提供額外的信息。
Azure 管理服務(wù)提供了各地的警報(bào)規(guī)則建立了一個(gè)全面的內(nèi)置監(jiān)控機(jī)制。管理服務(wù)網(wǎng)頁(yè)中的 Azure 管理門戶 Alerts 部分,可以配置高達(dá)每認(rèn)購(gòu)10警報(bào)規(guī)則為您服務(wù)。這些規(guī)則指定一條件和用于服務(wù)諸如 CPU 負(fù)載的閾值,或每秒請(qǐng)求或錯(cuò)誤的數(shù)量,并且該服務(wù)可以自動(dòng)發(fā)送電子郵件通知給你在每個(gè)規(guī)則定義的地址。
您可以監(jiān)視具體費(fèi)用取決于您選擇適合您的應(yīng)用程序的托管機(jī)制的條件下(如網(wǎng)站,云服務(wù),虛擬機(jī),或移動(dòng)服務(wù)),但所有這些,包括創(chuàng)建使用網(wǎng)絡(luò)端點(diǎn)警報(bào)規(guī)則的能力您在為您服務(wù)的設(shè)置指定。此端點(diǎn)應(yīng)該及時(shí)地作出反應(yīng),以使警報(bào)系統(tǒng)可以檢測(cè)到該應(yīng)用程序是否正常運(yùn)行。
注意: 有關(guān)創(chuàng)建監(jiān)視警報(bào)的詳細(xì)信息,請(qǐng)參閱 MSDN 上的管理服務(wù)。
如果你的主機(jī)在 Azure 云服務(wù)網(wǎng)絡(luò)和工作角色或虛擬機(jī)應(yīng)用程序時(shí),您可以采取的內(nèi)置服務(wù)在Azure中所謂的流量管理器中的一個(gè)優(yōu)勢(shì)。流量管理器是一個(gè)路由和負(fù)載平衡服務(wù),可以將請(qǐng)求分發(fā)到您的云服務(wù)托管的應(yīng)用程序基于一系列的規(guī)則和設(shè)置的具體實(shí)例。
除了請(qǐng)求路由,流量管理坪的 URL,端口和相對(duì)你定期指定的路徑來(lái)確定其規(guī)則中定義的應(yīng)用程序的實(shí)例是活動(dòng)的,并響應(yīng)請(qǐng)求。如果它檢測(cè)到一個(gè)狀態(tài)代碼 200(OK)它標(biāo)志著應(yīng)用程序可用,其他狀態(tài)的代碼會(huì)導(dǎo)致流量管理器來(lái)標(biāo)記應(yīng)用程序離線。您可以查看流量管理器控制臺(tái)的狀態(tài)和配置規(guī)則來(lái)重新路由請(qǐng)求被響應(yīng)的應(yīng)用程序的其他實(shí)例。
但是,請(qǐng)記住,流量管理器將只等待10秒鐘,以接收來(lái)自監(jiān)控URL的響應(yīng)。因此,你應(yīng)該確保你的健康驗(yàn)證碼這個(gè)時(shí)間范圍內(nèi)執(zhí)行,允許網(wǎng)絡(luò)延遲從流量管理器往返于您的應(yīng)用程序,然后再返回。
注意: 有關(guān)使用 Windows 流量管理器來(lái)監(jiān)視你的應(yīng)用程序的更多信息,請(qǐng)參閱 MSDN 上微軟 Azure Traffic Manager 的。流量管理器在多個(gè)數(shù)據(jù)中心部署指南進(jìn)行了討論。