本文講述字節(jié)跳動(dòng)一款 App產(chǎn)品的數(shù)據(jù)治理故事。該產(chǎn)品隨著用戶體量和數(shù)據(jù)體量不斷增長(zhǎng),數(shù)倉(cāng)的任務(wù)量、數(shù)據(jù)量也不斷攀升,運(yùn)維難、成本貴、穩(wěn)定性等問(wèn)題在不斷凸顯。通過(guò)使用火山引擎DataLeap的數(shù)據(jù)治理能力,3個(gè)月時(shí)間將計(jì)算成本大幅縮減20%。
該產(chǎn)品是一款近千萬(wàn)級(jí)DAU的產(chǎn)品,疫情3年,催生了大量的線下需求轉(zhuǎn)型至線上,海量的數(shù)據(jù)雖然為產(chǎn)品創(chuàng)造了巨大的價(jià)值,但是也增高了計(jì)算成本和存儲(chǔ)成本?!俺杀局卫韺m?xiàng)”成為了這個(gè)產(chǎn)品的重要工作之一,為了解決數(shù)據(jù)治理的問(wèn)題,產(chǎn)品接入了火山引擎自研的大數(shù)據(jù)開發(fā)套件——DataLeap,主要圍繞下述兩個(gè)場(chǎng)景進(jìn)行成本治理:
1. 快速啟動(dòng)并獲得收益
(相關(guān)資料圖)
大數(shù)據(jù)場(chǎng)景下計(jì)算資源的重要價(jià)值和昂貴成本,需要每個(gè)任務(wù)都按需使用。而在實(shí)際的業(yè)務(wù)開發(fā)過(guò)程中,存在大量的異常計(jì)算任務(wù),浪費(fèi)了大量的計(jì)算資源。計(jì)算場(chǎng)景也因此成為該產(chǎn)品數(shù)倉(cāng)團(tuán)隊(duì)成本治理的關(guān)鍵切入點(diǎn)。
通過(guò)DataLeap,數(shù)倉(cāng)團(tuán)隊(duì)可以設(shè)置明確治理目標(biāo),并配置治理域,通過(guò)選定各種規(guī)則的任務(wù)治理,比如關(guān)閉/下線無(wú)效任務(wù)、優(yōu)化高耗時(shí)并且占用資源 TopN 任務(wù)、優(yōu)化資源申請(qǐng)不合理 TopN 任務(wù)、優(yōu)化表產(chǎn)出小文件 TopN 任務(wù)等,由此對(duì)隊(duì)列阻塞情況進(jìn)行改善,完成階段性進(jìn)行縮容。
DataLeap 還支持對(duì)任務(wù)執(zhí)行進(jìn)行全鏈路監(jiān)控,自動(dòng)發(fā)現(xiàn)這些異常的計(jì)算任務(wù),并在工作臺(tái)進(jìn)行展示,讓數(shù)據(jù)研發(fā)人員可以查看相應(yīng)任務(wù),并采取治理措施。
2. 按季度持續(xù)治理
數(shù)據(jù)治理是一項(xiàng)長(zhǎng)期性、系統(tǒng)性的工作,通過(guò)DataLeap平臺(tái),該產(chǎn)品優(yōu)先實(shí)現(xiàn)了數(shù)據(jù)按季度持續(xù)治理。
DataLeap 平臺(tái)提供一系列任務(wù)圈選規(guī)則,可以圈選出無(wú)效、高耗時(shí)、資源申請(qǐng)不合理、小文件異常、近7天內(nèi)無(wú)更新、寫入數(shù)據(jù)、近90天無(wú)訪問(wèn)表等規(guī)則,進(jìn)行定期掃描,由此實(shí)現(xiàn)周期性成本治理。除此之外,DataLeap還提供通知、一鍵拉群等治理運(yùn)營(yíng)操作,支持查看治理效果,沉淀治理經(jīng)驗(yàn),有效推動(dòng)數(shù)倉(cāng)團(tuán)隊(duì)成本推動(dòng)進(jìn)展。
其次,為了能更直觀監(jiān)測(cè)到數(shù)倉(cāng)健康度、量化治理效果,產(chǎn)品團(tuán)隊(duì)還引入了DataLeap「健康分」體系。一旦出現(xiàn)健康分不達(dá)標(biāo)情況,會(huì)及時(shí)限制產(chǎn)品使用資源比例、資源申請(qǐng)等。DataLeap還支持繁忙和閑置時(shí)段隊(duì)列資源利用率的監(jiān)測(cè),可以幫助飛書數(shù)倉(cāng)團(tuán)隊(duì)優(yōu)化任務(wù)調(diào)度措施。
最終,該產(chǎn)品的數(shù)倉(cāng)團(tuán)隊(duì)主要從YARN和HDFS切入,在引入DataLeap的三個(gè)月內(nèi),快速落地成本治理項(xiàng)目。在計(jì)算治理場(chǎng)景,實(shí)現(xiàn)YARN 隊(duì)列成本降低 20%;在存儲(chǔ)治理場(chǎng)景,已釋放 7PB 存儲(chǔ)空間。
隨著數(shù)據(jù)的不斷累積和業(yè)務(wù)的不斷發(fā)展,大數(shù)據(jù)的體量將會(huì)變得越來(lái)越大,而隨之而來(lái)的龐大成本,也成為了大數(shù)據(jù)建設(shè)中越來(lái)越無(wú)法忽視的問(wèn)題。火山引擎DataLeap基于字節(jié)跳動(dòng)業(yè)務(wù)場(chǎng)景和實(shí)踐經(jīng)驗(yàn),沉淀有一套完整的數(shù)據(jù)質(zhì)量、SLA治理、資源優(yōu)化、告警優(yōu)化的能力,可以為業(yè)務(wù)提供流暢順滑的數(shù)據(jù)治理體驗(yàn);在流程上,覆蓋規(guī)劃式、響應(yīng)式的用戶數(shù)據(jù)治理雙路,同時(shí)與各業(yè)務(wù)密切配合,落地和沉淀多項(xiàng)治理規(guī)則。(作者:邵苗)