Data Driven建立智能帳務搜尋平台
Posted On 2022 年 6 月 21 日
數據驅動(Data-Driven)
隨著 Data-Driven 世代的來臨,資料的蒐集與處理變得越來越重要,隨著數量的增加,可以根據統計、分析甚至是當下流行的人工智慧來得到洞察先機的訊息,這些資料大致可分為結構化資料、非結構化資料與半結構化資料。
結構化資料:
結構化資料,意指每筆資料都有固定的格式、順序與欄位,以線上轉帳為例,每筆交易紀錄都會是由匯出帳戶、匯入帳戶、金額、時間與備註等有固定內容的資料。另外以企業角度來看,內部的資料庫或是數據倉儲系統,皆是以結構化資料的方式儲存。
非結構化資料:
大部分的資料都是所謂的非結構化資料,根據 International Data Corporation (IDC) 估計,到 2025 年,世界上所有數據的總和將達到 175 ZB。 大多數的數據皆是非結構化的資料,只有大約 10% 會被存儲,其中能被拿來做分析的又是少之又少。所以如何去搜集資料與搜尋資料再來做分析,就成了企業成長的重點中的重點。
而非結構化的資料又有哪些呢?從常見的圖片、影片到音訊檔,再到word、pdf 和 e-mail 等等的檔案皆是所謂的非結構化資料,在企業的內部每天都會產生大量的類似檔案,這些資料如何儲存再利用就是個困難的挑戰。
半結構化資料
意指每筆資料具有固定的欄位但是內容的格式與型態不盡相同,舉例來說,企業內部會搜集新聞的資料來做分析,內容就會儲存新聞的日期、標題、文章內容與其他資訊,而這個其他資訊,可能會是該篇新聞的圖片、影片或是音訊檔,這樣的資料具有一定的格式但是某個欄位的內容又無法以單純的格式做歸納,就被稱為半結構化資料。
以個人層面來說,每天都會透過查詢來獲取所需的資訊,在google maps上查找餐廳,透過關鍵字去查詢新聞內容,最近更因為疫情的關係,大眾也開始使用各商家推出的線上服務,不管是外送餐點、外送生鮮或是線上購物,都是以刷卡或是行動支付的方式進行,這些交易不同於以往的現金交易,線上交易都會留下紀錄,使用者即可在自己的帳戶中查詢到歷史交易的資訊,由此可見,大眾的生活脫離不了查詢。
而各企業與行庫需要面對的即是如何儲存巨量且長時間資料紀錄的挑戰,如何運用有效率的查詢去尋找有用的資料又成了重中之重。
Smart Search 使用場景
Smart Search 的應用場景非常的多元,從結構化的資料到非結構化的資料,或是企業內的檔案系統到面對客戶的平台、電商,有任何搜尋的場景都是Smart Search可以發揮的場域。
關聯式資料庫中可以透過模糊搜尋 (LIKE) 的方式去做到全文檢索的功能,但隨著表中資料量成長,其所耗費的時間也會隨之增長,儘管現行的關聯式資料庫也有特別針對全文檢索場景開發新功能,雖然資料量小的時候速度很快,但是對於數千萬以上的資料,其檢索的時間則會明顯的增加,同時也只能針對結構化的資料進行全文檢索,除此之外,關連式資料庫的全文檢索功能與Smart Search相比也較少,Smart Search可以針對查詢結果進行評分,以排序結果的相關性等。
而 Smart Search 則可針對全文檢索的場景進行特化,其在儲存純文字資料時會透過特化的索引結構,先使用斷字詞技術後歸納入索引表中,全文檢索時再透過其中的斷字詞去搜尋。
除此之外,在企業中時常會需要全文檢索的功能,查找客戶資料或是特定內容的會議紀錄和逐字稿,而 Smart Search 可以有效地滿足此種要求,我們會先將其中的文字做處理,從一般的非結構化資料轉換成半結構化資料,使其多了一定的格式方便管理,同時也使其成為能被查詢的資料,再透過 Smart Search中的全文檢索功能,即可更加快速的找到所需的資料。
所以只要是文字相關或是圖檔經過OCR轉換出文字標籤的資料,皆能透過 Smart Search 帶給企業與客戶意想不到的新體驗,以下為 Smart Search 在企業中的使用案例。
資料應用平台
企業內部有許多客戶的資料,例如:客戶公司行號、地址、董監事等,這些資料都是屬於文字,在搜尋的時候也會用全文檢索的方式去查詢,在一般的關聯式資料庫中要做到這種全文檢索就相對的成本較高、消耗的資源較大,效能上較差,透過將企業內部的資料導入Smart Search後,只需輸入關鍵字即可快速查找到這些文字中的內容。
智能帳務搜尋平台
現行行庫使用關聯式資料庫,若要全文檢索時間跨度長且資料量大的帳務資訊,會造成資料庫的壓力,如何在快速且使用量大的情境下,提供給使用者一個即時且智慧的搜尋,同時也能讓使用者有良好的搜尋體驗,是個至關重要的事情。
對於使用者而言,希望尋找先前的特定消費紀錄,比如每個月訂外食的花費、定時定額的保險費或是投資費用,又或是特定字詞的紀錄,這時Smart Search 的方便性與快速性就完整的體現出來了。當使用者忘記完整字段,只記得零碎字詞時,Smart Search也能透過歷史的搜尋記錄或是存放的資料做到自動補詞的功能,來幫助使用者快速的查找資料。
Smart Search 特點
不同資料源的介接整合
企業內部可能有許多已存在的資料源,從檔案、kafka、RDB或是Hadoop 的大數據平台,Smart Search 可以從這些資料源中整合,將內容做整理並更有系統地存放。分散式架構
Smart Search具有分散式架構,分散式架構能夠存放大量資料並且可隨時透過增加硬體規格來提升容量,不同於單台主機的擴充性上限,當單台主機擴充滿時,可以輕易的將其他機器納入該分散式叢集當中,而非結構化資料比起結構化的資料所需要的空間又更大,此種架構處理此種資料起來更加的得心應手,除此之外,分散式架構還能透過個別系統的算力來提升運算的效能。
資料更新快速
寫入資料到查詢資料是即時的服務,從不同的資料源或是即時的收訊,皆可以快速的存進資料叢集當中,接續馬上就能被使用者查詢到此筆更新資料,透過壓力測試,確保系統穩定及效率符合客戶需求。使用在線上交易,讓使用者馬上就能低延遲的查找到剛才的交易紀錄,保證用戶便利又安心。
部署方式多元
Smart Search 的服務,部屬的方式非常的多元,可以根據企業的需求在其中不同的環境中部署,不管是虛擬機環境部署、實體機安裝或是kubernetes上。
自定義同義詞、自定義權重
可以根據企業內部的規則或是使用者的體驗來做調整查詢的結果內容,詳細的部分可以根據以下這兩的面向去做調整:
自定義同義詞:
以個人而言,平時在整理帳務時,時常會想看看近期的總收入來源,可是卻要單一去做查詢,像是查詢薪水則只會跳出薪水的資料,有同義詞後,可以自己定義跟薪水相關的詞彙有哪些,例如:獎金、分紅、紅利等字詞,即可同時呈現與薪水相關的訊息。大大的提升了查詢的便利性。
自定義權重:
每筆資料會有數個欄位,某些欄位可能在查詢時會相較起來較重要,這時就可以去自定義哪些欄位的權重是較高的,這樣查詢時可以專注在本身覺得較為重要的欄位。
例如:兩筆資料,第一筆的查詢內容出現在標題當中,第二筆資料的查詢內容出現在備註當中,就可以知道第一筆的資料與查詢內容的相關性較高,合理性來說查詢的結果應該要排序較高。
總結
不限區間、跨年度、關鍵字的全方位智能搜尋資訊
偉康 Smart Search 提供從資料擷取、資料轉換、資料儲存到資料呈現,端到端客戶系統所需之全方位解決方案。除了全文檢索能力的搜尋引擎,透過分散式叢集且高度的可擴展架構、穩定性與標準化Restful API 存取介面,更有及時的索引更新效率,皆是打造智能搜尋平台不可或缺的利器。
1.整合內部系統快速查詢
不限區間歷史資訊查詢,可以跨服務整合海量歷史紀錄,讓使用者皆可透過關鍵字搜尋到所有相關紀錄,使客戶能取得更久更多的相關資訊,對使用者而言,自己管理資訊內容也是十分地花時間,這個服務可以幫忙省去許多不便之處。
2.關鍵字與全文搜尋
搜尋導向,使用者更直覺式操作,透過輸入簡短的關鍵字,即可知道自己過去一年有多少筆投資紀錄,或是企業內部想了解最近的客戶資訊、生產料號、訂單和資源管理等紀錄。
關鍵字搜尋滿足使用者對於自己資料歷程的所有資訊,使用者透過關鍵字詞查詢所有資訊,包含備註、標籤等,無需以時間區間作為搜尋的必要條件,既快速又方便。
3.使用者體感up up
快速且不限區間,提供使用者跨年度、跨帳戶的各種查詢方式,除此之外也提供中文斷字詞、熱搜字詞、自動補字詞、糾錯字、同義字詞、關聯字詞等,提高使用者的體驗。
專人協助
由偉康業務人員為您詳細說明偉康的解決方案,以及相關產業經驗。