提取我的整个Marketo Engage数据库需要多少存储?
我想从Marketo Engage中提取并存储所有数据。 我需要多少存储空间?
描述 description
环境
Marketo Engage
解决方法 resolution
概要
没有可重复的方法可以准确估计抽取和存储Marketo Engage数据库所需的存储量。 数据可用性、字段选择、存储方法等是很好的估计方法。 任何准确的估计都将考虑到每种类型数据的潜在规模及其数量(数据科学家称之为“事实和维度”)。 确定这些值的范围需要大量准备,并且可能需要高水平的技能。
重要说明:估算数据库大小非常困难,因此任何用于制定业务决策的估算都应与数据库或应用程序架构师或其他合格的专业人员合作进行。
范围
将不会提取某些信息。 例如,无法提取有关匿名潜在客户的信息。 一些可提取的数据可能根本就不需要了。 根据您的需求选择正确的数据是最佳实践,因为它会减少所需的存储并导致更高效的提取过程。
字段定义
在目标系统中定义字段的方式将影响存储的数据量。 根据您的存储格式,填充可能在提取的数据库大小中起作用。 例如,Marketo中的“国家/地区”字段是一个最多包含255个字符的字符串。 您可以选择为每个国家/地区值存储255个字符。 或者,您可以选择使用可变空间量的格式。 您可能还知道,最长的国家名称是“大不列颠及北爱尔兰联合王国”,这意味着其中的199个字符将始终是额外的,因此您将从Marketo中截断仅存储前56个字符的值。 每个选择都将影响所提取数据库的大小。 估算每个潜在客户199个不必要的字符并为其他字段做出类似决策将导致存储需求增加和提取时间变慢。
格式
标识所需数据后,下一步是从Marketo Engage中提取、转换数据并将其加载(ETL)到存储系统中。 Marketo API返回的数据是纯旧文本,通常采用JSON或CSV格式。 为了获取有用的信息,您会将其从JSON转换为存储系统所需的格式。 该格式可以是Excel电子表格、Microsoft SQL数据库或与模式无关的数据库,如Azure Cosmos DB。 数据的格式化和编码方式将极大地影响所需的存储量。 以下是一个简单的示例:一个在单元格A1中带有“Marketo Engage”的Microsoft Excel电子表格。 我以四种不同的格式保存了同一个文件,结果文件大小在1 KB到25 KB之间。 您存储信息的格式对最终存储需求的影响可能比数据本身更大。
为了帮助说明存储系统的影响,请查看本指南以了解Microsoft SQL数据库大小估计: https://docs.microsoft.com/en-us/sql/relational-databases/databases/estimate-the-size-of-a-database
功能化
提取完数据后,您打算如何处理这些数据? 存档数据(只是存储数据)最简单,而且限制最少。 压缩的存档(Zip文件)将大大节省存储空间,但需要付出功能成本和易用性成本。 使数据功能化(在应用程序中使用数据)需要更多的功能:至少要有更好的速度和可搜索性:通常是关系数据库。 应用程序通常需要其他数据,也需要对这些数据进行说明。
数值和维度:进行数学运算
要走到这一步,需要做很多工作。 确定提取的数据的存储方式后,您可以为提取的每种对象类型(商机、电子邮件、活动等)设置大小的上限和下限。 这些是你的事实。 然后将这些值乘以每种类型记录的数量。 这些是您的维度。 再加上目标存储系统的开销及其功能要求,以生成最终估计值。