数据科学词汇表:250+核心术语速查手册

刚接触数据科学时,繁多的专业术语容易让人无从下手,熟练掌握这些词汇,能帮你搭建扎实的知识体系。无论你的职业岗位是什么,职场中大概率都需要具备基础的数据科学认知。不管你是想精进数据科学家技能,还是刚入门探索新概念,这份KNIME 专家整理、适配KNIME 中文版使用的全面词汇表,都能帮你吃透从准确性Z 分数的各类核心概念。

小提示:建议收藏本文,搭配KNIME 中文版实操学习,遇到数据科学相关疑问时随时查阅。

关于 KNIME 中文版(适配本词汇表的低代码数据科学平台)

KNIME 中文版是在开源 KNIME Analytics Platform 基础上优化的中文本地化版本,完整保留核心功能,支持全中文界面、节点汉化、菜单与配置汉化,并提供集中式语言包实时更新,避免版本碎片化,大幅降低中文用户学习门槛。它采用可视化拖放式工作流,无需编写代码即可完成数据准备、清洗、建模、可视化与部署,完美匹配本词汇表中所有数据科学流程与术语,是新手快速落地术语知识的首选工具。

A

  • A/B 测试:通过对比网页、邮件、算法等变量的两个版本(A 版和 B 版),判断哪一版效果更优的实验方法,是用真实数据与用户行为验证决策的实用工具。
  • ANOVA(方差分析):一种统计方法,通过对比组内变异与组间变异,检验三个及以上独立组别均值是否存在统计学显著差异。
  • API(应用程序编程接口):作为软件中间件,实现不同软件应用间的通信与数据交互。
  • 准确性:衡量预测模型正确预测结果的频率,二分类问题中,指模型正确识别两类样本的次数占总样本数的比例。
  • Adam 优化(自适应矩估计):用于深度学习模型训练的优化算法,可动态调整各参数学习率,具备计算高效、内存占用低、收敛速度快的特点。
  • 代理卡:JSON 格式的元数据文档,用于帮助用户发现代理、了解代理身份、能力、接口、技能及认证要求,指导交互方式。
  • 算法:解决问题、执行计算的一系列数学操作流程,数据科学中用于数据集预测与模式挖掘。
  • 备择假设:统计检验中,主张自变量对因变量存在影响的假设,研究者通过统计检验验证其成立依据。
  • 异常检测:识别数据集中稀有数据点的过程,常用异常值检测技术,分离与多数样本差异显著的数据点。
  • Apache Spark(阿帕奇火花):面向大规模数据分析的引擎,支持数据并行、容错处理,可实现大数据集的可扩展计算。
  • AI(人工智能):跨计算机科学、统计学、软件工程、语言学、神经科学、心理学的综合领域,核心是研发能推理、学习、执行人类智能级数据处理任务的系统。
  • ANN(人工神经网络):受生物神经网络启发的计算模型,由人工神经元按特定架构连接组成,可通过训练调整参数,应用于模式识别、预测建模、自适应控制等场景。
  • 自回归:适用于时间序列数据的统计方法,以变量自身的滞后值作为预测变量构建回归模型。

B

  • 反向传播:前馈神经网络的训练方法,先输入数据得到输出,通过损失函数计算误差,再反向推导各权重贡献值,按学习率调整权重,反复迭代降低误差。
  • 装袋(引导聚合):集成学习技术,在不同有放回抽样的引导样本上训练多个模型,整合预测结果,减少方差、避免过拟合,提升模型准确性与稳定性。
  • 条形图:用矩形条形展示分类数据的可视化形式,条形长度对应数值大小,用于对比类别频次、数值变化。
  • 贝叶斯统计:统计学分支,用概率表示模型不确定性,结合先验知识,随新数据更新概率,优化预测与决策。
  • 贝叶斯定理:概率论基础定理,基于事件相关先验条件,量化事件发生的概率。
  • 伯努利试验:结果只有成功 / 失败两种的独立实验,单次试验成功概率固定,试验间互不影响。
  • 偏置:模型中的系统性误差,会持续使预测结果偏向某一方向,不受训练数据量影响。
  • 偏差 – 方差权衡:机器学习模型优化中偏差与方差的平衡关系,模型参数增多、复杂度提升时,偏差降低、方差升高,易出现拟合训练数据好、泛化能力差的问题。
  • 大数据:规模极其庞大的数据集,通过计算分析可挖掘人类行为、交互相关的模式、趋势与关联。
  • BigQuery(大查询):谷歌推出的全托管、无服务器数据仓库,支持大型数据集的可扩展查询与分析。
  • 二分类:将数据划分为两个互斥类别的预测建模任务。
  • 二元变量:仅包含两个取值的变量,如真 / 假、是 / 否。
  • 二项分布:计算多次独立伯努利试验中,指定成功次数概率的离散分布。
  • 布尔值:只有真、假两种取值的数据类型。
  • 增强:集成学习技术,串联多个弱学习器,后序模型聚焦前序模型的误差,加权整合结果,降低偏差、提升模型稳定性。
  • 自助法:统计抽样方法,对原始数据集有放回抽样,用于估计统计量的抽样分布,近似计算方差、置信区间等指标。
  • 箱形图:可视化数值变量分布的工具,展示中位数、四分位数与潜在异常值,适合多组数据分布对比。
  • BI(商业智能):企业用于从数据中提取有效洞察的技术与策略,通过报表、分析、仪表盘、绩效评估支撑科学决策。

C

  • 类别变量:取值为有限互斥组别、无内在数值意义的变量,用于分类标注。
  • 卡方检验:用于检验分类数据观测频次与预期频次的差异,判断变量独立性、模型拟合优度的统计方法。
  • 分类:监督学习技术,模型依据输入特征预测样本的类别标签。
  • 聚类分析:无监督学习技术,按距离、频次等指标将相似数据点归为簇,挖掘数据内在结构与模式。
  • 计算机视觉:研究让计算机从图像、视频中解读、理解视觉信息的领域。
  • 串联:数据表层面指垂直合并多个表格;字符串层面指将多个文本端到端拼接成新文本。
  • 一致性 – 不一致比例:衡量配对观测排序一致性的指标,反映数据关联程度。
  • 置信区间:由样本数据推导的数值范围,结合置信水平(如 95%),估计总体参数的所在区间。
  • 混淆矩阵:展示分类模型实际标签与预测标签对比的表格,包含真阳性、真阴性、假阳性、假阴性,用于评估模型性能。
  • 连续概率分布:描述连续型随机变量在区间内取值概率的分布,概率密度函数积分值为 1。
  • 连续随机变量:在指定区间内可取无限个数值的变量,通过测量获取。
  • 收敛:迭代优化过程中,后续迭代无明显改进,算法达到稳定解(多为局部最优)的状态。
  • 凸函数:函数图像上任意两点连线均在图像上方的数学函数,简化优化问题求解。
  • 相关性:衡量两个变量线性关系强度与方向的指标,取值范围 – 1(完全负相关)至 1(完全正相关),0 表示无线性相关。
  • 余弦相似度:计算两个非零向量夹角的余弦值,值接近 1 表示相似度高,接近 0 表示相似度低,接近 – 1 表示方向相反。
  • 成本函数(损失函数):计算模型预测值与实际值误差的函数,指导模型参数优化。
  • 协方差:衡量两个变量协同变化的指标,正值表示变量同向变化,负值表示反向变化。
  • 交叉验证:模型评估技术,将数据划分为多个子集,部分子集训练模型、其余子集验证,评估模型泛化能力。

D

  • DBSCAN(基于密度的带噪声空间聚类):聚类算法,识别数据中密集区域形成簇,稀疏区域的孤立点标记为噪声。
  • 仪表盘:整合关键指标、数据趋势的可视化界面,通过图表、表格展示数据,支持实时监控与决策,交互式仪表盘可添加动态筛选功能。
  • 数据分析:分析数据集提取有效洞察、识别模式,支撑数据驱动决策的过程。
  • 数据清理:识别、修正或删除数据集中的错误、不一致、无关信息,提升数据质量。
  • 数据工程:研发与维护数据采集、处理、转换系统,将原始数据转化为可用于分析、机器学习的高质量一致信息。
  • 数据治理:保障企业数据完整性、质量、安全与可用性的制度与实践框架。
  • 数据湖:集中存储库,可存储各类来源的结构化、非结构化原始数据,支持灵活处理与分析。
  • 数据挖掘:结合统计学、机器学习、数据库技术,从海量数据中发现模式与知识的过程。
  • 数据建模:构建业务需求与数据关系的逻辑表示,数据科学中指创建数据的数学模型,解析数据结构与行为。
  • 数据管道:数据从源头到目的地的流转、转换流程,包含采集、处理、集成、存储等环节。
  • 数据准备:将原始数据转化为适配分析、建模的格式,包含清理、格式化、特征工程等操作。
  • 数据科学:融合数据处理、机器学习、统计学的跨学科领域,从结构化、非结构化数据中提取知识与洞察。
  • 数据科学生命周期:数据科学项目的全流程阶段,涵盖业务理解、数据采集、建模、评估、部署、维护。
  • 数据叙事:结合数据可视化与叙事技巧传递数据洞察的方法,让数据更易理解、更具吸引力。
  • 数据结构:用于高效存储、组织、访问数据的格式,如数组、列表、树。
  • 数据转换:将数据从一种格式、结构转换为另一种格式,满足特定分析或使用需求。
  • 数据类型:定义数据特征的分类,如数值、文本、日期,决定数据的存储与运算方式。
  • 数据可视化:用图表、地图、图形等视觉元素呈现数据,辅助数据探索、分析与沟通。
  • 数据仓库:集中存储库,整合多来源结构化数据,优化用于报表生成与分析。
  • 数据整理:对原始数据进行清理、重组、丰富,转化为适配分析、建模的格式。
  • 数据库:电子存储、组织数据的集合,支持高效的数据检索、更新与管理。
  • 数据帧:类似电子表格、SQL 表格的行列结构数据,常用于数据处理与分析。
  • 数据集:用于分析、建模、机器学习训练的一组相关数据。
  • 十分位:将数据集划分为 10 等份的统计量,每份占数据的 10%,辅助分析数据分布。
  • 决策边界:分类算法划分不同类别样本的分界线(超平面)。
  • 决策树:监督学习算法,依据决策规则拆分数据,构建树状模型实现结果预测。
  • 深度学习:机器学习子集,采用多层神经网络挖掘数据复杂模式,推动图像识别、语音识别等领域发展。
  • 自由度:统计计算中可自由变动的独立数值或参数数量。
  • 因变量:实验中被测量的结果变量,受自变量变化影响。
  • 描述性分析:分析历史与当前数据,识别趋势、关系与模式,以可视化、统计报告呈现,不做预测。
  • 描述性统计:用均值、中位数、众数、标准差等指标,总结数据集核心特征的统计方法。
  • 诊断分析:深入分析数据,探究过往结果的成因,解答 “事件为何发生” 的问题。
  • 降维:在保留核心信息的前提下,减少数据集中变量数量的过程。
  • 离散分布:离散随机变量的概率分布,变量取值有限或可数,所有取值概率和为 1。
  • 离散随机变量:取值为独立、不连续数值的变量,通过计数获取。
  • 虚拟变量:编码为 0 或 1 的二元变量,用于表示分类特征的有无。

E

  • EDA(探索性数据分析):通过统计、可视化方法初步检查数据,了解数据核心特征、模式与分布。
  • ETL(提取 – 转换 – 加载):从多来源提取原始数据,清理、转换为目标格式,加载至数据库、数据仓库等目的地的流程。
  • 提前停止:模型训练优化技术,验证集性能不再提升时停止训练,避免过拟合。
  • 集成学习:整合多个模型的预测结果,输出比单一模型更稳定、准确的预测。
  • 评估指标:衡量预测模型性能的定量指标,如准确性、精确率、召回率。

F

  • F 分数:整合精确率与召回率的综合评估指标,常用于分类模型性能评价。
  • 因子分析:统计方法,用少量未观测的因子解释观测变量的变异,挖掘数据底层结构。
  • 假阴性:二分类中,阳性样本被错误预测为阴性的情况。
  • 假阳性:二分类中,阴性样本被错误预测为阳性的情况。
  • 特征工程:结合领域知识从原始数据中构建新特征,提升机器学习模型性能。
  • 特征哈希:通过哈希函数将特征转换为向量 / 矩阵索引,减少内存占用。
  • 特征简化:在保留核心信息的前提下,减少输入变量数量。
  • 特征选择:从特征集中筛选相关子集,提升模型可解释性与运行效率。
  • 少数样本学习:每类仅用少量标注样本训练模型,实现精准预测的方法。
  • float(浮点型):表示带小数的实数的数据类型。
  • 流变量:在 KNIME 中,用于工作流节点间传递参数、实现动态配置的变量。
  • 傅里叶变换:将时间 / 空间信号转换为频率分量,实现频域分析的数学方法。
  • 频率统计:以事件发生频率为核心的统计学派,关注重复实验的长期结果。
  • 前端:应用程序中用户交互的界面部分,包含按钮、图形等视觉元素。
  • 模糊算法:基于模糊逻辑处理近似推理的算法,为复杂问题提供灵活解决方案。
  • 模糊 c – 均值:基于模糊逻辑的聚类算法,允许数据点以不同隶属度属于多个簇。
  • 模糊逻辑:支持真、假之间中间值的逻辑体系,贴合现实世界的模糊性与不确定性。

G

  • GRU(门控循环单元):改进型循环神经网络,通过门控机制控制信息流,捕捉序列数据的长距离依赖关系。
  • 高斯分布(正态分布):以均值为中心、标准差决定离散程度的对称钟形概率分布。
  • 地理空间分析:采集、分析、可视化地理与空间数据,挖掘位置间模式、关联的分析方法。
  • 拟合优度:检验统计模型、概率分布与观测数据匹配程度的指标。
  • 梯度下降:优化算法,沿成本函数最速下降方向迭代调整参数,最小化误差。
  • 贪婪算法:每一步选择局部最优解,尝试逼近全局最优的算法,不保证全局最优。

H

  • Hadoop:开源框架,支持计算机集群对大数据集的分布式存储与处理。
  • 热力图:用颜色表示矩阵数值的可视化技术,便于发现数据模式、趋势与相关性。
  • 隐马尔可夫模型:统计模型,假设系统为含隐藏状态的马尔可夫过程,从可观测事件推导状态序列。
  • 层级聚类:聚类技术,通过逐步合并小簇、拆分大簇,构建树状聚类结构(树状图)。
  • 直方图:展示数值变量频次分布的可视化图表,用条形表示指定区间内的数据量。
  • 保留样本:模型训练中预留的数据子集,用于评估模型在未见过数据上的表现。
  • 霍尔特 – 温特斯预测:三重指数平滑法,适用于含水平、趋势、季节性的时间序列预测。
  • 人机参与环圈:将人类监督、输入融入机器学习流程,提升模型准确性、公平性与可追溯性。
  • 超参数:模型外部由用户设置的配置项,影响算法训练过程与性能。
  • 超参数调优:选择超参数最优值,使模型达到最佳性能的过程。
  • 超平面:高维空间中的平坦子空间,n 维空间中超平面维度为 n-1,用于分类任务的样本分隔。
  • 假设:基于有限证据提出的解释,可通过统计方法检验真伪。

I

  • 图像识别:人工智能技术,识别数字图像中的物体、图案、特征,应用于人脸识别、医学影像、质量检测等领域。
  • 缺失值补缺:用替代值填充数据集中的缺失值,提升数据完整性,保障分析、建模效果。
  • 自变量:实验中被操控、分类的变量,作为预测变量影响因变量。
  • 推理统计:基于样本数据对总体进行预测、推断的统计方法,包含假设检验、置信区间等。
  • 整数:无小数部分的数值类型,用于计数、索引。
  • 四分位区间(IQR):衡量数据离散程度的指标,为第三四分位数(Q3)与第一四分位数(Q1)的差值,代表数据中间 50% 的范围。
  • 迭代:算法、模型训练中重复执行操作,逐步优化性能、逼近最优解的过程。

J

  • 联合概率:两个及以上事件同时发生的概率,独立事件的联合概率为各事件概率乘积。
  • Julia:面向技术计算的高性能编程语言,运算速度快、数值分析便捷,受数据科学领域青睐。

K

  • K – 均值聚类:将数据划分为 K 个簇,迭代更新簇中心直至收敛的聚类算法。
  • KNN(K 近邻):监督学习算法,依据样本的 K 个最近邻的类别 / 数值,预测当前样本的类别 / 数值。
  • Keras:开源 Python 神经网络库,作为 TensorFlow 等深度学习框架的上层接口。
  • 峰度:衡量概率分布尾部厚度的指标,高峰度代表尾部更重,低峰度代表尾部更轻。

L

  • 标记数据:带有目标标签的样本数据,是监督学习的核心数据基础。
  • LLM(大型语言模型):参数规模达数十亿级的模型,经人类语言数据训练,可处理文本、图像等多类型数据,实现自然对话交互。
  • 套索回归:采用 L1 正则化的线性回归,可将次要特征系数压缩至 0,实现特征选择。
  • 折线图:用直线连接数据点的可视化图表,适合展示数值随时间的变化趋势。
  • 线性回归:监督学习算法,构建自变量与连续因变量的线性关系,实现数值预测。
  • 对数似然度:似然函数的自然对数,用于统计建模中估计最优参数。
  • 对数损失(逻辑损失 / 交叉熵):衡量二分类模型预测概率与实际结果误差的指标。
  • 逻辑回归:二分类监督学习算法,预测样本属于某一类别的概率。
  • LSTM(长短期记忆网络):循环神经网络架构,擅长捕捉序列数据的长期依赖关系,应用于时间系列、自然语言处理。
  • 循环:满足指定条件时,重复执行代码或工作流片段的逻辑结构。

M

  • MLOps(机器学习运维):机器学习模型生产部署的流程、工具与最佳实践,包含模型部署、监控、维护。
  • 机器学习:人工智能子集,研发能从数据中自主学习模式、无需显式编程的系统,用于预测与决策。
  • MapReduce:分布式计算编程模型,集群节点并行执行映射、归约操作,处理大规模数据集。
  • 市场篮子分析:数据挖掘技术,挖掘商品间的关联规则,常用于零售行业分析用户购买行为。
  • 市场组合建模:统计分析技术,估算营销策略对销售的影响,预测营销效果。
  • Matplotlib:Python 数据可视化库,支持创建静态、动态、交互式图表。
  • 最大似然估计:基于观测数据,最大化似然函数以估计概率分布参数的方法。
  • 均值:数据的算术平均值,衡量数据集中趋势的核心指标。
  • 平均绝对误差(MAE):衡量预测值与实际值平均绝对差值的指标,评估数值预测模型性能。
  • 均方误差(MSE):计算预测值与实际值平均平方差的指标,用于数值预测模型评估。
  • 中位数:有序数据的中间值,分割数据为两部分,是稳健的集中趋势指标。
  • 众数:数据集中出现频次最高的数值,适用于分类数据。
  • MCP(模型上下文协议):开放标准,规范大型语言模型等 AI 系统与外部工具、应用的集成数据共享,保障工具兼容性。
  • 模型选择:从候选模型中筛选适配数据集的最优模型,常用交叉验证、评估指标判定。
  • 蒙特卡洛模拟:通过随机抽样计算结果的技术,模拟复杂系统的各类结果概率。
  • 多类别分类:预测样本属于三个及以上类别中某一类的分类任务。
  • 多变量分析:同时分析多个变量,探究变量间关系、交互作用对结果的影响。
  • 多元回归:线性回归的扩展,建模多个自变量与多个因变量的关系。

N

  • NaN:表示非数字,用于标记未定义、无法表示的数值,常指代缺失值。
  • 朴素贝叶斯:基于贝叶斯定理的概率分类器,假设预测变量间相互独立。
  • NLP(自然语言处理):人工智能、计算机科学子领域,让计算机能分析、理解、生成人类语言,包含语音识别、文本摘要等任务。
  • NoSQL:非关系型数据库,不采用传统表格模式,适配大规模非结构化数据存储。
  • 名义变量:无内在排序的分类变量,如性别、颜色。
  • 非关系型数据库:区别于关系型数据库,无固定表格结构,灵活适配非结构化、大规模数据。
  • 正态分布:同高斯分布,对称钟形概率分布。
  • 归一化:将数据缩放至标准范围(通常 0-1)或标准分布,适配机器学习算法要求。
  • 原假设:假设变量间无效应、无关系,用于统计检验的基准假设。
  • 数值预测:基于输入数据预测连续数值的任务。
  • NumPy:Python 科学计算库,支持大规模多维数组、矩阵运算,提供高性能数学函数。

O

  • 一次性学习:机器学习方法,模型仅需每类单个标注样本即可完成学习。
  • 单热编码:将分类数据转换为二进制向量的技术,为每个类别创建独立二进制列。
  • 开源:源代码公开,允许任何人查看、修改、优化的软件模式,促进协作创新。
  • 序数变量:有明确排序关系的分类变量,如学历、满意度评分,层级间差值不固定。
  • 异常值:与多数样本差异显著的数据点,可能源于测量误差或特殊现象。
  • 过拟合:模型学习到训练数据中的噪声而非核心模式,在未见过数据上泛化能力差。

P

  • P 值:原假设成立时,观测到当前及更极端结果的概率,低 P 值代表原假设成立可能性低。
  • Pandas:Python 数据处理库,提供高效的结构化数据(表格、电子表格)操作工具。
  • 参数:模型从训练数据中学习的内部系数、权重,用于生成预测结果。
  • 模式识别:用机器学习算法自动检测、解读数据中规律与模式的技术。
  • 皮尔逊相关系数:衡量两个变量线性相关程度的指标,取值 – 1 至 1。
  • 饼图:圆形分割为扇形的可视化图表,展示各分类占整体的比例。
  • Plotly:Python 开源可视化库,支持创建交互式、高质量的折线图、条形图、3D 图。
  • 泊松分布:离散概率分布,计算固定区间内事件发生指定次数的概率。
  • 多项式回归:监督学习算法,用 n 次多项式建模自变量与因变量的非线性关系。
  • 预训练模型:在大规模数据集上训练完成的机器学习模型,可复用、微调用于相关任务,节省时间与资源。
  • 精确率:分类模型中,真阳性样本占总预测阳性样本的比例。
  • 预测分析:用统计建模、数据挖掘、机器学习技术分析历史数据,预测未来事件、趋势。
  • 预测模型:基于历史数据学习模式,预测未来结果的统计、机器学习模型。
  • 预测变量:同自变量。
  • 处方分析:在预测分析基础上,给出实现目标的具体行动建议。
  • PCA(主成分分析):降维技术,将数据转换为新坐标系,按方差从大到小排序主成分,保留核心信息。
  • 概率分布:描述随机变量所有可能取值及对应概率的分布,分为连续、离散两类。
  • 程序:编程语言编写的有限指令集,指挥计算机执行特定任务。
  • 编程语言:创建软件的形式化指令系统,如 Python、Java、C++。
  • PyTorch:开源 Python 深度学习框架,基于 Torch 库,支持张量计算与 GPU 加速。
  • Python:高级解释型编程语言,可读性强、应用广泛,是数据科学、网页开发、自动化的主流工具。

Q

  • Q-Q 图(分位数 – 分位数图):对比两个概率分布分位数的可视化工具,判断分布是否一致。
  • 四分位数:将有序数据分为四等份的统计量,Q1(25% 分位)、Q2(中位数,50% 分位)、Q3(75% 分位)。

R

  • R:面向统计计算、可视化的解释型编程语言,支持丰富的统计分析与绘图功能。
  • ROC 曲线:接收者操作特征曲线,绘制不同阈值下真阳性率与假阳性率的关系,评估分类模型性能。
  • 随机森林:集成学习方法,构建多棵决策树并整合输出结果,提升分类、回归准确性。
  • 随机抽样:从总体中均等概率抽取子集,保障样本代表性。
  • 随机变量:表示随机事件结果的变量,分为离散、连续两类。
  • 极差:衡量数据离散程度的指标,为数据集最大值与最小值的差值。
  • 原始数据:未经过处理、整理的初始数据,常存储于数据湖,需经清洗、转换后使用,如传感器数据、系统日志。
  • 召回率(灵敏度):真阳性样本占实际阳性总样本的比例,衡量模型识别阳性样本的能力。
  • 推荐引擎:分析用户数据、行为,为用户推荐个性化产品、服务、信息的系统。
  • 回归:建模因变量与一个及以上自变量关系的统计技术。
  • 回归样条:用分段多项式拟合数据的方法,灵活建模非线性关系。
  • 正则化:通过给损失函数添加惩罚项,限制模型复杂度,防止过拟合的技术。
  • 强化学习:机器学习范式,智能体通过与环境交互,获取奖励 / 惩罚反馈,优化决策。
  • 关系数据库:以行列表格存储数据,用 SQL 管理、查询数据,保障表间关联的数据库类型。
  • 重抽样:从数据集中反复抽样,评估统计量变异性的方法,包含自助法、交叉验证。
  • 残差:观测值与模型预测值的差值,用于评估模型拟合效果。
  • 响应变量:同因变量,回归模型中待预测的结果变量。
  • RAG(检索增强生成):AI 框架,从知识库检索相关信息,结合生成模型输出贴合上下文的结果。
  • 脊回归:采用 L2 正则化的线性回归,缩小系数估计值,降低模型复杂度。
  • RMSE(均方根误差):均方误差的平方根,评估数值预测模型准确性的常用指标。

S

  • SMOTE(合成少数类过采样):解决类别不平衡问题的技术,人工生成少数类样本。
  • SQL(结构化查询语言):管理、操作关系型数据库的标准语言。
  • 样本:从总体中抽取的用于分析的子集。
  • 抽样误差:样本统计量与总体参数的差值,由仅观测部分数据导致。
  • 散点图:用笛卡尔坐标系展示两个变量关系的可视化图表。
  • Scikit-Learn:Python 开源机器学习库,提供分类、回归、聚类等高效工具。
  • Seaborn:基于 Matplotlib 的 Python 可视化库,提供高级统计图表绘制接口。
  • 细分:按行为、属性等相似性将数据集划分为有意义组别,用于洞察挖掘、策略定制,常见于营销、客户分析。
  • 选择偏差:数据采集方法导致样本无法代表总体,引发分析结果偏差。
  • 半监督学习:同时使用标注、无标注数据训练模型,适用于标注数据获取成本高的场景。
  • 情感分析:自然语言处理技术,检测、分类文本的情绪倾向(正面、负面、中性),用于客户反馈、社交媒体分析。
  • 偏态:衡量概率分布不对称性的指标,正偏为右尾长,负偏为左尾长。
  • 时空推理:分析跨时间、空间变化的数据,预测、理解动态系统的技术。
  • 斯皮尔曼等级相关系数:非参数统计量,衡量两个排序变量的关联强度与方向。
  • 标准差:衡量数据相对于均值离散程度的指标。
  • 标准误:样本统计量抽样分布的标准差,衡量样本均值的精度。
  • 标准化:将数据转换为均值 0、标准差 1 的标准分布,保障各特征对模型的同等影响。
  • 统计学:收集、分析、解释、呈现数据,基于样本推断总体的科学。
  • SGD(随机梯度下降):梯度下降变体,每次迭代用单个随机样本更新参数,增加优化过程随机性。
  • 分层抽样:将总体划分为不同子组,从各子组随机抽样,保障样本代表性。
  • 字符串:编程中表示文本的字符序列。
  • 结构化数据:有预定义格式(行列)的数据,如关系数据库、电子表格数据。
  • 摘要统计:用均值、中位数、标准差等简洁指标描述数据集核心特征。
  • 日落图:层级可视化图表,用同心圆展示数据层级,中心圆为根节点。
  • 监督学习:机器学习范式,用标注数据训练模型,学习输入与输出的映射关系。
  • SVM(支持向量机):监督学习算法,寻找最大间隔超平面分隔类别,适用于分类、回归任务。
  • 合成数据:人工生成的、具备真实数据统计特性的数据,用于真实数据稀缺、敏感的场景。

T

  • t 检验:统计检验方法,判断两组数据均值是否存在显著差异。
  • TensorFlow:谷歌开源机器学习框架,广泛用于深度学习模型构建与部署。
  • 时间序列分析:研究按时间收集的数据,识别模式、趋势,预测未来数值的分析方法。
  • 分词化:自然语言处理中,将文本拆分为词语、短语等最小单位的过程。
  • 训练与测试:机器学习流程的两个阶段,先在训练集训练模型,再在测试集评估泛化能力。
  • 迁移学习:将已训练模型复用、微调至相关任务,减少新任务训练数据需求的技术。
  • 真阴性:二分类中,阴性样本被正确预测为阴性的情况。
  • 真阳性:二分类中,阳性样本被正确预测为阳性的情况。
  • 第一类错误:错误拒绝真实的原假设,即假阳性。
  • 第二类错误:错误接受虚假的原假设,即假阴性。

U

  • UDF(用户自定义函数):用户自行编写的函数,执行标准函数未覆盖的定制化数据处理任务。
  • 欠拟合:模型过于简单,无法捕捉数据核心模式,训练集、测试集表现均较差。
  • 单变量分析:仅分析单个变量,用描述统计、可视化总结其特征。
  • 非结构化数据:无预定义格式、无固定组织的数据,如文本、图像,需专用技术分析。
  • 无监督学习:机器学习范式,分析无标注数据,挖掘隐藏模式与内在结构。

V

  • 方差:衡量数据点在均值周围分散程度的统计指标。
  • Vega-Altair:Python 声明式可视化库,支持创建交互式图表。
  • 小提琴图:结合箱形图与核密度图的可视化工具,展示数值分布、密度与统计特征。

W

  • 网页爬虫:获取网页内容,解析为结构化数据,从网站提取信息的技术。

X

  • XGBoost(极端梯度提升):高效的梯度提升算法实现,适用于分类、回归任务。

Z

  • Z 分数:表示数据点距离均值的标准差个数,用于数据标准化、异常值检测。
  • Z 检验:统计检验方法,适用于总体方差已知、样本量较大时,判断总体均值与样本均值是否存在显著差异。