数据科学词汇表：250+核心术语速查手册

刚接触数据科学时，繁多的专业术语容易让人无从下手，熟练掌握这些词汇，能帮你搭建扎实的知识体系。无论你的职业岗位是什么，职场中大概率都需要具备基础的数据科学认知。不管你是想精进数据科学家技能，还是刚入门探索新概念，这份KNIME 专家整理、适配KNIME 中文版使用的全面词汇表，都能帮你吃透从准确性到Z 分数的各类核心概念。

小提示：建议收藏本文，搭配KNIME 中文版实操学习，遇到数据科学相关疑问时随时查阅。

关于 KNIME 中文版（适配本词汇表的低代码数据科学平台）

KNIME 中文版是在开源 KNIME Analytics Platform 基础上优化的中文本地化版本，完整保留核心功能，支持全中文界面、节点汉化、菜单与配置汉化，并提供集中式语言包实时更新，避免版本碎片化，大幅降低中文用户学习门槛。它采用可视化拖放式工作流，无需编写代码即可完成数据准备、清洗、建模、可视化与部署，完美匹配本词汇表中所有数据科学流程与术语，是新手快速落地术语知识的首选工具。

A

A/B 测试：通过对比网页、邮件、算法等变量的两个版本（A 版和 B 版），判断哪一版效果更优的实验方法，是用真实数据与用户行为验证决策的实用工具。
ANOVA（方差分析）：一种统计方法，通过对比组内变异与组间变异，检验三个及以上独立组别均值是否存在统计学显著差异。
API（应用程序编程接口）：作为软件中间件，实现不同软件应用间的通信与数据交互。
准确性：衡量预测模型正确预测结果的频率，二分类问题中，指模型正确识别两类样本的次数占总样本数的比例。
Adam 优化（自适应矩估计）：用于深度学习模型训练的优化算法，可动态调整各参数学习率，具备计算高效、内存占用低、收敛速度快的特点。
代理卡：JSON 格式的元数据文档，用于帮助用户发现代理、了解代理身份、能力、接口、技能及认证要求，指导交互方式。
算法：解决问题、执行计算的一系列数学操作流程，数据科学中用于数据集预测与模式挖掘。
备择假设：统计检验中，主张自变量对因变量存在影响的假设，研究者通过统计检验验证其成立依据。
异常检测：识别数据集中稀有数据点的过程，常用异常值检测技术，分离与多数样本差异显著的数据点。
Apache Spark（阿帕奇火花）：面向大规模数据分析的引擎，支持数据并行、容错处理，可实现大数据集的可扩展计算。
AI（人工智能）：跨计算机科学、统计学、软件工程、语言学、神经科学、心理学的综合领域，核心是研发能推理、学习、执行人类智能级数据处理任务的系统。
ANN（人工神经网络）：受生物神经网络启发的计算模型，由人工神经元按特定架构连接组成，可通过训练调整参数，应用于模式识别、预测建模、自适应控制等场景。
自回归：适用于时间序列数据的统计方法，以变量自身的滞后值作为预测变量构建回归模型。

B

反向传播：前馈神经网络的训练方法，先输入数据得到输出，通过损失函数计算误差，再反向推导各权重贡献值，按学习率调整权重，反复迭代降低误差。
装袋（引导聚合）：集成学习技术，在不同有放回抽样的引导样本上训练多个模型，整合预测结果，减少方差、避免过拟合，提升模型准确性与稳定性。
条形图：用矩形条形展示分类数据的可视化形式，条形长度对应数值大小，用于对比类别频次、数值变化。
贝叶斯统计：统计学分支，用概率表示模型不确定性，结合先验知识，随新数据更新概率，优化预测与决策。
贝叶斯定理：概率论基础定理，基于事件相关先验条件，量化事件发生的概率。
伯努利试验：结果只有成功 / 失败两种的独立实验，单次试验成功概率固定，试验间互不影响。
偏置：模型中的系统性误差，会持续使预测结果偏向某一方向，不受训练数据量影响。
偏差 – 方差权衡：机器学习模型优化中偏差与方差的平衡关系，模型参数增多、复杂度提升时，偏差降低、方差升高，易出现拟合训练数据好、泛化能力差的问题。
大数据：规模极其庞大的数据集，通过计算分析可挖掘人类行为、交互相关的模式、趋势与关联。
BigQuery（大查询）：谷歌推出的全托管、无服务器数据仓库，支持大型数据集的可扩展查询与分析。
二分类：将数据划分为两个互斥类别的预测建模任务。
二元变量：仅包含两个取值的变量，如真 / 假、是 / 否。
二项分布：计算多次独立伯努利试验中，指定成功次数概率的离散分布。
布尔值：只有真、假两种取值的数据类型。
增强：集成学习技术，串联多个弱学习器，后序模型聚焦前序模型的误差，加权整合结果，降低偏差、提升模型稳定性。
自助法：统计抽样方法，对原始数据集有放回抽样，用于估计统计量的抽样分布，近似计算方差、置信区间等指标。
箱形图：可视化数值变量分布的工具，展示中位数、四分位数与潜在异常值，适合多组数据分布对比。
BI（商业智能）：企业用于从数据中提取有效洞察的技术与策略，通过报表、分析、仪表盘、绩效评估支撑科学决策。

C

类别变量：取值为有限互斥组别、无内在数值意义的变量，用于分类标注。
卡方检验：用于检验分类数据观测频次与预期频次的差异，判断变量独立性、模型拟合优度的统计方法。
分类：监督学习技术，模型依据输入特征预测样本的类别标签。
聚类分析：无监督学习技术，按距离、频次等指标将相似数据点归为簇，挖掘数据内在结构与模式。
计算机视觉：研究让计算机从图像、视频中解读、理解视觉信息的领域。
串联：数据表层面指垂直合并多个表格；字符串层面指将多个文本端到端拼接成新文本。
一致性 – 不一致比例：衡量配对观测排序一致性的指标，反映数据关联程度。
置信区间：由样本数据推导的数值范围，结合置信水平（如 95%），估计总体参数的所在区间。
混淆矩阵：展示分类模型实际标签与预测标签对比的表格，包含真阳性、真阴性、假阳性、假阴性，用于评估模型性能。
连续概率分布：描述连续型随机变量在区间内取值概率的分布，概率密度函数积分值为 1。
连续随机变量：在指定区间内可取无限个数值的变量，通过测量获取。
收敛：迭代优化过程中，后续迭代无明显改进，算法达到稳定解（多为局部最优）的状态。
凸函数：函数图像上任意两点连线均在图像上方的数学函数，简化优化问题求解。
相关性：衡量两个变量线性关系强度与方向的指标，取值范围 – 1（完全负相关）至 1（完全正相关），0 表示无线性相关。
余弦相似度：计算两个非零向量夹角的余弦值，值接近 1 表示相似度高，接近 0 表示相似度低，接近 – 1 表示方向相反。
成本函数（损失函数）：计算模型预测值与实际值误差的函数，指导模型参数优化。
协方差：衡量两个变量协同变化的指标，正值表示变量同向变化，负值表示反向变化。
交叉验证：模型评估技术，将数据划分为多个子集，部分子集训练模型、其余子集验证，评估模型泛化能力。

D

DBSCAN（基于密度的带噪声空间聚类）：聚类算法，识别数据中密集区域形成簇，稀疏区域的孤立点标记为噪声。
仪表盘：整合关键指标、数据趋势的可视化界面，通过图表、表格展示数据，支持实时监控与决策，交互式仪表盘可添加动态筛选功能。
数据分析：分析数据集提取有效洞察、识别模式，支撑数据驱动决策的过程。
数据清理：识别、修正或删除数据集中的错误、不一致、无关信息，提升数据质量。
数据工程：研发与维护数据采集、处理、转换系统，将原始数据转化为可用于分析、机器学习的高质量一致信息。
数据治理：保障企业数据完整性、质量、安全与可用性的制度与实践框架。
数据湖：集中存储库，可存储各类来源的结构化、非结构化原始数据，支持灵活处理与分析。
数据挖掘：结合统计学、机器学习、数据库技术，从海量数据中发现模式与知识的过程。
数据建模：构建业务需求与数据关系的逻辑表示，数据科学中指创建数据的数学模型，解析数据结构与行为。
数据管道：数据从源头到目的地的流转、转换流程，包含采集、处理、集成、存储等环节。
数据准备：将原始数据转化为适配分析、建模的格式，包含清理、格式化、特征工程等操作。
数据科学：融合数据处理、机器学习、统计学的跨学科领域，从结构化、非结构化数据中提取知识与洞察。
数据科学生命周期：数据科学项目的全流程阶段，涵盖业务理解、数据采集、建模、评估、部署、维护。
数据叙事：结合数据可视化与叙事技巧传递数据洞察的方法，让数据更易理解、更具吸引力。
数据结构：用于高效存储、组织、访问数据的格式，如数组、列表、树。
数据转换：将数据从一种格式、结构转换为另一种格式，满足特定分析或使用需求。
数据类型：定义数据特征的分类，如数值、文本、日期，决定数据的存储与运算方式。
数据可视化：用图表、地图、图形等视觉元素呈现数据，辅助数据探索、分析与沟通。
数据仓库：集中存储库，整合多来源结构化数据，优化用于报表生成与分析。
数据整理：对原始数据进行清理、重组、丰富，转化为适配分析、建模的格式。
数据库：电子存储、组织数据的集合，支持高效的数据检索、更新与管理。
数据帧：类似电子表格、SQL 表格的行列结构数据，常用于数据处理与分析。
数据集：用于分析、建模、机器学习训练的一组相关数据。
十分位：将数据集划分为 10 等份的统计量，每份占数据的 10%，辅助分析数据分布。
决策边界：分类算法划分不同类别样本的分界线（超平面）。
决策树：监督学习算法，依据决策规则拆分数据，构建树状模型实现结果预测。
深度学习：机器学习子集，采用多层神经网络挖掘数据复杂模式，推动图像识别、语音识别等领域发展。
自由度：统计计算中可自由变动的独立数值或参数数量。
因变量：实验中被测量的结果变量，受自变量变化影响。
描述性分析：分析历史与当前数据，识别趋势、关系与模式，以可视化、统计报告呈现，不做预测。
描述性统计：用均值、中位数、众数、标准差等指标，总结数据集核心特征的统计方法。
诊断分析：深入分析数据，探究过往结果的成因，解答 “事件为何发生” 的问题。
降维：在保留核心信息的前提下，减少数据集中变量数量的过程。
离散分布：离散随机变量的概率分布，变量取值有限或可数，所有取值概率和为 1。
离散随机变量：取值为独立、不连续数值的变量，通过计数获取。
虚拟变量：编码为 0 或 1 的二元变量，用于表示分类特征的有无。

E

EDA（探索性数据分析）：通过统计、可视化方法初步检查数据，了解数据核心特征、模式与分布。
ETL（提取 – 转换 – 加载）：从多来源提取原始数据，清理、转换为目标格式，加载至数据库、数据仓库等目的地的流程。
提前停止：模型训练优化技术，验证集性能不再提升时停止训练，避免过拟合。
集成学习：整合多个模型的预测结果，输出比单一模型更稳定、准确的预测。
评估指标：衡量预测模型性能的定量指标，如准确性、精确率、召回率。

F

F 分数：整合精确率与召回率的综合评估指标，常用于分类模型性能评价。
因子分析：统计方法，用少量未观测的因子解释观测变量的变异，挖掘数据底层结构。
假阴性：二分类中，阳性样本被错误预测为阴性的情况。
假阳性：二分类中，阴性样本被错误预测为阳性的情况。
特征工程：结合领域知识从原始数据中构建新特征，提升机器学习模型性能。
特征哈希：通过哈希函数将特征转换为向量 / 矩阵索引，减少内存占用。
特征简化：在保留核心信息的前提下，减少输入变量数量。
特征选择：从特征集中筛选相关子集，提升模型可解释性与运行效率。
少数样本学习：每类仅用少量标注样本训练模型，实现精准预测的方法。
float（浮点型）：表示带小数的实数的数据类型。
流变量：在 KNIME 中，用于工作流节点间传递参数、实现动态配置的变量。
傅里叶变换：将时间 / 空间信号转换为频率分量，实现频域分析的数学方法。
频率统计：以事件发生频率为核心的统计学派，关注重复实验的长期结果。
前端：应用程序中用户交互的界面部分，包含按钮、图形等视觉元素。
模糊算法：基于模糊逻辑处理近似推理的算法，为复杂问题提供灵活解决方案。
模糊 c – 均值：基于模糊逻辑的聚类算法，允许数据点以不同隶属度属于多个簇。
模糊逻辑：支持真、假之间中间值的逻辑体系，贴合现实世界的模糊性与不确定性。

G

GRU（门控循环单元）：改进型循环神经网络，通过门控机制控制信息流，捕捉序列数据的长距离依赖关系。
高斯分布（正态分布）：以均值为中心、标准差决定离散程度的对称钟形概率分布。
地理空间分析：采集、分析、可视化地理与空间数据，挖掘位置间模式、关联的分析方法。
拟合优度：检验统计模型、概率分布与观测数据匹配程度的指标。
梯度下降：优化算法，沿成本函数最速下降方向迭代调整参数，最小化误差。
贪婪算法：每一步选择局部最优解，尝试逼近全局最优的算法，不保证全局最优。

H

Hadoop：开源框架，支持计算机集群对大数据集的分布式存储与处理。
热力图：用颜色表示矩阵数值的可视化技术，便于发现数据模式、趋势与相关性。
隐马尔可夫模型：统计模型，假设系统为含隐藏状态的马尔可夫过程，从可观测事件推导状态序列。
层级聚类：聚类技术，通过逐步合并小簇、拆分大簇，构建树状聚类结构（树状图）。
直方图：展示数值变量频次分布的可视化图表，用条形表示指定区间内的数据量。
保留样本：模型训练中预留的数据子集，用于评估模型在未见过数据上的表现。
霍尔特 – 温特斯预测：三重指数平滑法，适用于含水平、趋势、季节性的时间序列预测。
人机参与环圈：将人类监督、输入融入机器学习流程，提升模型准确性、公平性与可追溯性。
超参数：模型外部由用户设置的配置项，影响算法训练过程与性能。
超参数调优：选择超参数最优值，使模型达到最佳性能的过程。
超平面：高维空间中的平坦子空间，n 维空间中超平面维度为 n-1，用于分类任务的样本分隔。
假设：基于有限证据提出的解释，可通过统计方法检验真伪。

I

图像识别：人工智能技术，识别数字图像中的物体、图案、特征，应用于人脸识别、医学影像、质量检测等领域。
缺失值补缺：用替代值填充数据集中的缺失值，提升数据完整性，保障分析、建模效果。
自变量：实验中被操控、分类的变量，作为预测变量影响因变量。
推理统计：基于样本数据对总体进行预测、推断的统计方法，包含假设检验、置信区间等。
整数：无小数部分的数值类型，用于计数、索引。
四分位区间（IQR）：衡量数据离散程度的指标，为第三四分位数（Q3）与第一四分位数（Q1）的差值，代表数据中间 50% 的范围。
迭代：算法、模型训练中重复执行操作，逐步优化性能、逼近最优解的过程。

J

联合概率：两个及以上事件同时发生的概率，独立事件的联合概率为各事件概率乘积。
Julia：面向技术计算的高性能编程语言，运算速度快、数值分析便捷，受数据科学领域青睐。

K

K – 均值聚类：将数据划分为 K 个簇，迭代更新簇中心直至收敛的聚类算法。
KNN（K 近邻）：监督学习算法，依据样本的 K 个最近邻的类别 / 数值，预测当前样本的类别 / 数值。
Keras：开源 Python 神经网络库，作为 TensorFlow 等深度学习框架的上层接口。
峰度：衡量概率分布尾部厚度的指标，高峰度代表尾部更重，低峰度代表尾部更轻。

L

标记数据：带有目标标签的样本数据，是监督学习的核心数据基础。
LLM（大型语言模型）：参数规模达数十亿级的模型，经人类语言数据训练，可处理文本、图像等多类型数据，实现自然对话交互。
套索回归：采用 L1 正则化的线性回归，可将次要特征系数压缩至 0，实现特征选择。
折线图：用直线连接数据点的可视化图表，适合展示数值随时间的变化趋势。
线性回归：监督学习算法，构建自变量与连续因变量的线性关系，实现数值预测。
对数似然度：似然函数的自然对数，用于统计建模中估计最优参数。
对数损失（逻辑损失 / 交叉熵）：衡量二分类模型预测概率与实际结果误差的指标。
逻辑回归：二分类监督学习算法，预测样本属于某一类别的概率。
LSTM（长短期记忆网络）：循环神经网络架构，擅长捕捉序列数据的长期依赖关系，应用于时间系列、自然语言处理。
循环：满足指定条件时，重复执行代码或工作流片段的逻辑结构。

M

MLOps（机器学习运维）：机器学习模型生产部署的流程、工具与最佳实践，包含模型部署、监控、维护。
机器学习：人工智能子集，研发能从数据中自主学习模式、无需显式编程的系统，用于预测与决策。
MapReduce：分布式计算编程模型，集群节点并行执行映射、归约操作，处理大规模数据集。
市场篮子分析：数据挖掘技术，挖掘商品间的关联规则，常用于零售行业分析用户购买行为。
市场组合建模：统计分析技术，估算营销策略对销售的影响，预测营销效果。
Matplotlib：Python 数据可视化库，支持创建静态、动态、交互式图表。
最大似然估计：基于观测数据，最大化似然函数以估计概率分布参数的方法。
均值：数据的算术平均值，衡量数据集中趋势的核心指标。
平均绝对误差（MAE）：衡量预测值与实际值平均绝对差值的指标，评估数值预测模型性能。
均方误差（MSE）：计算预测值与实际值平均平方差的指标，用于数值预测模型评估。
中位数：有序数据的中间值，分割数据为两部分，是稳健的集中趋势指标。
众数：数据集中出现频次最高的数值，适用于分类数据。
MCP（模型上下文协议）：开放标准，规范大型语言模型等 AI 系统与外部工具、应用的集成数据共享，保障工具兼容性。
模型选择：从候选模型中筛选适配数据集的最优模型，常用交叉验证、评估指标判定。
蒙特卡洛模拟：通过随机抽样计算结果的技术，模拟复杂系统的各类结果概率。
多类别分类：预测样本属于三个及以上类别中某一类的分类任务。
多变量分析：同时分析多个变量，探究变量间关系、交互作用对结果的影响。
多元回归：线性回归的扩展，建模多个自变量与多个因变量的关系。

N

NaN：表示非数字，用于标记未定义、无法表示的数值，常指代缺失值。
朴素贝叶斯：基于贝叶斯定理的概率分类器，假设预测变量间相互独立。
NLP（自然语言处理）：人工智能、计算机科学子领域，让计算机能分析、理解、生成人类语言，包含语音识别、文本摘要等任务。
NoSQL：非关系型数据库，不采用传统表格模式，适配大规模非结构化数据存储。
名义变量：无内在排序的分类变量，如性别、颜色。
非关系型数据库：区别于关系型数据库，无固定表格结构，灵活适配非结构化、大规模数据。
正态分布：同高斯分布，对称钟形概率分布。
归一化：将数据缩放至标准范围（通常 0-1）或标准分布，适配机器学习算法要求。
原假设：假设变量间无效应、无关系，用于统计检验的基准假设。
数值预测：基于输入数据预测连续数值的任务。
NumPy：Python 科学计算库，支持大规模多维数组、矩阵运算，提供高性能数学函数。

O

一次性学习：机器学习方法，模型仅需每类单个标注样本即可完成学习。
单热编码：将分类数据转换为二进制向量的技术，为每个类别创建独立二进制列。
开源：源代码公开，允许任何人查看、修改、优化的软件模式，促进协作创新。
序数变量：有明确排序关系的分类变量，如学历、满意度评分，层级间差值不固定。
异常值：与多数样本差异显著的数据点，可能源于测量误差或特殊现象。
过拟合：模型学习到训练数据中的噪声而非核心模式，在未见过数据上泛化能力差。

P

P 值：原假设成立时，观测到当前及更极端结果的概率，低 P 值代表原假设成立可能性低。
Pandas：Python 数据处理库，提供高效的结构化数据（表格、电子表格）操作工具。
参数：模型从训练数据中学习的内部系数、权重，用于生成预测结果。
模式识别：用机器学习算法自动检测、解读数据中规律与模式的技术。
皮尔逊相关系数：衡量两个变量线性相关程度的指标，取值 – 1 至 1。
饼图：圆形分割为扇形的可视化图表，展示各分类占整体的比例。
Plotly：Python 开源可视化库，支持创建交互式、高质量的折线图、条形图、3D 图。
泊松分布：离散概率分布，计算固定区间内事件发生指定次数的概率。
多项式回归：监督学习算法，用 n 次多项式建模自变量与因变量的非线性关系。
预训练模型：在大规模数据集上训练完成的机器学习模型，可复用、微调用于相关任务，节省时间与资源。
精确率：分类模型中，真阳性样本占总预测阳性样本的比例。
预测分析：用统计建模、数据挖掘、机器学习技术分析历史数据，预测未来事件、趋势。
预测模型：基于历史数据学习模式，预测未来结果的统计、机器学习模型。
预测变量：同自变量。
处方分析：在预测分析基础上，给出实现目标的具体行动建议。
PCA（主成分分析）：降维技术，将数据转换为新坐标系，按方差从大到小排序主成分，保留核心信息。
概率分布：描述随机变量所有可能取值及对应概率的分布，分为连续、离散两类。
程序：编程语言编写的有限指令集，指挥计算机执行特定任务。
编程语言：创建软件的形式化指令系统，如 Python、Java、C++。
PyTorch：开源 Python 深度学习框架，基于 Torch 库，支持张量计算与 GPU 加速。
Python：高级解释型编程语言，可读性强、应用广泛，是数据科学、网页开发、自动化的主流工具。

Q

Q-Q 图（分位数 – 分位数图）：对比两个概率分布分位数的可视化工具，判断分布是否一致。
四分位数：将有序数据分为四等份的统计量，Q1（25% 分位）、Q2（中位数，50% 分位）、Q3（75% 分位）。

R

R：面向统计计算、可视化的解释型编程语言，支持丰富的统计分析与绘图功能。
ROC 曲线：接收者操作特征曲线，绘制不同阈值下真阳性率与假阳性率的关系，评估分类模型性能。
随机森林：集成学习方法，构建多棵决策树并整合输出结果，提升分类、回归准确性。
随机抽样：从总体中均等概率抽取子集，保障样本代表性。
随机变量：表示随机事件结果的变量，分为离散、连续两类。
极差：衡量数据离散程度的指标，为数据集最大值与最小值的差值。
原始数据：未经过处理、整理的初始数据，常存储于数据湖，需经清洗、转换后使用，如传感器数据、系统日志。
召回率（灵敏度）：真阳性样本占实际阳性总样本的比例，衡量模型识别阳性样本的能力。
推荐引擎：分析用户数据、行为，为用户推荐个性化产品、服务、信息的系统。
回归：建模因变量与一个及以上自变量关系的统计技术。
回归样条：用分段多项式拟合数据的方法，灵活建模非线性关系。
正则化：通过给损失函数添加惩罚项，限制模型复杂度，防止过拟合的技术。
强化学习：机器学习范式，智能体通过与环境交互，获取奖励 / 惩罚反馈，优化决策。
关系数据库：以行列表格存储数据，用 SQL 管理、查询数据，保障表间关联的数据库类型。
重抽样：从数据集中反复抽样，评估统计量变异性的方法，包含自助法、交叉验证。
残差：观测值与模型预测值的差值，用于评估模型拟合效果。
响应变量：同因变量，回归模型中待预测的结果变量。
RAG（检索增强生成）：AI 框架，从知识库检索相关信息，结合生成模型输出贴合上下文的结果。
脊回归：采用 L2 正则化的线性回归，缩小系数估计值，降低模型复杂度。
RMSE（均方根误差）：均方误差的平方根，评估数值预测模型准确性的常用指标。

S

SMOTE（合成少数类过采样）：解决类别不平衡问题的技术，人工生成少数类样本。
SQL（结构化查询语言）：管理、操作关系型数据库的标准语言。
样本：从总体中抽取的用于分析的子集。
抽样误差：样本统计量与总体参数的差值，由仅观测部分数据导致。
散点图：用笛卡尔坐标系展示两个变量关系的可视化图表。
Scikit-Learn：Python 开源机器学习库，提供分类、回归、聚类等高效工具。
Seaborn：基于 Matplotlib 的 Python 可视化库，提供高级统计图表绘制接口。
细分：按行为、属性等相似性将数据集划分为有意义组别，用于洞察挖掘、策略定制，常见于营销、客户分析。
选择偏差：数据采集方法导致样本无法代表总体，引发分析结果偏差。
半监督学习：同时使用标注、无标注数据训练模型，适用于标注数据获取成本高的场景。
情感分析：自然语言处理技术，检测、分类文本的情绪倾向（正面、负面、中性），用于客户反馈、社交媒体分析。
偏态：衡量概率分布不对称性的指标，正偏为右尾长，负偏为左尾长。
时空推理：分析跨时间、空间变化的数据，预测、理解动态系统的技术。
斯皮尔曼等级相关系数：非参数统计量，衡量两个排序变量的关联强度与方向。
标准差：衡量数据相对于均值离散程度的指标。
标准误：样本统计量抽样分布的标准差，衡量样本均值的精度。
标准化：将数据转换为均值 0、标准差 1 的标准分布，保障各特征对模型的同等影响。
统计学：收集、分析、解释、呈现数据，基于样本推断总体的科学。
SGD（随机梯度下降）：梯度下降变体，每次迭代用单个随机样本更新参数，增加优化过程随机性。
分层抽样：将总体划分为不同子组，从各子组随机抽样，保障样本代表性。
字符串：编程中表示文本的字符序列。
结构化数据：有预定义格式（行列）的数据，如关系数据库、电子表格数据。
摘要统计：用均值、中位数、标准差等简洁指标描述数据集核心特征。
日落图：层级可视化图表，用同心圆展示数据层级，中心圆为根节点。
监督学习：机器学习范式，用标注数据训练模型，学习输入与输出的映射关系。
SVM（支持向量机）：监督学习算法，寻找最大间隔超平面分隔类别，适用于分类、回归任务。
合成数据：人工生成的、具备真实数据统计特性的数据，用于真实数据稀缺、敏感的场景。

T

t 检验：统计检验方法，判断两组数据均值是否存在显著差异。
TensorFlow：谷歌开源机器学习框架，广泛用于深度学习模型构建与部署。
时间序列分析：研究按时间收集的数据，识别模式、趋势，预测未来数值的分析方法。
分词化：自然语言处理中，将文本拆分为词语、短语等最小单位的过程。
训练与测试：机器学习流程的两个阶段，先在训练集训练模型，再在测试集评估泛化能力。
迁移学习：将已训练模型复用、微调至相关任务，减少新任务训练数据需求的技术。
真阴性：二分类中，阴性样本被正确预测为阴性的情况。
真阳性：二分类中，阳性样本被正确预测为阳性的情况。
第一类错误：错误拒绝真实的原假设，即假阳性。
第二类错误：错误接受虚假的原假设，即假阴性。

U

UDF（用户自定义函数）：用户自行编写的函数，执行标准函数未覆盖的定制化数据处理任务。
欠拟合：模型过于简单，无法捕捉数据核心模式，训练集、测试集表现均较差。
单变量分析：仅分析单个变量，用描述统计、可视化总结其特征。
非结构化数据：无预定义格式、无固定组织的数据，如文本、图像，需专用技术分析。
无监督学习：机器学习范式，分析无标注数据，挖掘隐藏模式与内在结构。

V

方差：衡量数据点在均值周围分散程度的统计指标。
Vega-Altair：Python 声明式可视化库，支持创建交互式图表。
小提琴图：结合箱形图与核密度图的可视化工具，展示数值分布、密度与统计特征。

W

网页爬虫：获取网页内容，解析为结构化数据，从网站提取信息的技术。

X

XGBoost（极端梯度提升）：高效的梯度提升算法实现，适用于分类、回归任务。

Z

Z 分数：表示数据点距离均值的标准差个数，用于数据标准化、异常值检测。
Z 检验：统计检验方法，适用于总体方差已知、样本量较大时，判断总体均值与样本均值是否存在显著差异。

博客目录

人人可用的数据科学平台

IMODEL为端到端数据科学提供了一个完整的平台，从创建分析模型，到部署它们并在组织内共享见解，到数据应用程序和服务。

平台概览

单一平台

开箱即用的软件

国产化替代解决方案

数据科学应用

KNIME数据科学

行业及部门应用

产品资讯

KNIME 服务

Qlik 服务

人工智能与分析服务

培训与赋能

实施及咨询服务

数据科学词汇表：250+核心术语速查手册

资源

学习

数据科学词汇表：250+核心术语速查手册

关于 KNIME 中文版（适配本词汇表的低代码数据科学平台）

A

B

C

D

E

F

G

H

I

J

K

L

M

N

O

P

Q

R

S

T

U

V

W

X

Z

最新博客

博客目录

人人可用的数据科学平台

产品

应用

资源

公司