机器学习数学基础:34.点二列

news/2025/2/26 3:45:32

点二列相关教程

一、点二列相关的定义

点二列相关是一种统计方法,用于衡量两个变量之间的相关程度。在这种相关分析中,一个变量是正态连续性变量,取值可以是连续的数值,比如身高、体重、考试分数等;另一个是真正的二分名义变量,其两个类别是天然存在、相互独立的,不能再细分,像性别(男/女)、是否吸烟(是/否)、抛硬币的结果(正面/反面)等。

二、适用场景

点二列相关常用于研究天然二分变量与连续变量之间的关系。例如在教育领域,分析学生的性别(二分变量)与学习成绩(连续变量)之间的联系,看男生和女生在成绩上是否存在差异;在医学研究中,探讨患者是否患病(二分变量)与某项生理指标数值(连续变量)的相关性,以辅助疾病诊断和研究;在市场调研里,了解消费者是否购买某产品(二分变量)和他们的收入水平(连续变量)之间的关系,为营销策略提供参考。

三、计算公式解读

点二列相关系数的计算公式为 R   = X ‾ p − X ‾ q σ × p q R \ = \frac{\overline{X}_{p} - \overline{X}_{q}}{\sigma}×\sqrt{pq} R =σXpXq×pq ,公式中各参数含义如下:

  • p p p q q q p p p表示二分变量中某一类别频数的比率, q q q表示二分变量中另一类别频数的比率,并且 p + q   = 1 p + q \ = 1 p+q =1。比如在研究性别的例子中,如果男生人数占总人数的 40 % 40\% 40%,那么 p   = 0.4 p \ = 0.4 p =0.4 q   = 1 − 0.4   = 0.6 q \ = 1 - 0.4 \ = 0.6 q =10.4 =0.6
  • X ‾ p \overline{X}_{p} Xp X ‾ q \overline{X}_{q} Xq X ‾ p \overline{X}_{p} Xp是与二分变量中 p p p类别相对应的连续变量的平均数; X ‾ q \overline{X}_{q} Xq是与二分变量中 q q q类别相对应的连续变量的平均数。例如, X ‾ p \overline{X}_{p} Xp可以是男生的平均考试成绩, X ‾ q \overline{X}_{q} Xq是女生的平均考试成绩。
  • σ \sigma σ:表示连续变量的标准差,它衡量的是连续变量的离散程度,也就是数据的分散情况。标准差越大,说明数据越分散;标准差越小,数据越集中。

点二列相关系数 R R R的取值范围在 − 1 -1 1 1 1 1之间。当 R R R接近 1 1 1时,意味着两个变量之间存在很强的正相关关系,即随着二分变量中某一类别的出现,连续变量的值倾向于增大;当 R R R接近 − 1 -1 1时,表明存在很强的负相关关系,即随着二分变量中某一类别的出现,连续变量的值倾向于减小;当 R R R接近 0 0 0时,则表示两个变量之间的相关性很弱,几乎没有关联。

四、计算步骤实例

假设我们要研究某学校学生是否住校(二分变量)与英语成绩(连续变量)之间的关系,具体步骤如下:

(一)数据收集

随机选取该校80名学生作为样本,记录他们是否住校(住校记为1,不住校记为0 )以及英语考试成绩(满分100分)。经检验,英语成绩这一连续变量近似正态分布。

(二)数据整理与参数计算

  1. 统计发现住校的学生有30人,不住校的学生有50人。则 p   = 30 80   = 0.375 p\ =\frac{30}{80}\ =0.375 p =8030 =0.375 q   = 1 − 0.375   = 0.625 q \ = 1 - 0.375 \ = 0.625 q =10.375 =0.625
  2. 计算住校学生的英语平均成绩 X ‾ p \overline{X}_{p} Xp,假设为80分;不住校学生的英语平均成绩 X ‾ q \overline{X}_{q} Xq,假设为70分。
  3. 计算这80名学生英语成绩的标准差 σ \sigma σ,假设为12分。

(三)计算点二列相关系数 R R R

将上述值代入公式 R   = X ‾ p − X ‾ q σ × p q R \ = \frac{\overline{X}_{p} - \overline{X}_{q}}{\sigma}×\sqrt{pq} R =σXpXq×pq 可得:
R   = 80 − 70 12 × 0.375 × 0.625   = 10 12 × 0.234375 ≈ 10 12 × 0.484 ≈ 0.40 \begin{align*} R&\ =\frac{80 - 70}{12}×\sqrt{0.375×0.625}\\ &\ =\frac{10}{12}×\sqrt{0.234375}\\ &\approx\frac{10}{12}×0.484\\ &\approx0.40 \end{align*} R =128070×0.375×0.625  =1210×0.234375 1210×0.4840.40

(四)结果分析

计算出的点二列相关系数约为 0.40 0.40 0.40,说明在这个样本中,学生是否住校与英语成绩之间存在一定的正相关关系,即住校学生的英语成绩相对较高。但相关系数并不是特别高,意味着是否住校虽然对英语成绩有影响,但可能不是唯一的决定因素。

五、注意事项

  1. 变量性质:务必确保一个变量是真正的二分名义变量,另一个是正态连续变量,否则点二列相关可能不适用。
  2. 样本代表性:样本要具有足够的代表性,样本容量不能过小,这样计算出的相关系数才更可靠,一般建议样本量在30以上。
  3. 相关与因果:点二列相关系数只能表明两个变量之间的关联程度,不能直接说明它们之间存在因果关系。比如前面例子中发现住校和英语成绩相关,但不能就此认定住校是英语成绩好的原因。

http://www.niftyadmin.cn/n/5867137.html

相关文章

Android之图片保存相册及分享图片

文章目录 前言一、效果图二、实现步骤1.引入依赖库2.二维码生成3.布局转图片保存或者分享 总结 前言 其实现在很多分享都是我们自定义的,更多的是在界面加了很多东西,然后把整个界面转成图片保存相册和分享,而且现在分享都不需要第三方&…

【代码随想录】第九章-动态规划(上)

【代码随想录】第九章-动态规划(上) 第九章 动态规划-上1 斐波那契数列509.斐波那契数列Method1:递归Method2:动态规划 70.爬楼梯746.使用最小花费爬楼梯 2 不同路径62.不同路径63.不同路径II 3 整数拆分343.整数拆分96.不同的二叉…

Unity Shader 学习13:屏幕后处理 - 使用高斯模糊的Bloom辉光效果

目录 一、基本的后处理流程 - 以将画面转化为灰度图为例 1. C#调用shader 2. Shader实现效果 二、Bloom辉光效果 1. 主要变量 2. Shader效果 (1)提取较亮区域 - pass1 (2)高斯模糊 - pass2&3 (3&#xff…

WordPress R+L Carrier Edition sql注入漏洞复现(CVE-2024-13481)(附脚本)

免责申明: 本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权,请及时与我们联系,我们将尽快处理并删除相关内容。 0x0…

2024/2/23 考试

第一题 One Clue 问题陈述 在数轴上有20000012000001块石头,这些石头的坐标分别为-1000000, -999999, -999998, \ldots, 999999, 1000000−1000000,−999999,−999998,…,999999,1000000。 其中,连续的KK块石头被涂成了黑色,其余的则是白…

C++ day4 练习

一、练习1 找到第一天mystring练习&#xff0c;实现以下功能&#xff1a; mystring str "hello"; mystring ptr "world"; str str ptr; str ptr; str[0] H; 【代码】&#xff1a; #include <iostream> #include <cstring> #include &l…

PHP入门基础学习九(PHP使用手册)

web交互 当表单的method属性提交方式为POST时,浏览器发送POST请求 当表单的method属性提交方式为GET时,浏览器发送GET请求 一、web表单交互 当PHP收到来自浏览器提交的数据后,会自动保存到超全局变量中。 超全局变量是PHP预定义好的变量,可以在PHP脚本的任何位置使用。…

华为昇腾服务器(固件版本查询、驱动版本查询、CANN版本查询)

文章目录 1. **查看固件和驱动版本**2. **查看CANN版本**3. **其他辅助方法**注意事项 在华为昇腾服务器上查看固件、驱动和CANN版本的常用方法如下&#xff1a; 1. 查看固件和驱动版本 通过命令行工具 npu-smi 执行以下命令查看当前设备的固件&#xff08;Firmware&#xff0…