本文共 947 字,大约阅读时间需要 3 分钟。
本节书摘来自华章计算机《数据科学R语言实践:面向计算推理与问题求解的案例研究法》一书中的第1章,第1.1节,作者:[美] 德博拉·诺兰(Deborah Nolan) 邓肯·坦普·朗(Duncan Temple Lang) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
无线网络的发展激发了人们在利用统计学方法来可靠地追踪人和物品方面的商业兴趣与研究兴趣,无论这些人和物品是处于商店、医院、仓库还是工厂等场所的内部。全球定位系统(GPS)在建筑物内不能可靠地工作,但随着无线局域网(LAN)的盛行,室内定位系统(IPS)可担此重任。它利用从网络接入点检测到的WiFi信号,可以回答如下问题:医院里的某件设备在哪里?我在何处?我的邻居是谁?等等。理想情况下,通过很少量的训练、校准和设备,就可以几乎实时地准确回答上述这些问题。
要想建立一个室内定位系统,首先要求有一个参照数据集,它包含在整个建筑物的给定位置上,一部诸如手机或笔记本电脑这类的手持设备与路由器这类固定接入点之间的信号强度的测量值。利用这些测量值作为训练数据,就可以建立一个关于设备位置的预测模型,即设备与每个接入点之间信号强度的函数。这样,根据从一个新设备检测到的信号值,就可以用该模型预测这个新设备的位置。在本章,我们将检测大约100万个信号强度测量值,并开发一个统计型IPS。这些数据是从德国曼海姆大学的一座大楼里的6个固定WiFi接入点(路由器)上记录的。这个过程的第一步是了解如何采集数据并对其格式化。为此,在1.2节,我们先阅读由记录这些数据的研究者所提供的文档,并对其特性进行调研。当我们对这些数据有了认识之后,将其组织成适合于分析的结构。然后,1.3节介绍如何清洗数据。在建模之前,我们需要更深入地检阅信号强度数据,以更好地理解其统计特性(1.4节)。最后,在1.5节,我们通过执行最近邻方法进行位置预测,并在曼海姆大学研究者提供的第二个数据集上对该方法进行测试。计算方面的主题本章涉及的计算方面的主题如下:字符串操作。数据的结构和表示,包括可变长度的观测值。对参差数组中的数据进行聚合计算。探索性数据分析和可视化。模态函数。程序调试。最近邻方法。参数选择的交叉验证。转载地址:http://vziwl.baihongyu.com/