• / 48
  • 下载费用:10 金币  

各个领域在近二十年来取得突破性的研究进展

关 键 词:
各个 领域 近二十 年来 取得 突破性 研究进展
资源描述:
各个领域在近二十年来取得突破性的研究进展各个领域在近二十年来取得突破性的研究进展 计算机技术计算机技术 网络技术和传感技术的飞速发展网络技术和传感技术的飞速发展 来自各个巡天计划和天文台的来自各个巡天计划和天文台的 数据雪崩数据雪崩 科学家科学家 工程师和领域专家的缺乏工程师和领域专家的缺乏 更大 更便宜的存储器 磁盘密度以Moore s law增长 每次18个月增长一倍 存储器价格飞快下降 更快 更便宜的信息处理器 分析更多的数据 适应更多复杂的模型 引起更多查询技术 激起更强的可视化技术 特征 以Tebyte 甚至Pebyte 计量 不均匀性 动力学性 高维性 加上时间维可达13维甚至更高维 数据数据 原始的原始的 未解释的信号或者符号未解释的信号或者符号 如如 1 1 信息信息 有一定解释或意义的数据有一定解释或意义的数据 如如 S O SS O S 知识知识 综合信息形成的观点和普适性的理论综合信息形成的观点和普适性的理论 智慧智慧 能够综合知识和经验用以生存计划的能够综合知识和经验用以生存计划的 人类思维的结晶人类思维的结晶 定义 半自动或自动地从海量数据中发现模式 相关性 变化 反常规律性 统计上的重要结构和事件 在 天文上 就是从海量数据中发现稀有的天体或现 象 或者发现以前未知种类的天体或新天文现象 特点 半自动或自动 提取 预测 大数据库 前者 发现驱动 数据驱动 数据 研究 后者 假设驱动 人为驱动 研究 数据 统计学 机器学习 数据库 高效率的计算 Gauss Fisher 和 最小二乘法 最大似然法 一些基本原理的发展 数学时代 1950 s Neyman等数学家独领风骚 计算时代 自从1960 s平稳增长 1970 s EDA Bayesian estimation flexible models EM etc 逐渐意识到计算机在数据分析中的 能力和作用 模式识别和人工智能 AI 集中于感官问题 如 语言识别 图像识别 1960 s 统计方法与非统计方法的分流 应用统计学与工程学的交叉 如 统计图像分析 机器学习和神经网络 1980 s 非统计学习方法的失败 flexible models的出现 如 树 网络 应用统计学与学习方法的交叉 直接演化的结果 AI和机器学习 1989 KDD工作组 2000 ACM SIGKDD工作组 集中于自动发现 数据库研究 大型数据组 SIGMMOD association rules scalable algorithms 数据管理者 如何处理数据 面向客户 工业占主导的 面向应用 描述性模型 描述数据中的模式 用以创建有意义的 群或子群 预测性模型 在从已知条件中确定的模式基础上 预 测一些现象或数值 事件驱动性数据挖掘 相关驱动性数据挖掘 已知事件 已知算法 用已有的物理模型去确定数据中存在的 人们感兴趣的已知现象 无论空间上或时间上 已知事件 未知算法 用模式识别或数据的聚类特性来发现在 已知现象中存在新的观测相关性 未知事件 已知算法 以天文现象的观测参数中存在着预期的 相关性来预测数据中存在着以前未知的事件 未知事件 未知算法 用临界值确定瞬时事件或独特事件 从而 发现新现象 空间相关 在天空中的同一位置证认天体 时间相关 证认发生在相同时间或相关时间的 事件或现象 一致相关 用聚类方法证认存在于同一多维参 数空间的现象 天体的交叉证认 天体的交叉相关 最近邻规则证认 系统的数据探索 原理 以源的位置为参量 将存在于不同数据库 中的源联系起来 用以加深对证认源的新 的天文理解 例子 gamma ray暴的对应体 问题 多波段数据库的交叉证认会产生一对一 一对多 多对一 多对多 甚至多对无 对于 除一对一的情况 有时需要用概率方法处 理 原理 用假定分析方法处理数据中的所有参数 例子 在HDF巡天中 通过双色图中作为U波段 的 dropouts 证认远距离星系 在DPOSS和SDSS巡天中 通过双色图中 远离正常恒星区的特性发现高红移类星 体 原理 在多维空间中运用聚类算法证认天体或现象 例子 在TW长蛇座中过通过天体具有相似的运动学 特征 X射线发射 H 和Li丰度 发现了人们最 熟悉的年轻恒星族 原理 在数据库中广泛地应用事件驱动性和相关 驱动性数据挖掘技术以偶然发现一种新天 体或新类型天体 例子 新类型变星的发现 如 在MACHO数据中发 现的 bumpers 主分量分析方法 人工神经网络 EM算法 决策树 一 应用举例 利用光谱将K矮星从K巨星中区分出来 恒星 星系和类星体的光谱分类 星系的形态分类 自动的红移确定 通过将发射线分解为几个独立量来研究 发射区的发射线的变化及其结构和动力 学特征 在观测基平面 即p维参数空间的一个子 空间中 依据星系的形态 测光和动力学 分类来研究低红移星系和高红移星系 二 特点和优点 非监督性 线性分析 PCA通过寻找变量最大投影轴 判断有多少 独立变量 并将相关量组合成新量 这大大可 以减少计算的复杂性 同时保证尽可能小地丢 失信息 即降维 可以用以分解变量为几个独立分量 相比于反射映射或交叉相关方法 PCA对样 品要求不高 对数据预处理 去掉一些不重要或无关量 一 应用举例 未分辩双星的光谱分类 恒星光谱分类 APM星系的形态分类 区分恒星和星系 将恒星光谱物理参数化 区别不同 活动星系核的光谱 二 特点和优点 监督性 训练性 非线性 难理解性 受训练样本限制 输入量一般要先用PCA预处理 若采用傅里叶变换 不需知红移就可以对光谱分类 但在信噪比低时 提高分类的效率 红移可以确定 与传统方法相比 其具有的优点 不需预先对试验样本的统计分布 做假设 对各类不 需要直观判断 该方法可用于处理各种问题 一 应用举例 两种情形密度估计 星系在红移空间的聚类 恒星在色空间的聚类 EM算法提供了星系在红移空间 的平滑分布 准确地描述了数据 库中数据的大小范围特征 同时 提供了一种证认多维色空间中 的远离正常恒星的天体的方法 例如 高红移类星体的证认 二 特点和优点 利用AIC BIC 变坏的概率评价符合程度 优于最好的带核的密度估计方法对分布的 估计 同时 对输入参数的要求并不严格 优于标准的色选择技巧 在于其证认天体是 建立在概率理论基础上 概率密度分布要受到维数的限制 而EM算 法的维数可具方便而定 其描述了数据的正常分布 从而可以在高维 空间中证认出远离者 一 应用举例 分析有关大尺度结构和微波背景 辐射的大尺度巡天 分析巡天的径向速度 如 Mark III SFI ENEAR 巡天 二 特点和优点 基础 最大概率分析方法估计参数 维纳滤波器重建基底场 蒙特卡罗方法对基底场取样 辅助方法 拟合良好性分析方法 将重建速度场分解成局部量和 外延量的方法 约束N body和氢动力学的模拟 提供优化工具 可以分析有噪声的 不完 备的 不均匀的高斯分布的随机 场巡天 如 密度场和速度场 混合模型 Latent Variable models 主要思想是基于数据的提取或分类 概率模型考虑系统方法 许多模型可以用图表格式表示 参数可由EM算法获得 模型结构可自动选择 在机器学习 神经网络学习中 对这些 模型进行了许多特大的调整 隐含变量的学习 发现结构 一 分类问题 1 天体分类 恒星 星系分类 类星体等 方法类型 监督分类和非监督分类 常用方法 主分量分析 PCA 最小距离方法 MDM 高斯概率模型 GPM 神经网 NN 决策树 一 分类问题 2 图像分类 数字底片巡天中恒星 星系区别 常用方法 聚类算法 最近邻规则 模糊集合理论 自组织映射 神经网络 决策树 流行软件包 DAOPhot FOCAS Sextractor 二 数据压缩与分类 光谱压缩与分类 大红移巡天的星系光谱 大型光谱巡天 常用方法 主分量分析 PCA 独立分量分析 ICA 信息瓶颈 IB Fisher Matrix FM 小波变换 KL变换 方法对比 PCA FM 线性分析 ICA IB非线性分析 异于FM PCA IB 模型独立 IB监督的波长群在概念上接近FM ICA在计算上比PCA复杂 数据压缩 效率弱于PCA 但可以较好地分离混 合变量 相反于PCA ICA对位置 方向 带通选择的特征量敏感 三 大尺度结构分析 例子 分析有关大尺度结构和微波背景辐射 的大尺度巡天 方法 贝叶斯分析 Bayesian Analysis 四 重建方法 例子 大尺度巡天中的速度场重建 在all sky maps中 从输入的 maps 重建独立分量及其频 率大小 方法 维纳滤波器 最大熵方法 主分量分析方法 FastICA 神经网络 小波 扩充数据挖掘算法 将数据挖掘方法应用到新的数据类型 发展分布的数据挖掘算法 提高数据挖掘方法的容易度 观测记录或观测次数的增长 每次观测参量的增长 用以分析一组观测的预测模型数的增长 对交互式反应和真实反应时间减少的要 求的加强 需要多种算法的组合或新的算法 时间序列数据 未组织数据 如文本 半组织数据 如HTML和XML文件 多媒体的合作数据 多层次的 多度量单位的数据 集合数据 数据的分布特性 计算环境越来越普及 必须发展与之匹配的数据挖掘系统和算法 数据挖掘自动化程度的提高 提高用户界面 支持随机用户的浏览 提高大型分布数据的可视化程度 发展用以管理数据挖掘的元数据的技术和系统 发展恰当的语言和协议支持随机提取数据 提高数据挖掘和知识发现的环境 收集 加工 挖掘 可视化以及必要的合作报告 支持单个研究数据挖掘者的研究 支持数据挖掘的基础学科的研究 支持多学科和交叉学科研究组研究 重要的 基础的实用数据挖掘问题 提供对大的 大型的 分布的数据组 挖掘的恰当的实验场所 发展好的非监督分类技巧 发展强而有效的数据可视化技术 各种算法的交叉和重复使用 设计和应用聚类分析方法需要天文学家 计算机科学家和统计学家的真诚合作
展开阅读全文
  麦档网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

关于本文
本文标题:各个领域在近二十年来取得突破性的研究进展
链接地址:https://www.maidoc.com/p-16408448.html

当前资源信息

L****

编号: 20180920151351545804

类型: 共享资源

格式: PPT

大小: 785.50KB

上传时间: 2020-04-01

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2018-2020 maidoc.com版权所有  文库上传用户QQ群:3303921 

麦档网为“文档C2C模式”,即用户上传的文档所得金币直接给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的金币归上传人(含作者)所有。
备案号:蜀ICP备17040478号-3  
川公网安备:51019002001290号 

本站提供办公文档学习资料考试资料文档下载


收起
展开