Notice: Constant WP_DEBUG already defined in /var/www/html/wordpress/wp-content/plugins/changyan/sohuchangyan.php on line 12

Notice: Constant WP_DEBUG_LOG already defined in /var/www/html/wordpress/wp-content/plugins/changyan/sohuchangyan.php on line 13

Notice: Constant WP_DEBUG_DISPLAY already defined in /var/www/html/wordpress/wp-content/plugins/changyan/sohuchangyan.php on line 14
第十届中国R会议(北京)演讲嘉宾介绍(四)【zoues.com】 – zoues

LOADING

Follow me

第十届中国R会议(北京)演讲嘉宾介绍(四)【zoues.com】
五月 9, 2017|DockerPaaS

第十届中国R会议(北京)演讲嘉宾介绍(四)【zoues.com】

第十届中国R会议(北京)演讲嘉宾介绍(四)【zoues.com】

2017年,是中国R会议值得纪念的第10个年头,本届R会议将于5月19-21日在美丽的清华大学举办。在这样一个值得纪念的时刻,让我们相聚清华大学统计学研究中心,相聚R会议十周年庆典,相聚这场数据与统计的盛宴!本届会议覆盖数据科学多个领域,我们非常期待您的到来,希望您的演讲能让听众更多受益,能让会议更加精彩!

第十届中国R会议(北京)演讲嘉宾介绍(四)

中国R会议是由统计之都发起,并同国内高校共同举办的极有特色的数据科学会议。2008年,中国R会议在中国人民大学举办第1届,2016年已发展至全年9个城市先后举办,服务数据科学在校师生和业界人士数万人,内容覆盖数据科学相关的多个行业,R会议非常有幸见证了数据科学在中国的蓬勃发展。


2017年,清华大学统计学研究中心、北京大学商务智能研究中心和统计之都携手共同主办第10届中国R会议。本届会议的主题包括医疗健康、生物信息、消费金融、量化投资、工业工程、智能制造、软件工具、计算平台、概率统计、机器学习、人工智能、自然语言、天文地理、城市规划、环境科学、社交网络、政务数据、商务统计、人文科学等诸多话题。其中5月19日特邀演讲会场设于清华大学新清华学堂,20-21日将举办上述主题的平行分会场。


目前收到的演讲列表,请点击下方阅读原文进入查看!


下面为您奉上本次R会议【R软件在社会科学中的应用】【软件工具】以及【社交网络】分会场演讲嘉宾介绍:

R软件在社会科学中的应用

第十届中国R会议(北京)演讲嘉宾介绍(四)

中文文本分析方便工具包chinese.misc介绍

清华大学社会科学学院

博士后:吴江

尽管现在文本挖掘技术发展迅速,各种新技术和新工具不断出现,但用R语言进行中文文本分析的人,特别是初学者,还时常在如何读取文件并避免乱码、如何分词、如何统计词频这样的问题上遇到困难。chinese.misc包尝试缓解这一问题。该R包的功能非常实用,主要用于对中文文本进行数据清理工作,此外还包含另外一些常用的处理和分析功能。在生成文档-词语矩阵的功能上,可以代替对中文不是太支持的tm包。此外,在读取文件、去除停用词、描述性分析等方面,该包在封装既有函数的基础上提供了更为方便和灵活的形式。

再抽样法分析夫妻般配与家庭工资不平等

北京大学社会学系

博士研究生:李代

近年来,关于同型婚配的研究在社会学界得到越来越多的关注。本文采用LHSC1996与CGSS2012两个截面数据,首先用对数线性模型测量调查数据显示的夫妻教育匹配的同型程度,用相关系数测量工资收入上的相似程度。然后使用模糊置换检验,估量在控制年龄、城乡和地域之后教育程度上存在的匹配对家庭工资收入不平等指数泰尔指数(Theil Index)影响,并通过比较两个截面数据考察其变化趋势。

Latent Variable Modeling for Cognitive Assessment Through Second-Order Exponential Family

 Associate Professor in Statistics at Columbia University:刘京辰

Latent variable models are popular in the analysis of marketing, e-commerce, social network, and many other fields where human behaviors are observed and are summarized to a few characteristics. In this talk, I discuss a framework for latent variable models through a low-rank second-order exponential family. In this framework, the computational overhead is substantially reduced, which is crucial especially for nonlinear models and big data analysis. It is also convenient to incorporate additional graphical structures and other covariates. An R package is developed. I will illustrate the model and the package through several real data examples.

ezdf: 用户友好的标签数据框

中国社科院社会发展战略研究院

社会景气研究中心副主任:陈华珊

`ezdf` 包的目的是使 R 支持类似 SPSS 或 Stata 那样对用户友好的标签输出。`ezdf` 包并不是要定义一套新的制表函数,而是控制相关制表函数(如 `pander`)在输出时,能够自动带上对应的标签。除此之外,`ezdf` 也封装了几个常用的制表方法。

众所周知,在 R 的体系当中,并无变量标签或者数值标签的定义。对于类别变量,在 R 中使用 `factor` 类型可起到部分标签的功能。对于变量标签,在`data.frame` 中尽管可以直接使用标签来命名变量,例如 `df$/$$年龄` ,但是实际使用中多有不便。

在 R 中导入 SPSS 或 Stata 等传统统计软件的数据格式可有多个包来实现,例如 `foreign`、`readStata13`、`haven`、`sas7bdat` 等等。这些包在导入数据时,都能保持原数据中所定义的标签。然而所有这些包目前来说各有优缺点,即使对同一个格式也做不到支持各个版本的导入,因此难以提供一揽子解决方案。更重要的,各个包导入数据之后所定义的标签属性各不相同,导致对标签的使用难以统一。更不用说,在制作表格或者统计结果输出时,能够让 R 做到标签友好。

法律的定量分析及其实践

中豪律师集团公司

证券部合伙人:邵兴全

一直以来,法学被归入社会科学的范畴,主要采用定性及案例分析的方法展开研究。但随着法律经济学在英美国家的兴起,以统计为基础的研究方法,越来越多被用于法学研究与司法实践。在我国,司法判例被不断地公布,对其进行定量分析已具备初步基础,而今,无论是理论界与司法实务部门,都在积极采用大数据改进我们对司法系统的认识。本次演讲围绕法律的定量分析与隐私权保护展开,结合民商事、刑事等案件,展示如何对其进行定量分析,并得出有意义的结论。另外,本次演讲也会探讨大数据时代的隐私权保护问题。

软件工具

第十届中国R会议(北京)演讲嘉宾介绍(四)

利用css对shiny页面优化及利用htmlwidgets包创建HTML控件

乐逗游戏数据业务中心

高级数据分析师:谢佳标

本演讲将介绍如何利用CSS对shiny页面进行个性化设计及在网页中嵌入视频;并通过一个详细案例介绍了利用htmlwidgets包开发HTML控件,基于D3.JS库创建简单的交互桑基图,包括控件创建、函数修改、数据调用及与shiny结合的演示。

跟踪 R 社区动态 – R Weekly 的背后

R Weekly编辑部编辑:覃文锋

RWeekly.org 搭建了一个一站式的信息平台,通过网站,邮件,新浪微博 @rweekly 等渠道,实时地向来自140多个国家的读者推送社区的最新动态。每周的资讯速递帮助 R 用户快速地掌握社区一周内的最新进展。 近年来,R 社区发展迅速,CRAN 现在已有 10000+ 的程序包。学会发现,学习和使用现有的基础资源,掌握社区的最佳实践,可以节省时间、减少重复的轮子。 这个讲座将会介绍 R Weekly 的一些有趣的发现以及背后的故事。

Persistent Reproducible Reporting with Docker and R

Seven Bridges Genomics Program Management 

Genomic Data Scientist:肖楠

Automatic report generation has a massive number of use cases for reproducible research and commercial applications. Fortunately, most of the problems involved in this topic have been elegantly solved by knitr and the R Markdown specification for the R community. However, the issues on data persistence and operating system-level reproducibility were rarely considered in the context of reproducible report generation. Today, such issues have become a major concern in the current software implementations. In this talk, we will discuss potential approaches to tackle such problems, particularly with the help of modern containerization technologies. We will also demonstrate how to compose a persistent and reproducible R Markdown report with the help of the two R packages we developed: docker-r and liftr. Specifically, you will learn to dockerize your existing R Markdown documents, how to apply it to the analysis of petabyte-scale cancer genomics data on the Cancer Genomics Cloud, and how to distribute or reuse such containerized reports.

Learning R Internals and C++ via Rcpp

深圳谷雨科技研究部工程师:任乾

In the realm of high performance computing with R, users might take a learning path from R, Rcpp to some R internals. However, each one of the three parts can be challenging without a proper understanding of the other two. This lecture attempts to share my experience and viewpoint with those who have similar interests in gaining better understanding of how R works behind the scene while advancing their C++ skills.

社交网络

第十届中国R会议(北京)演讲嘉宾介绍(四)

Building User Profiles from Online Social Behaviors, with Applications in Tencent Social Ads

腾讯社交与效果广告部

质量研发中心总监:靳志辉

The QQ (800M monthly users) and Wechat (700M monthly users) are the two largest instant messaging / social networks in China. Tencent Social Ads is the advertising system for both Wechat and QQ, serving well over 10B page views per day, for hundred million daily users. 

We strive to understand as much as possible on our users’ multiple aspects, so as to serve the best personalized ads for them. The rich user behaviors on Tencent’s many products lay a solid foundation in user profiling. We develop audience targeting on many dimensions, including demographics, interests, intents, transactions, physical locations, and access environment, etc. 

In this presentation, we will share our experience in large-scale user data mining for audience targeting, and discuss the challenges we face and the solutions we have employed.

微信中的社会传播课题与实践

腾讯微信事业群研究院人员:高瀚

俗话说“酒香不怕巷子深”,表面上说的是酒香引人,实际上是指好酒在街坊邻里间口耳相传,酒借着口碑飘香千里,毋须大张旗鼓的门面,也自会有客似云来。这就是口碑营销,其背后是社会传播在起作用。线上社交工具的兴起,为传统的社会传播学带来了全新的研究视角,也提供了广阔的应用场景。本次分享将简要介绍微信中的社会传播问题、研究以及应用。

Kaggle 数据挖掘比赛经验分享

腾讯社交与效果广告部

数据挖掘工程师:陈成龙

Kaggle 是一个全球范围内具有很高影响力的大数据比赛平台,举办过很多有名的比赛,如KDD Cup。同时,不少知名的公司(如Google,Facebook,Microsoft等)也在 Kaggle 上发布题目,开放数据,吸引全球上万名数据科学家共同来解决业界难题。此次分享会首先介绍 Kaggle 比赛的一些基本情况,包括参赛方式,比赛流程,组队方式,在线论坛和编程环境等。进一步,我们会介绍 Kaggle 比赛项目类型,以及相应的常用机器学习技术和工具,涵盖图像分类,搜索相关性和 pCTR 等任务。最后会结合具体的比赛项目,分享特征工程,模型训练和模型集成等方面的一些经验。

从文本分析看小说中人物的复杂关系:以琅琊榜为例

中国人民大学统计学院助理教授:周静

本报告通过对人气网络小说《琅琊榜》进行小说三要素的文本分析,从人物形象、故事情节和典型环境三个方面进行剖析。在人物形象的分析中主要探索不同人物之间的关系、从他们的动作、语言等方面去探索他们不同的性格特征。在故事情节上,主要对小说的开端、发展、高潮和结局做了相应的分析,同时为了研究人物之间复杂的关系,我们对角色之间的亲密度、出场密度和称谓的变化等进行了分析。最后选取了几个典型环境来分析故事情节的发展。

On equivalence of likelihood maximization of stochastic block model and nonnegative matrix factorization, and beyond

中央财经大学统计与数学学院教授:张忠元

Community structures detection in complex network is important for understanding not only the topological structures of the network, but also the functions of it. Stochastic block model and nonnegative matrix factorization are two widely used methods for community detection, which are proposed from different perspectives. The relations between them are studied in this talk. The logarithm of likelihood function for stochastic block model can be reformulated under the framework of nonnegative matrix factorization. Besides the model equivalence, the algorithms employed by the two methods are different. Furthermore, we design new matrix factorization model for signed network, and its effectiveness is evaluated.

第十届中国R会议(北京)演讲嘉宾介绍(四)

特此通知:

目前第一阶段报名已截止,少数参会名额将于5月12日 20:00-24:00 开放,票务紧张,先报先得!

报名渠道请届时点击http://china-r-beijing2017.eventdove.com/,敬请期待!

第十届中国R会议(北京)演讲嘉宾介绍(四)

第十届中国R会议(北京)演讲嘉宾介绍(四)

统计之都:专业、人本、正直的中国统计学社区。

关注方式:扫描下图二维码。或查找公众帐号,搜索 统计之都 或 CapStat 即可。

往期推送:进入统计之都会话窗口,点击右上角小人图标,查看历史消息即可。


第十届中国R会议(北京)演讲嘉宾介绍(四)

no comments
Share