## Load Hail
import hail as hl


hl.init(log = 'hail_20210710.log')

Running on Apache Spark version 3.1.1
SparkUI available at http://ubuntu:4040
Welcome to
     __  __     <>__
    / /_/ /__  __/ /
   / __  / _ `/ / /
  /_/ /_/\_,_/_/_/   version 0.2.68-13190f0b6103
LOGGING: writing to hail_20210710.log


## Import Tables
gene_expr = hl.import_table('gene_expr_join.tsv', impute=True)
gene_loc = hl.import_table('gene_loc_join.tsv', impute=True)

2021-07-10 20:11:14 Hail: INFO: Reading table to impute column types
2021-07-10 20:11:17 Hail: INFO: Finished type imputation
  Loading field 'id' as type str (imputed)
  Loading field 'Sam_01' as type float64 (imputed)
  Loading field 'Sam_02' as type float64 (imputed)
  Loading field 'Sam_03' as type float64 (imputed)
  Loading field 'Sam_04' as type float64 (imputed)
  Loading field 'Sam_05' as type float64 (imputed)
2021-07-10 20:11:17 Hail: INFO: Reading table to impute column types
2021-07-10 20:11:17 Hail: INFO: Finished type imputation
  Loading field 'geneid' as type str (imputed)
  Loading field 'chr' as type str (imputed)
  Loading field 'start' as type int32 (imputed)
  Loading field 'end' as type int32 (imputed)


gene_expr.show()
gene_loc.show()


gene_expr = gene_expr.key_by('id')
gene_expr.describe()

----------------------------------------
Global fields:
    None
----------------------------------------
Row fields:
    'id': str 
    'Sam_01': float64 
    'Sam_02': float64 
    'Sam_03': float64 
    'Sam_04': float64 
    'Sam_05': float64 
----------------------------------------
Key: ['id']
----------------------------------------


gene_loc = gene_loc.key_by(gene_loc.geneid)
gene_loc.describe()

----------------------------------------
Global fields:
    None
----------------------------------------
Row fields:
    'geneid': str 
    'chr': str 
    'start': int32 
    'end': int32 
----------------------------------------
Key: ['geneid']
----------------------------------------


## Join the Tables (Inner Join)
join_table = gene_expr.join(gene_loc)


join_table.describe()

----------------------------------------
Global fields:
    None
----------------------------------------
Row fields:
    'id': str 
    'Sam_01': float64 
    'Sam_02': float64 
    'Sam_03': float64 
    'Sam_04': float64 
    'Sam_05': float64 
    'chr': str 
    'start': int32 
    'end': int32 
----------------------------------------
Key: ['id']
----------------------------------------


## Annotate a Field (chr) from gene_loc Table
gene_expr = gene_expr.key_by()
annot_table = gene_expr.annotate(chr = gene_loc[gene_expr.id].chr)
annot_table.describe()

----------------------------------------
Global fields:
    None
----------------------------------------
Row fields:
    'id': str 
    'Sam_01': float64 
    'Sam_02': float64 
    'Sam_03': float64 
    'Sam_04': float64 
    'Sam_05': float64 
    'chr': str 
----------------------------------------
Key: []
----------------------------------------


## Downsample gene_loc Table
filtered_gene_loc = gene_loc.sample(0.5)
filtered_gene_loc.show()

2021-07-10 20:59:51 Hail: INFO: Coerced sorted dataset


## Filter gene_expr Table through key in filtered_gene_loc Table
gene_expr = gene_expr.key_by(gene_expr.id)
filtered_gene_expr = gene_expr.semi_join(filtered_gene_loc)
filtered_gene_expr.show()

2021-07-11 01:04:21 Hail: INFO: Coerced sorted dataset
2021-07-11 01:04:22 Hail: INFO: Coerced sorted dataset


gene_expr = gene_expr.key_by()
filtered_gene_expr = gene_expr.filter(hl.is_defined(filtered_gene_loc[gene_expr.id]))
filtered_gene_expr.show()

2021-07-11 01:01:48 Hail: INFO: Coerced sorted dataset
2021-07-11 01:01:48 Hail: INFO: Coerced sorted dataset


# Export the Table
join_table.export('join_table.tsv')

2021-07-11 01:05:24 Hail: INFO: Coerced sorted dataset
2021-07-11 01:05:24 Hail: INFO: Coerced sorted dataset
2021-07-11 01:05:25 Hail: INFO: merging 1 files totalling 874...
2021-07-11 01:05:25 Hail: INFO: while writing:
    join_table.tsv
  merge time: 55.756ms


id	Sam_01	Sam_02	Sam_03	Sam_04	Sam_05
str	float64	float64	float64	float64	float64
"Gene_01"	4.91e+00	4.63e+00	5.18e+00	5.07e+00	5.74e+00
"Gene_02"	1.38e+01	1.31e+01	1.32e+01	1.30e+01	1.29e+01
"Gene_03"	1.21e+01	1.23e+01	1.31e+01	1.37e+01	1.39e+01
"Gene_04"	1.16e+01	1.19e+01	1.27e+01	1.27e+01	1.32e+01
"Gene_05"	1.47e+01	1.47e+01	1.46e+01	1.59e+01	1.55e+01
"Gene_06"	1.23e+01	1.22e+01	1.25e+01	1.32e+01	1.26e+01
"Gene_07"	1.26e+01	1.27e+01	1.25e+01	1.34e+01	1.36e+01
"Gene_08"	1.23e+01	1.26e+01	1.26e+01	1.30e+01	1.29e+01
"Gene_09"	9.82e+00	9.29e+00	8.95e+00	8.18e+00	8.11e+00
"Gene_10"	1.42e+01	1.45e+01	1.46e+01	1.37e+01	1.35e+01


geneid	chr	start	end
str	str	int32	int32
"Gene_01"	"chr1"	721289	731289
"Gene_02"	"chr1"	752565	762565
"Gene_03"	"chr1"	777121	787121
"Gene_04"	"chr1"	785988	795988
"Gene_05"	"chr1"	792479	802479
"Gene_06"	"chr1"	798958	808958
"Gene_07"	"chr1"	888658	898658
"Gene_08"	"chr1"	918572	928572
"Gene_09"	"chr1"	926430	936430
"Gene_10"	"chr1"	1000000	1010000


geneid	chr	start	end
str	str	int32	int32
"Gene_01"	"chr1"	721289	731289
"Gene_02"	"chr1"	752565	762565
"Gene_06"	"chr1"	798958	808958
"Gene_07"	"chr1"	888658	898658


id	Sam_01	Sam_02	Sam_03	Sam_04	Sam_05
str	float64	float64	float64	float64	float64
"Gene_01"	4.91e+00	4.63e+00	5.18e+00	5.07e+00	5.74e+00
"Gene_02"	1.38e+01	1.31e+01	1.32e+01	1.30e+01	1.29e+01
"Gene_06"	1.23e+01	1.22e+01	1.25e+01	1.32e+01	1.26e+01
"Gene_07"	1.26e+01	1.27e+01	1.25e+01	1.34e+01	1.36e+01


id	Sam_01	Sam_02	Sam_03	Sam_04	Sam_05
str	float64	float64	float64	float64	float64
"Gene_01"	4.91e+00	4.63e+00	5.18e+00	5.07e+00	5.74e+00
"Gene_02"	1.38e+01	1.31e+01	1.32e+01	1.30e+01	1.29e+01
"Gene_06"	1.23e+01	1.22e+01	1.25e+01	1.32e+01	1.26e+01
"Gene_07"	1.26e+01	1.27e+01	1.25e+01	1.34e+01	1.36e+01