gensim.models.Word2Vec()参数详解

model=gensim.models.Word2Vec(
	sentences=None, #分词语料
	
	corpus_file=None, 
	
	size=100, #size是神经网络层数，值太大则会耗内存并使算法计算变慢，一般值取为100到200之间。
	
	alpha=0.025, #学习率
	
	window=5, #句子中当前词与目标词之间的最大距离，3表示在目标词前看3-b个词，后面看b个词（b在0-3之间随机）
	
	min_count=5,#min_count是对词进行过滤，频率小于min-count的单词则会被忽视，默认值为5。
	
    max_vocab_size=None, #max_vocab_size: 设置词向量构建期间的RAM限制。如果所有独立单词个数超过这个，则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制。
    
    sample=1e-3, #sample表示更高频率的词被随机下采样到所设置的阈值，默认值为1e-3,
    
    seed=1, #seed：用于随机数发生器。与初始化词向量有关。
    
    workers=3, #workers是线程数，此参数只有在安装了Cpython后才有效，否则只能使用单核
    
    min_alpha=0.0001,#随着训练的进行，学习率线性下降到min_alpha。
    
    sg=0, #sg=1是skip—gram算法，对低频词敏感，默认sg=0为CBOW算法
    
    hs=0, #hs=1表示层级softmax将会被使用，默认hs=0且negative不为0，则负采样将会被选择使用。
    
    negative=5, #negative: 如果>0,则会采用negativesamping，用于设置多少个noise words
    
    ns_exponent=0.75, #负采样分布指数。1.0样本值与频率成正比，0.0样本所有单词均等，负值更多地采样低频词。
    
    cbow_mean=1, #cbow_mean: 如果为0，则采用上下文词向量的和，如果为1（defaut）则采用均值。只有使用CBOW的时候才起作用。
    
    hashfxn=hash, #哈希函数用于随机初始化权重，以提高训练的可重复性。
    
    iter=5, #迭代次数
    
    null_word=0,
    
    trim_rule=None, #trim_rule： 用于设置词汇表的整理规则，指定那些单词要留下，哪些要被删除。可以设置为None（min_count会被使用）
    
    sorted_vocab=1, #如果为1（defaut），则在分配word index 的时候会先对单词基于频率降序排序。
    
    batch_words=MAX_WORDS_IN_BATCH, #batch_words：每一批的传递给线程的单词的数量，默认为10000
    
    compute_loss=False, #如果为True，则计算并存储可使用get_latest_training_loss()检索的损失值。
    
    callbacks=(),#在训练中特定阶段执行回调序列。
    
    max_final_vocab=None#自动选择匹配的min_count将词汇限制为目标词汇大小。
    )
gensim.models.Word2Vec()参数详解

猜你喜欢